Apple、GitHubにてAI画像編集のための大規模データセット「Pico-Banana-400K」を公開

※本サイトは、アフィリエイト広告および広告による収益を得て運営しています。購入により売上の一部が本サイトに還元されることがあります。

Pico-Banana-400K

Appleが、GitHubにて、テキストガイド型画像編集の研究を推進するために設計された、約40万件のテキスト-画像-編集トリプレットからなる大規模データセット「Pico-Banana-400K」を公開しています。

Googleの世界最大の画像データセットOpen Imagesから取得したSFT用シングルターンテキスト-画像-編集トリプレット約257,000件、選好学習用シングルターンテキスト-画像(肯定的)-画像(否定的)-編集約56,000件、マルチターン応用向けマルチターンテキスト-画像-編集約72,000件を学習させています。

画像解像度は512–1024 Pixel、プロンプト生成はGemini-2.5-Flash、編集モデルはNano-Bananaとなります。

Pico-Banana-400K

本データは完全に実写写真で構築されていて、Appleが社内で開発したNano-Bananaモデルで編集を生成後、品質保証の自動視覚判定としてGemini 2.5 Proを通し、全画像が指示順守度・現実感・保存性で評価され、最高水準の結果のみが採用されています。

8つの意味カテゴリにまたがる35種類の編集操作、ピクセル・測光、オブジェクトレベル、シーン構成、様式、テキスト・記号、人間中心、スケール・視点、空間/レイアウトカテゴリも含まれます。

Creative Commons Attribution-NonCommercial-NoDerivatives (CC BY-NC-ND 4.0) ライセンスに基づいてリリースされていて、研究および非商用目的での使用は無料ですが、商用利用および派生的な再配布は許可されていません。

Apple、GitHubにてAI画像編集のための大規模データセット「Pico-Banana-400K」を公開

関連記事

Apple、Apple Intelligenceにさらに8つの新しい言語と地域でも提供開始（中国本土除く）

Apple、Foundation Models Frameworkを活用したアプリを紹介

Apple、人間中心の機械学習に関するAppleワークショップ2024の動画を公開

Apple、精度と遅延のトレードオフを実現する視覚言語モデル「FastVLM」を発表

Meta、元AppleのAI/ML担当特別エンジニアRuoming Pang氏を引き抜き

EUの公開情報から、Appleが新たに3社を買収していたことが明らかに

新着記事

アドビ、ChatGPTでAdobe Photoshop、Adobe Express、Adobe Acrobat を活用可能に

Apple、iPad Pro (M5)などを追加したアクセサリーガイドライン「Accessory Design Guidelines for Apple Devices R28」を公開

アドビ、AI搭載のPDF作成・編集プラットフォーム「Adobe Acrobat Studio」を発表

ディズニー取締役会、元Apple最高執行責任者Jeff Williams氏を取締役に指名

Dr.Buho製品「BuhoNTFS」をベクターPCショップで販売開始

MacOTAKARAの広告に関して（Regarding advertising）