Apple、GitHubにてAI画像編集のための大規模データセット「Pico-Banana-400K」を公開
※本サイトは、アフィリエイト広告および広告による収益を得て運営しています。購入により売上の一部が本サイトに還元されることがあります。
Appleが、GitHubにて、テキストガイド型画像編集の研究を推進するために設計された、約40万件のテキスト-画像-編集トリプレットからなる大規模データセット「Pico-Banana-400K」を公開しています。
Googleの世界最大の画像データセットOpen Imagesから取得したSFT用シングルターンテキスト-画像-編集トリプレット約257,000件、選好学習用シングルターンテキスト-画像(肯定的)-画像(否定的)-編集約56,000件、マルチターン応用向けマルチターンテキスト-画像-編集約72,000件を学習させています。
画像解像度は512–1024 Pixel、プロンプト生成はGemini-2.5-Flash、編集モデルはNano-Bananaとなります。
本データは完全に実写写真で構築されていて、Appleが社内で開発したNano-Bananaモデルで編集を生成後、品質保証の自動視覚判定としてGemini 2.5 Proを通し、全画像が指示順守度・現実感・保存性で評価され、最高水準の結果のみが採用されています。
8つの意味カテゴリにまたがる35種類の編集操作、ピクセル・測光、オブジェクトレベル、シーン構成、様式、テキスト・記号、人間中心、スケール・視点、空間/レイアウトカテゴリも含まれます。
Creative Commons Attribution-NonCommercial-NoDerivatives (CC BY-NC-ND 4.0) ライセンスに基づいてリリースされていて、研究および非商用目的での使用は無料ですが、商用利用および派生的な再配布は許可されていません。
