NEWS

Apple、GitHubにてAI画像編集のための大規模データセット「Pico-Banana-400K」を公開

※本サイトは、アフィリエイト広告および広告による収益を得て運営しています。購入により売上の一部が本サイトに還元されることがあります。

Pico-Banana-400K

Pico-Banana-400K

Appleが、GitHubにて、テキストガイド型画像編集の研究を推進するために設計された、約40万件のテキスト-画像-編集トリプレットからなる大規模データセット「Pico-Banana-400K」を公開しています。

Googleの世界最大の画像データセットOpen Imagesから取得したSFT用シングルターンテキスト-画像-編集トリプレット約257,000件、選好学習用シングルターンテキスト-画像(肯定的)-画像(否定的)-編集約56,000件、マルチターン応用向けマルチターンテキスト-画像-編集約72,000件を学習させています。

画像解像度は512–1024 Pixel、プロンプト生成はGemini-2.5-Flash、編集モデルはNano-Bananaとなります。


Pico-Banana-400K

Pico-Banana-400K

本データは完全に実写写真で構築されていて、Appleが社内で開発したNano-Bananaモデルで編集を生成後、品質保証の自動視覚判定としてGemini 2.5 Proを通し、全画像が指示順守度・現実感・保存性で評価され、最高水準の結果のみが採用されています。

8つの意味カテゴリにまたがる35種類の編集操作、ピクセル・測光、オブジェクトレベル、シーン構成、様式、テキスト・記号、人間中心、スケール・視点、空間/レイアウトカテゴリも含まれます。

Creative Commons Attribution-NonCommercial-NoDerivatives (CC BY-NC-ND 4.0) ライセンスに基づいてリリースされていて、研究および非商用目的での使用は無料ですが、商用利用および派生的な再配布は許可されていません。


関連記事

この記事のハッシュタグ から関連する記事を表示しています。

新着記事