Apple、精度と遅延のトレードオフを実現する視覚言語モデル「FastVLM」を発表

※本サイトは、アフィリエイト広告および広告による収益を得て運営しています。購入により売上の一部が本サイトに還元されることがあります。

FastVLM

Appleが、CVPR 2025において、テキスト入力に加え、視覚的な理解を可能にする視覚言語モデル（VLM）に関して、シンプルな設計で精度とレイテンシのトレードオフを大幅に改善する新しいタイプのVLM「FastVLM」を発表しています。

高解像度画像向けに設計されたハイブリッドアーキテクチャのビジュアルエンコーダーを活用したFastVLMは、正確で高速かつ効率的なビジュアルクエリ処理を実現し、デバイス上で動作するリアルタイムアプリケーションの開発に適しています。

VLMは、視覚的理解とテキスト理解を組み合わせることで、様々な有用なアプリケーションを実現できます。これらのモデルの精度は一般的に入力画像の解像度に対応するため、精度と効率性の間でパフォーマンスのトレードオフが生じることが多く、高い精度と優れた効率性の両方が求められるアプリケーションではVLMの価値が限られていました。

FastVLMは、高解像度画像向けに構築されたハイブリッドアーキテクチャのビジョンエンコーダであるFastViTHDを活用することで、このトレードオフに対処します。シンプルな設計により、FastVLMは精度と効率の両方において従来のアプローチを凌駕し、リアルタイムのデバイス内アプリケーションに適したデバイス内ビジュアルクエリ処理を実現します。

Apple、精度と遅延のトレードオフを実現する視覚言語モデル「FastVLM」を発表

関連記事

Apple、Apple Intelligenceにさらに8つの新しい言語と地域でも提供開始（中国本土除く）

Apple、GitHubにてAI画像編集のための大規模データセット「Pico-Banana-400K」を公開

Apple、Foundation Models Frameworkを活用したアプリを紹介

Apple、人間中心の機械学習に関するAppleワークショップ2024の動画を公開

Meta、元AppleのAI/ML担当特別エンジニアRuoming Pang氏を引き抜き

EUの公開情報から、Appleが新たに3社を買収していたことが明らかに

新着記事

Apple、iPad Pro (M5)などを追加したアクセサリーガイドライン「Accessory Design Guidelines for Apple Devices R28」を公開

アドビ、AI搭載のPDF作成・編集プラットフォーム「Adobe Acrobat Studio」を発表

ディズニー取締役会、元Apple最高執行責任者Jeff Williams氏を取締役に指名

Dr.Buho製品「BuhoNTFS」をベクターPCショップで販売開始

AGC、化学強化用特殊ガラス（Dragontrailシリーズ）事業から撤退

MacOTAKARAの広告に関して（Regarding advertising）