Meta の新しい最先端の多用途画像モデルは、ライセンスされたデータのみでトレーニングされています
最新の技術によって、画像とテキストの相互作用が進化し続けています。その中でも、FacebookやInstagramといったSNSを開発するMetaの人工知能(AI)研究所であるMeta AIが、テキストから画像を生成したり、画像からテキストを生成したりすることができる単一のAIモデル「CM3leon(カメレオン)」を発表しました。Meta の新しい最先端の多用途画像モデルであるCM3leonは、注目に値する存在です。
Introducing CM3leon, a first-of-its-kind multimodal model that achieves state-of-the-art performance for text-to-image generation with 5x the compute efficiency of competitive models.
MetaAI
画像とテキストの理解と生成が可能なCM3leon
最新の画像モデルであるMetaのCM3leonは、テキストと画像の両方を理解し、生成することができます。このモデルは、テキストの説明から画像を生成したり、画像に基づいてテキストを生成したりすることができるため、さまざまなタスクに非常に役立ちます。
我々は、画像キャプション生成、視覚的質問応答、テキストベースの編集、条件付き画像生成などの様々なタスクにおいて、命令チューニングがマルチモーダルモデルのパフォーマンスを顕著に増幅することを発見した。
(Meta の研究論文)
この、「テキスト」と「画像」の双方向への変換が可能であるモデルは、現在のところ、このCM3leonだけであり、更にCM3leonは、テキストのみの言語モデルを応用したレシピで学習させた最初のマルチモーダルモデルでもあるという。
CM3leon: 新しい画像モデル
CM3leon(「カメレオン」と発音)は、テキストから画像への生成と画像からテキストへの生成の両方が可能な単一の基盤モデルです。これは、テキストのみの言語モデルをベースにしており、テキストと画像の両方を入力および生成できるように訓練された最初のマルチモーダルモデルです。
CM3leon のアーキテクチャ
CM3leonのアーキテクチャは、テキストベースのモデルと同様に、デコーダ専用のトークナイザーベースのトランスフォーマーネットワークを使用しています。このモデルは、以前の作業(RA-CM3)に基づいて構築されており、トレーニング中に外部データベースを検索する「検索拡張」と呼ばれる機能を使用しています。他のモデルは、提供された生データからのみ学習する可能性がありますが、検索拡張機能を備えたモデルは、トレーニング中に最も関連性の高い多様なデータを積極的に探し出すことで、トレーニングフェーズがより堅牢かつ効率的になります。
マルチタスクのカメレオン
CM3leonは、大規模なマルチタスク命令チューニングにより、さまざまなタスクを実行できます。具体的には、テキストガイド付き画像の生成と編集、テキストから画像への生成、テキストガイド付き画像編集、キャプション生成、視覚的な質問応答、構造ガイド付きなどのタスクを効率的に実行できます。
CM3Leonのアーキテクチャは、テキストベースのモデルと同様に、デコーダのみのトークナイザベースの変換ネットワークを使用している。これは以前の研究(RA-CM3)を基にしたもので、「検索補強」と呼ばれ、学習時に外部データベースを利用する。他のモデルは、与えられた生データから学習するだけかもしれないが、検索補強を備えたモデルは、学習プロセスにおいて最も関連性の高い多様なデータを学習中に積極的に探し出すため、学習段階がよりロバストで効率的になる。
「命令チューニング」とは、テキスト形式で与えられた命令に従ってモデルがトレーニングされることを意味します。たとえば、「海に沈む夕日の画像を説明してください」という指示を与えると、AIモデルはその指示に基づいて説明を生成します。モデルは、さまざまなタスクにおける具体的な例に基づいてトレーニングされています。
CM3leonはREALMとセカンドマルチタスクファインチューニング(STF)ステージを含む、テキストのみの言語モデルを利用してトレーニングされた最初のマルチモーダルモデルです。CM3Leonのパフォーマンス向上の鍵のSFTは(Supervised Fine-Tuning)と呼ばれるテクニックでSFTは、OpenAIのChatGPTのようなテキスト生成モデルのトレーニングに使用され、大きな効果を上げている。実際、命令チューニングにより、CM3Leonは画像生成だけでなく、画像キャプションの作成でも性能が向上し、画像に関する質問に答えたり、テキスト命令(例えば「空の色を明るい青に変えてください」)に従って画像を編集したりできるようになっています。
Metaはまた、テキストのみのモデルに適用されたスケーリングレシピが、トークン化ベースの画像生成モデルに直接一般化されると述べています。これにより、より多くのデータで長時間トレーニングされたより大きなモデルが作成され、さらに優れた結果が得られる可能性があります。CM3leonのトレーニングには、膨大な量のデータに対する大規模な検索拡張事前トレーニングフェーズが含まれており、その後、指示による教師あり微調整(SFT)フェーズが行われています。
テキストから画像への変換の領域における画像データのソーシングの倫理的な意味合いは、かなり議論の的となっている。本研究では、Shutterstock のライセンス画像のみを使用する。その結果、パフォーマンスを犠牲にすることなく、画像の所有権や帰属に関する懸念を回避することができる。
(Meta の研究論文)
画像生成の最先端
CM3leonは、画像生成ベンチマーク(ゼロショットMS-COCO)においてFID(Fréchet Inception Distance)スコア4.88を達成しました。これは最新の結果であり、Googleの「Parti」のパフォーマンスを上回っているそうです。
より一貫性、より多くのライセンス、より多くのメタバース
Metaによれば、CM3leonは複雑な入力命令にも従う一貫した画像の生成に優れています。グローバルな形状とローカルな詳細を適切に復元し、プロンプトに表示されるテキストや数値を生成することができます。また、以前はInstruct Pix2Pixなどの特殊なモデルが必要だったテキストガイドによる画像編集などのタスクも解決できます。
さらに、CM3leonは詳細なキャプションの生成も可能であり、逆プロンプトを表示して画像の作成や編集、または合成トレーニングデータセットの作成に使用することができます。Metaによれば、CM3leonは、より少ないテキスト(30億テキストトークン)でトレーニングされているにもかかわらず、Flamingo(1000億トークン)やOpenFlamingo(400億トークン)と比べて、CM3leon(30億トークン)はトークン数が非常に少ないにもかかわらず、MS-COCOのベンチマークでこれらと同等のパフォーマンスを発揮しており、Flamingoのスコアを上回ることさえあったそうです。
ECサイト運営でCM3leonは活かせる?
ECサイト運営におけるCM3leonの利用は、製品画像や商品説明の生成、ユーザーとのインタラクションの向上、さらにはパーソナライズされた体験の提供など、多岐にわたる可能性があります。
- 商品画像生成
テキストから画像を生成するCM3leonの能力は、新商品のプロトタイプ画像を素早く作成する際に非常に役立つでしょう。新商品のアイデアがあるがまだ製品画像がない場合、CM3leonにテキスト説明を与えるだけで見た目のイメージを得ることができます。 - 商品説明の生成
CM3leonは商品の画像から詳細な説明を生成することもできます。これは、商品をアップロードするだけで自動的に詳細な説明を生成し、時間と労力を節約することができます。 - ユーザーインタラクションの向上
質問応答能力を利用して、ユーザーの商品に対する質問に対応するチャットボットを作成することができます。例えば、ユーザーが「このTシャツは何色ですか?」と質問すれば、モデルは商品の画像を分析し、正確な色を回答することができます。 - パーソナライズされた体験の提供
CM3leonはユーザーの好みや行動から学習し、それに基づいてパーソナライズされた商品推薦を生成することが可能です。ユーザーがある商品の画像をアップロードした場合、それに類似した商品を推薦することができます。
まとめ
Metaの新しい画像モデルCM3leonは、テキストと画像の理解と生成が可能であり、テキストに基づいた画像生成や画像に基づいたキャプション生成、視覚的な質問応答などのタスクを効率的に実行することができます。従来のトランスフォーマーベースの方法よりも計算効率が高くなっています。
CM3leonは、大規模なマルチタスク向けに命令チューニングを採用し、テキストベースの画像生成や編集などのタスクで高いパフォーマンスを発揮します。画像生成ベンチマークでは、最新のFréchet Inception Distance(FID)スコア4.88を達成しました。
最後に、CM3leonはライセンスされた画像とテキストデータのみを使用してトレーニングされており、画像の所有権と帰属に関する懸念が軽減されています。Metaは、この開発が高品質な画像生成に向けた重要な一歩であり、メタバースでのアプリケーションの発展を後押しするものであると考えています。
拡散モデルは、その強力な性能と比較的控えめな計算コストのために、最近、画像生成の仕事を支配しています。これとは対照的に、トークンベースの自己回帰モデルは、特に大域的な画像のコヒーレンスをさらに向上させるなど、強力な結果をもたらすことが知られているが、学習や推論に使用するにははるかにコストがかかる。
(Meta の研究論文)
よくある質問(FAQ)
Q: CM3leonはどのようなタスクに利用できますか?
A: CM3leonはテキストガイド付き画像の生成と編集、テキストから画像への生成、キャプション生成、視覚的な質問応答などのタスクに利用することができます。
Q: CM3leonの画像生成能力はどの程度優れていますか?
A: CM3leonは最新の画像生成ベンチマークにおいて、Fréchet Inception Distance(FID)スコア4.88を達成し、高品質な画像生成能力を持っています。
Q: CM3leonはどのようなデータでトレーニングされていますか?
A: CM3leonはライセンスされた画像とテキストデータのみを使用してトレーニングされています。
Q: CM3leonは他のモデルと比較して効率的ですか?
A: Metaによれば、CM3leonは従来のトランスフォーマーベースの方法よりも計算効率が高く、同等以上のパフォーマンスを発揮しています。
Q: CM3leonはどのような将来の可能性を持っていますか?
A: MetaはCM3leonの開発が高品質な画像生成に向けた重要な一歩であり、またメタバースでのアプリケーションの発展を後押しするものと考えています。
生成AI「CM3leon」特徴まとめ
- CM3Leon(カメレオンと発音)は、テキストと画像の両方を生成して埋め込むことができる、検索を強化したトークンベースのデコーダのみのマルチモーダル言語モデルである。
- CM3LeonはCM3マルチモーダルアーキテクチャを使用していますが、さらに、より多様なインストラクションスタイルのデータに対して、スケールアップとチューニングを行うことの非常に大きな利点を示しています。
- これは、テキストのみの言語モデルから適応されたレシピで学習された最初のマルチモーダルモデルであり、大規模な検索で補強された事前学習ステージと、2番目のマルチタスク教師付き微調整(SFT)ステージを含む。
- テキストから画像への生成と画像からテキストへの生成の両方が可能な汎用モデルであるため、高品質な出力を生成する自己完結型のコントラストデコーディング手法を導入することができる。
- 広範な実験により、このレシピがマルチモーダルモデルに非常に有効であることが実証されている。
- CM3Leonは、同等の手法よりも5倍少ない学習量で、テキストから画像への生成において最先端の性能を達成した(ゼロショットのMS-COCO FIDは4.88)。
- SFTの後、CM3Leonは、言語ガイドによる画像編集から画像制御による生成やセグメンテーションに至るまで、前例のないレベルの制御性を示すこともできる。
論文
参考文献
- Meta AI: Introducing CM3leon, a more efficient, state-of-the-art generative model for text and images