1. 2024年1月27日時点の言語モデルの評価は「難しく微妙である」
Googleの深層学習部門の責任者であり、Geminiの共同リードであるOriol Vinyalsは、言語モデルの評価は「難しく微妙である」と指摘しています。また、学術的な評価がAIモデルのトレーニングデータに漏れることもあると述べています。
Vinyalsは人間による評価を「非常に優れている」と呼び、Bard Gemini Pro(無料版)がlmsysでかなり高い位置に登ったことを「上位に上がったのは良い気分だ」と述べ、Gemini Ultraがさらに優れている可能性があると示唆しています。
2. Google Bard は、新しい Gemini モデルを搭載しています。
GoogleのBardチャットボットは新しいGeminiモデルによって動かされています。
初期ユーザーはこれをGPT-4と同等と評価しています。
GoogleのAI部門責任者であるJeff Deanは、新しいGeminiモデルをXで発表しました。
これは、サフィックスが「scale」のGemini Proファミリーのモデルです。
Geminiの更新により、Bardは「はるかに優れており」、Deanによれば
3月のリリース時と比べて「多くの機能が追加されています」。
Deanは「scale」が何を意味するかを説明していませんが、その名前からは
以前のProモデルの大きな(スケールした)バージョンである可能性が示唆されています
これは、ベンチマークによると、GPT-3.5(無料のChatGPT)さえも上回っていません。
ProはGoogleの2番目のGeminiモデルであり、
まだリリースされていないトップクラスのGemini Ultraのに位置しています。
ついに全言語に Gemini Pro が搭載されました
2024 年 2 月 1 日に大きく機能更新が行われました。
Gemini Pro が、Bard のベースとなる LLM(大規模言語モデル)として全言語で搭載されました。
これまでは、Gemini Pro は英語の Bard だけで使われていました。
現在では日本語で Bard を利用しても Gemini Pro が使われます。
Gemini Pro へのアップグレードにより次のようなタスクの向上を期待できます。
- 理解
- 要約
- 推論
- ブレインストーミング
- 執筆
- 計画
画像生成
さらにBard で画像を生成できるようになりました。
今のところは、英語のプロンプトだけで機能します。
日本語のインターフェイスでも、プロンプトが英語であれば機能します。
画像を作成させる日本語のプロンプトを Bard に英訳させて使うと便利かもしれません。
3. GPT-4との比較
Bard Gemini Pro “Scale” vs. GPT-4について
注目すべきことに、新しいProモデルは、中立的なチャットボットアリーナのベンチマークで、GPT-4モデル0314(2023年3月)と0613(2023年夏)の2つよりも前にすぐに2位になりましたが、GPT-4 Turbo(2023年11月)の後ろになりました。新しいBardモデルは、GPT-4のファランクスに初めて進出しました。
Chatbot Arenaは、チェスやeスポーツで使用されるEloレーティングシステムを使用して、さまざまな言語モデルのパフォーマンスを評価および比較します。アリーナでは、異なるモデルが無名でランダムに選択された対戦で互いに競います。
ユーザーはモデルと対話し、好みの応答を投票します。これらの投票は、リーダーボードでのランキングを決定するために使用されます。プラットフォームはすべてのユーザーの相互作用を収集しますが、ユーザーが名前を尋ねなかった場合、つまりユーザーが名前を尋ねなかった場合にのみ投票がカウントされます。
4. 現在の評価データの限界
新しいBardモデルはこれまでに約3,000回しか評価されていませんが、GPT-4モデルは最大で30,000回評価されています。そのため、結果はまだ変動する可能性があり、ベンチマークの差異は一般に小さいです。GPT Pro-Scaleの代替ベンチマークの結果は利用できません。
5. Gemini Ultraの期待
Googleは、すぐにリリースされるGemini Ultraというより強力なAIモデルについて興味を持っており、これがGemini Pro-Scaleをさらに上回ると予想されています。
まとめ
GoogleはBardチャットボット向けの新しいGeminiモデルを発表しました。このモデルは、人間による評価ではGPT-4と同等の評価を受けています。新しいProモデルは、Chatbot Arenaの中立的なベンチマークで2位にランクされていますが、2つの古いGPT-4モデルの前に位置しています。
Googleは近々、より強力なGemini Ultra AIモデルをリリースする予定であり、これはおそらくGemini Pro-Scaleをさらに上回るでしょう。
5つのFAQ
1. Bard Geminiモデルとは何ですか?
Bard Geminiモデルは、Googleが開発した最新の言語モデルであり、Bardチャットボットに統合されています。このモデルは、GPT-4と同等の性能を持っています。
2. Gemini Ultraはどのようなものですか?
Gemini Ultraは、Googleがまもなくリリースする予定の最も強力なAIモデルです。これは、Gemini Pro-Scaleをさらに上回る性能を持っていると期待されています。
3. Chatbot Arenaはどのようにして言語モデルを評価しますか?
Chatbot Arenaは、ユーザーが無名の状態で異なる言語モデルと対話し、その応答を評価することによって言語モデルを評価します。この評価は、ユーザーがモデルの名前を知らない場合にのみ投票がカウントされます。
4. 言語モデルの人間による評価はなぜ重要ですか?
人間による評価は、言語モデルの実世界の使用における実際のパフォーマンスを反映します。これにより、モデルの実用性や適合性をより正確に評価することができます。
5. Bard Gemini Proモデルの評価結果は信頼できますか?
Bard Gemini Proモデルの評価結果は一部しか利用できていないため、まだ信頼性が不足しています。評価結果は、より多くのデータが利用可能になるまで変動する可能性があります。
まとめ
Googleの新しいBard Geminiモデルは、GPT-4と同等の評価を受けており、AI技術の進化を示しています。Gemini Pro-ScaleはChatbot Arenaのベンチマークで2位にランクされており、Gemini Ultraのリリースが待ち遠しいです。