【人間と同じように学習から判断する】Google Deepmindの最新AIモデル『RT-2』

2023年7月30日

Google Deepmindの最新AIモデルRT-2は「話せるロボット」

ロボット工学の進化は、人間とロボットのコミュニケーションを向上させるために常に新しいモデルと技術の導入を迫られてきました。Google Deepmindが開発したRT-2という最新のAIモデルは、ロボットと人間のコミュニケーションを革命的に進化させるものとして注目を集めています。この記事では、RT-2の概要とその重要性について詳しく見ていきます。

Google Deepmind’s latest AI model RT-2 | 出典 Google Deepmind

Google Deepmindとは？

Google Deepmindは、Googleが開発したAI技術を手がける組織であり、革新的な機械学習アルゴリズムやロボット工学における最先端の技術を生み出しています。その中でもRT-2は、ロボット制御に革新をもたらす最新のモデルとして注目を浴びています。

DeepMind Technologies（ディープマインド・テクノロジーズ）は、イギリスにあるAlphabetの人工知能子会社である。2010年にDeepMind Technologiesとして起業され、2014年にGoogleによって買収された^[3]。ロンドンを拠点とし、カナダ^[4]、フランス^[5]、米国にも研究センターを持つ。2015年、Googleの親会社であるAlphabetの完全子会社となった。
Wikipedia

ロボット制御の新たな進化

RT-2の開発には、ロボットのデータと一般的なWebデータの両方を学習データとして活用しています。これにより、ロボットはより正確な命令を生成することができるようになりました。ロボット工学の分野では、特に大規模な言語モデル (LLM) の出現以来、Webデータで訓練されたモデルの活用が進められてきました。そのため、RT-2は日常のロボット制御において非常に役立つことが期待されています。

RT-2の特徴と機能

マルチモーダルなロボット動作の実現

RT-2は、ロボットのデータ、言語、視覚を組み合わせて、マルチステップかつマルチモーダルなロボット動作を実現します。これにより、ロボットはさまざまな状況において、複雑なタスクを効率的にこなすことが可能となります。

昨年末に導入されたロボティクス・トランスフォーマー1（RT-1）に基づいており、これはオフィス兼キッチン環境で17か月にわたって13台のロボットから収集されたロボット・デモンストレーション・データで訓練された初の「大型ロボット・モデル」である。

ビジョン言語モデル (VLM) の活用

RT-2の開発にあたり、研究チームはPaLM-EとPaLI-Xに基づくビジョン言語モデル (VLM) を使用しました。この組み合わせにより、ロボットは視覚的な入力とテキスト入力の両方から適切なコマンドを導き出すことができます。例えば、SayCanは言語のみに依存していた従来のシステムよりも高度な理解力を持つことが可能となります。

3段階のアプローチによる堅牢性

RT-2の堅牢性は3段階のアプローチによって実現されています。まず、Webデータから学習し、モデルに言語基盤と日常的なロジックを提供します。次に、ロボットデータから学習し、実践的な理解をモデルに提供します。最後に、これら2つのデータセットを組み合わせることで、RT-2は現実世界のシナリオに基づいた正確なロボット制御のコマンドを理解して生成することができるのです。

RT-2 を使用すると、ロボットも人間と同じように学習できるようになり、学習した概念を移すことができます。

With RT-2, robots are able to learn more like we do — transferring learned concepts to new situations. Not only does RT-2 show how advances in AI are cascading rapidly into robotics, it shows enormous promise for more general-purpose robots.
Google Deepmind

RT-2の実践的な応用

ゴミの処理と認識

従来のロボットは特定のタスクにおいては優れた性能を発揮するものの、新しいタスクに対しては学習が必要でした。例えば、ゴミの処理といったタスクにおいて、ロボットはゴミとは何か、それをどのように認識し、どのように処理すべきかを明示的に学習する必要があります。しかし、RT-2はWebに関する広範な知識を活用することで、ガベージを特定して処理し、以前はトレーニングされていないアクションを実行することが可能です。このような抽象的な概念を理解することで、RT-2は新しいタスクに対しても柔軟かつ効率的に対応することができます。 (例えば、バナナの皮やポテトチップスの袋は食べる前までは有用性があり、開封や皮を剥くとゴミになるなどを学習せず判断)

思考連鎖技術の活用

RT-2は「思考連鎖」技術を活用することで、多段階の推論が可能となります。例えば、石が紙よりも即席のハンマーとして優れている理由や、疲れた人には栄養ドリンクが必要な理由を推論し、より適切な決定を下すことができます。このような高度な推論能力により、RT-2はさまざまな状況において人間のような判断を行うことができるのです。

環境への適応性向上

RT-2は獲得した知識を新しいシナリオにも応用することで、さまざまな環境へのロボットの適応性を向上させます。これにより、ロボットは訓練されたタスクでは前世代のRT-1と同等のパフォーマンスを発揮しつつ、訓練されていないタスクにおいても大きな進歩を遂げることができるのです。RT-2は、新しい状況に対しても適切に対応することで、実用的な応用が期待されるモデルと言えます。

RT-2の性能評価と成果

RT-2は6,000回以上のロボットテストで実証され、訓練されたタスクでは前世代のRT-1と同等のパフォーマンスを示し、訓練されていないタスクでは成功率がほぼ2倍に向上し、32％から62％に向上しました。これにより、RT-2は前世代のモデルよりも優れた性能を発揮していることが証明されました。

まとめ

Google DeepMindが開発したRT-2は、ロボット制御の分野において大きな進化をもたらす最新のAIモデルです。マルチモーダルなロボット動作の実現、ビジョン言語モデルの活用、そして3段階の堅牢なアプローチにより、RT-2は現実世界の状況に適切に対応する能力を持っています。今後のロボット工学の進化に期待が高まる一方で、RT-2がもたらす新たな可能性はますます広がることでしょう。

よくある質問

RT-2はどのような技術を使用していますか？
- RT-2は、ロボットのデータとWebデータを学習データとして活用し、マルチモーダルなロボット動作を実現するためのビジョン言語モデルを活用しています。
RT-2はどのようなタスクに向いていますか？
- RT-2は、多様な環境や状況において、柔軟かつ効率的にタスクを実行することができます。特に訓練されていないタスクに対しても高い成功率を示すことができます。
RT-2の性能はどの程度進化していますか？
- RT-2は、前世代のRT-1と比較して大きな進化を遂げており、訓練されていないタスクにおいては成功率がほぼ2倍に向上しています。
RT-2を活用することで得られるメリットは何ですか？
- RT-2を活用することで、ロボットはより人間らしい学習能力を持ち、新しい状況にも適応することができます。これにより、ロボットの実用性がさらに向上します。
RT-2の将来の展望はどうなっていますか？
- RT-2の成功により、ロボット工学のさらなる進化が期待されます。将来的には、より高度なAIモデルが開発され、ロボットと人間のコミュニケーションが一層進化する可能性があります。

この記事を書いた人

ロジウラ

経験・スキル
GUGA 生成AIパスポート取得

■ECサイト運営
（楽天 Amazon Yahoo Qoo10 futureshop AuPAYマーケットメルカリShops )
■ブログ記事作成
（月間0PV→月間10万PVまで育成・運営中）
■クリック型広告運用
（RPP クーポンアドバンスプラチナマッチアイテムマッチ)
■Google広告運用、Googleアナリティクス分析

使用ツール
Photoshop Illustrator Premiere Pro
Mail Dealer EC店長 Logic pro Cubase