GPT-4 アーキテクチャ、データセット、コストなどが漏洩
GPT-4とは、OpenAIの次世代の言語モデルであり、その詳細が最近、SemiAnalysisという調査会社による新しいレポートで明らかにされました。このレポートによれば、「OpenAIがGPT-4のアーキテクチャを非公開にしている理由は、人類の存亡に関わるリスクではなく、彼らが構築したものが複製可能であるため」と結論付けられています。この報告書の詳細はTwitterとPastebinで漏洩し、George Hotz氏を含む多くの人々がこれまでの情報の正当性を確認しました。
GPT-4のアーキテクチャとパラメータ
GPT-4は、Mixture of Experts(MoE)アーキテクチャを採用しており、1兆7600億のパラメータを持つと言われています。このモデルは、8つの異なるモデルで構成されており、それぞれが22億のパラメータを持っています。これらのモデルはMoEアーキテクチャで結合されており、30年以上にわたり言語モデルの開発に使われてきたGoogleのSwitch Transformerなどの大規模なモデルと同様のアイデアです。
MoEモデルは、複数の「エキスパート」モデルを組み合わせて意思決定を行うアンサンブル学習の一種です。各エキスパートの出力の重みは、ゲートネットワークによって入力に基づいて決定されます。これにより、さまざまなエキスパートが入力の異なる側面に特化することができます。このアーキテクチャの利点は、問題をより単純な部分に分割し、大規模かつ複雑なデータセットに効果的に対処することができることです。
ChatGPT-4のパラメータ数
GPT-4は120層にわたる合計約1.8兆個のパラメーターを持っています。これはGPT-3の10倍以上です。パラメーターのうち約55Bはアテンション用の共有パラメーターで、残りは専門家の混合(MoE)モデルに分散されています。
ChatGPT-4 MoEモデル
MoEモデルとは、モデル内で複数のエキスパートと呼ばれる小さなサブネットワークを利用するものです。各エキスパートはMLPの約111Bのパラメーターを持ちます。各フォワードパスでは、各トークンがどのエキスパートにルーティングされるかが決定されます。OpenAIは16個のエキスパートを使用しており、フォワードパスごとに2個が選択されます。
MoEモデルの利点は、コストを抑えながら大規模なモデルをトレーニングできることです。各フォワードパス推論(1トークンの生成)には約280Bのパラメーターと約560TFLOPしか使用しません。これは純粋に密なモデルでは約1.8兆個のパラメーターと約3,700TFLOPが必要となることと比べて大幅に少ないです。
MoEモデルの欠点は、推論時に扱いにくいことです。エキスパートが休止状態になる可能性があるため、利用率が低下する可能性があります。また、エキスパートの数を増やすと一般化や収束が難しくなる可能性があります。OpenAIはエキスパートの数を控えめにすることでリスクを回避しました。
ChatGPT-4のデータセット
GPT-4は約13T個のトークンで学習されました。これらはエポックも含めてカウントされており、ユニークなトークンではありません。テキストベースのデータは2エポック、コードベースのデータは4エポックで学習されました。また、ScaleAlと内部から数百万行の命令微調整データも使用されました。
ChatGPT-4 32K
GPT-4には32kのコンテキスト長(seqlen)のバージョンもあります。これは事前トレーニング後に8kのバージョンを微調整したものです。事前トレーニング段階では8kのコンテキスト長が使用されました。
ChatGPT-4のバッチサイズ
バッチサイズはクラスタ上で何日もかけて徐々に上げていきましたが、最終的にOpenAIは6000万のバッチサイズを使用しました。これはエキスパートあたり750万トークンのバッチサイズに相当します。しかし、これはすべてのエキスパートがすべてのトークンを見ているわけではないため、実際のバッチサイズはseq lenで割った値になります。
ChatGPT-4の並列化戦略
GPT-4はすべてのA100 GPUで並列化されています。8ウェイテンソル並列と15ウェイパイプライン並列を使用しています。おそらくZeRo Stage 1やブロックレベルのFSDPも使用しています。
GPT-4のトレーニングコスト
OpenAIのGPT-4のトレーニングFLOPSは約2.15e25で、約25,000台のA100を90~100日間、約32~36%のMFUで使用しています。この極端に低い利用率の一部は、再起動が必要なチェックポイントを必要とする不合理な数の障害によるものです。A100時間あたりのコストが約1ドルだとすると、今回のトレーニング費用だけで約6,300万ドルになります。
ChatGPT-4の視覚マルチモーダル
GPT-4にはテキストエンコーダとは別にビジョンエンコーダがあり、クロスアテンションを持ちます。アーキテクチャはFlamingoに似ています。GPT-4の1.8Tの上にさらにパラメーターを追加しています。テキストのみの事前学習後、さらに約2兆個のトークンを使って微調整されます。
このビジョン機能の主な目的のひとつは、ウェブページを読んだり、画像やビデオに写っている内容を書き起こしたりできる自律型エージェントです。彼らが訓練しているデータの中には、共同データ(レンダリングされたLaTeX/テキスト)、ウェブページのスクリーンショット、Youtubeのビデオ:フレームをサンプリングし、Whisperを実行してトランスクリプトを得るものがあります。
ChatGPT-4の投機的デコード
OpenAIはGPT-4の推論で投機的デコードを使っているかもしれません。このアイデアは、より小さな高速モデルを使っていくつかのトークンを事前にデコードし、それらを1つのバッチとして大きなオラクルモデルに送り込むというものです。小さなモデルの予測が正しければ、大きなモデルもそれに同意し、1つのバッチで複数のトークンをデコードできます。しかし、ドラフトモデルが予測したトークンを大きなモデルが拒否した場合、残りのバッチは破棄されます。そして、より大きなモデルで処理を続けます。
新しいGPT-4の品質が劣化したという陰謀説は、単にオラクルモデルに投機的解読モデルからのより低い確率のシーケンスを受け入れさせているからかもしれません。
ChatGPT-4 推論アーキテクチャ
推論は128GPUSのクラスタ上で実行されます。このクラスタは複数のデータセンターに分散しています。8ウェイテンソル並列と16ウェイパイプライン並列で実行されます。8GPUの各ノードのパラメータは、FP16ではGPUあたり30GB以下、FP8/int8では15GB以下の、わずか約130Bしかありません。
モデルは120層あるので、15の異なるノードに収まります。[エンベッディングも計算する必要があるため、最初のノードではレイヤーが少なくなる可能性があります]。
ChatGPT-4の推論コスト
GPT-4の推論コストは、175Bパラメーターの3倍です。Davinchiの3倍かかります。これは、GPT-4に必要なクラスタが大きいことと、達成される利用率がはるかに低いことが主な原因です。
GPT-4の推定コストは、128個のA100で1kトークンあたり0.0049セントです。GPT-4 8k seqlenを128個のH100で推論する場合、1kトークンあたり0.0021セントです。注意すべき点は、高い利用率と高いバッチサイズを想定していることです。
ChatGPT-4のマルチクエリーへの注意
OpenAIは他のチームと同様にMQAを使用しています。そのため、必要なヘッド数は1つだけで、KVキャッシュのメモリ容量は大幅に削減できます。それでも、32k seqlen GPT-4は間違いなく40GBのA100では動作しません。8kは最大bszに上限があります。
ChatGPT-4の連続バッチ処理
OpenAIは、可変バッチサイズと連続バッチの両方を実装しています。これは、推論コストを最適化すると同時に、ある程度の最大レイテンシーを可能にするためです。
以上が流出したGPT-4の詳細です。OpenAIは自分たちがやっていることを知っていますが、それは魔法ではありません。彼らは高品質のデータを得るのに苦労しており、このような大規模なトレーニングでは多くのトレードオフや障害に直面しています。
詳細の真偽は不明ですが、上記リーク情報は以下のサイトから公表されています
https://finance.sina.cn/tech/2023-07-11/detail-imzahsyr4285876.d.html?from=wap
以下の記事でも紹介させていただきました
George Hotz氏による情報とオープンソースの可能性
OpenAIから公式な声明はまだ出ていませんが、George Hotz氏からの情報は非常に信頼性が高いとされています。Hotz氏はAIの専門家であり、過去にはハッキングの分野でも注目される存在です。彼はiPhoneやソニーのPlayStation 3をハッキングしたことで知られています。
Hotz氏の情報を裏付けるため、他のAI専門家も彼のツイッターフィードでコメントし、彼の情報は真実である可能性が非常に高いと述べています。
GPT-4の情報が漏洩したことにより、オープンソースの開発者はこのアーキテクチャから多くを学ぶことができるようになりました。以前からアイデアやテクノロジーは存在していましたが、GPT-4はMoEアーキテクチャが適切なトレーニングデータと計算リソースを使用してどのように実現されるかを示す可能性があります。
結論
GPT-4のアーキテクチャと詳細が漏洩したことは、言語モデルの分野における大きな注目を集めました。このモデルのパラメータ数とMoEアーキテクチャの組み合わせにより、より高度な自然言語処理が可能になる可能性があります。また、オープンソースの開発者たちはこの情報を活用し、さらなる進歩を遂げることができるでしょう。
この報告書からの情報は依然として未確認ではありますが、将来のAIの発展において興味深い可能性を示唆しています。
FAQs
- GPT-4はいつリリースされる予定ですか? 現時点では、GPT-4の正式なリリース日については公表されていません。漏洩した情報によれば、OpenAIがGPT-4のアーキテクチャを非公開にしている理由は、複製可能な技術であるためです。
- GPT-4のアーキテクチャは他の言語モデルと比べてどのような特徴がありますか? GPT-4は、Mixture of Experts(MoE)アーキテクチャを採用しており、1兆7600億のパラメータを持つと言われています。MoEアーキテクチャは、複数のモデルを組み合わせることで高度な処理を可能にします。
- GPT-4の情報が漏洩したことでオープンソース開発者は何ができるようになりましたか? GPT-4の情報が漏洩したことにより、オープンソースの開発者はこのアーキテクチャから多くを学ぶことができるようになりました。これにより、より進化した言語モデルの開発や新たな応用が可能になるでしょう。
- GPT-4のアーキテクチャに関する情報は信頼性がありますか? 情報の源となったGeorge Hotz氏はAIの専門家であり、その情報はAIコミュニティで一定の信頼性を持っています。しかし、OpenAIからの公式な声明はまだ出ていないため、情報の正当性は依然として確認されていません。
- GPT-4のアーキテクチャによる進化はどのような影響をもたらす可能性がありますか? GPT-4のアーキテクチャは、より高度な自然言語処理を可能にする可能性があります。これにより、より複雑なタスクや文脈を理解する能力が向上し、さまざまな領域での応用が広がるかもしれません。