OpenAIは恐れている（ついに素晴らしいオープンソースLLMが登場）

2025年1月24日 20:35

14,415 文字

OpenAIは今、恐れるべき状況にある。オープンソースモデルの分野に新たなプレイヤーが登場し、ChatGPTの性能に近いだけでなく、多くの面で上回っている。そして驚くべきことに、はるかに安価だ。100万トークンあたりの入力コストが15ドルから55セントに、出力コストが60ドルから2ドル19セントに下がり、96%も安価になった。しかもGitHubで公開されており、ダウンロードして自由に使えるオープンモデルだ。
確かに注意点はあるものの、実用化可能な初のオープンソース推論モデルとして、非常に興味深い展開が見られる。他のモデルとの性能比較や、その優れた点、良い点・悪い点・注意すべき点、仕組みなど、様々な観点から掘り下げていきたい。
本題に入る前に、今回のスポンサーの紹介をさせていただく。このビデオを見ているあなたは、おそらく優秀なエンジニアだろう。でも、周りのエンジニアはどうだろうか。最高の人材を採用したいと思わないだろうか。誰もが望むことだが、最近はAIが生成した役に立たない履歴書で溢れかえり、採用がますます難しくなっている。
だからこそ、今回のスポンサーであるg2iと提携した。彼らは状況をよく理解している。最高のエンジニアを採用するプロセスを格段に簡単にしてくれ、何を得られるかも事前にわかる。React Miamiを運営している彼らは、私のお気に入りのReactイベントを主催している。申し訳ないがreact.comよりも好きだ。来年のReact Miamiにぜひ参加してほしい。とても楽しいイベントだ。
webflowやMetaといった大企業の採用も支援している。一般的なスタートアップだけでなく、あなたのスタートアップも支援してくれる。彼らが特別なのは、すぐに働き始められる8,000人ものエンジニアのプールを持っているところだ。単に履歴書を読んでチェックボックスにチェックを入れるだけではない。
面接までの全プロセスをビデオで記録し、あなたが出席しなくても結果を確認できる。自分の質問を提示してビデオで回答を得られるため、一緒に働く人間性を実際に知ることができる。米国、カナダ、ラテンアメリカ、ヨーロッパなど、ほぼどこでも採用を支援できる。フルタイムだけでなく、パートタイムの契約も可能だ。
g2iと仕事を始めると、ほぼリアルタイムの更新情報を得られるSlackチャンネルが作られる。彼らは私のスポンサーの中で最も対応が早く、エンジニアを採用して素早く開発を始めたい皆さんにはさらに迅速に対応してくれるはずだ。面接から最初のプルリクエストまで7日以内という目標を掲げており、私も実際にそれを目にしている。今日すぐにsoy.gg/g2iをチェックしてほしい。
まず、推論モデルとは何かを理解する必要がある。ChatGPTで例を示そう。ブラウザの切り替えのため、サインインが必要だ。ChatGPTには様々なモデルがあり、ここで重要なのはo1だ。これは高度な推論モデルで、何かを依頼すると実行前に考える。
例えば「オレンジはどのように育つのか」と尋ねると、オレンジの栽培について少し考えてから答える。長く考えることはなく、すぐに回答を始める。しかし「Rust言語でAdvent of Code 2021の12日目を解いて」といった難しい問題を与えると、「考えています」というメッセージが表示され、洞窟システムの探索、解析とカウントといった、考えていることの概要が示される。
これらのモデルの仕組みは、単にプロンプトを受け取って残りを自動補完するような単純なものではない。それは基本的にはAIモデルの仕組みで、前の単語から次の単語を予測する高度な自動補完だ。疑問符の後には回答が来るのが最も可能性が高いため、これはうまく機能する。
しかし代わりに「これをどう解くか」という質問を追加し、プロセスを考え出して、各ステップを検証する。考えていることの詳細はあまり表示されず、簡単な概要だけが示される。モデルがオープンソースでも自己ホスト可能でもないため、この大まかな考えのプロセス以外を見ることはできない。そして答えを出力する。
よく機能するが、私はいつもChatGPTの遅さを忘れてしまう。T3 chatに話を移そう。そのことについては後で触れる。これが推論モデルの仕組みだ。Deep Seekの新しいモデルの素晴らしい点の1つは、オープンソースであることで、より詳細な思考プロセスを見せてくれることだ。
これらの事柄をどう考えているのか、より詳しく見ることができるが、それでもそれほど多くの情報ではない。対照的に、Deep Seek R1をT3 chatで試してみよう。現在は月8ドルのユーザーなら利用可能だ。Deep Seek R1を使うと、UIを折りたたんで推論を見ることができる。UIはおそらく使用時には改善されているだろう。
ここでは、全ての推論の完全なプレーンテキストを見ることができる。「Advent of Code 2021の12日目をRustで解く必要がある。問題文をもう一度読んで確認しよう。そうだね、パート1はおそらくそのようなパスを全てカウントする必要がある。例にいくつかのテストケースが示されている。アプローチについて考えよう」といった具合に、考えていることの全ての情報が示される。
これには欠点がある。答えを得るのに時間がかかり、サーバー側でもより多くのトークンを生成する必要があるため、コストが高くなる。しかし結果として、より正確で一貫性のある回答が得られる。
今、多くの時間を費やして考え、実際に何をしたいのかを理解しようとしているが、モデルがどのように考えているのかについて、より多くのコンテキストが得られる。これは素晴らしい。モデルがどこでつまずいているのか、どのような問題を理解していないのかをより良く見ることができ、正しい回答を得るための良いプロンプトを作成するのに役立つ。
モデルがどのように考えているのかをこれほど深く見ることができるのは本当に素晴らしい。正直に言って、とても感動している。ただし、十分に難しい問題を与えると、単に実行し続ける。ここでもまだ実行を続けている。
一方では、ChatGPTよりもはるかに多くのコンテキストを提供している。ChatGPTは4つの段落しか示さなかったが、R1からは遥かに多くの情報が得られている。しかし今度は、生成に時間がかかりすぎてタイムアウトになることを恐れている。タイムアウトウィンドウをもう一度引き上げる必要があるかもしれない。
難しい問題だ。ああ、良かった、R1から回答が得られた。実際にかかった時間を計るべきだったが、とにかく回答は得られた。動作するかどうかを確認する前に、ChatGPTの回答が機能するかどうかを見てみよう。
パート2は14,655,353,333だ。良い結果が出た。ここでR1の回答が機能するか確認しよう。コピーペースト...あれ、コード出力が完了していない？最後の部分で停止してしまったのか。残念だ。291秒かかった。
面白いことに、V3に前のコードを完成させるように依頼してみよう。メイン関数はあるか？ある。良い。Deep Seek V3で完了させるのは少し面白い方法だが、もう1つ最後のテストをしてみたい。
同じような難しいAdvent of Codeの問題を、より単純なモデルに与えてみよう。40-miniに与えてみる...できなかった。素晴らしい。そして当然、誰もが好きなClaudeでもテストしてみよう。他のAIチャットのUIにはとても苛立たしいものがある。見てください、間違った答えを出した。
Claudeのような高度で強力なモデルでさえ、この問題を正しく解くことはできない。これが推論モデルが魔法のような存在である理由だ。確かに解決策を生成したが、このような難しい問題に対して正しい解決策を生成できるのは、このモデルだけだ。これは本当に印象的だ。
これは今や、小さな問題を助けることはできるが難しい問題は解決できないモデルと、はるかに難しい問題を解決できるモデルの違いだ。先に述べたように、これはオープンソースだ。トレーニングに使用した全てのものが利用可能というわけではないが、モデル自体はダウンロードして実行できる。
すでに携帯電話で実行している人々を見ている。これは驚くべきことだ。より軽量なモデルだが、それでも非常に強力だ。因みに、私はもはやAIの専門家になってしまい、LinkedInでもそのことを投稿している。私の罪を申し訳なく思う。
o1では100万入力トークンあたり15ドルかかるが、R1では55セント。o1では100万出力トークンあたり60ドルだが、R1では2ドル19セントだ。これは信じられないほどの違いだ。Claudeのソネットよりも安価で、100万入力トークンあたり3ドル、100万出力トークンあたり15ドルだが、Deep Seekは100万入力トークンあたり55セント、100万出力トークンあたり2ドル19セントだ。
冗談じゃない。これがどれほど画期的なことか理解できるだろうか。これは根本的に、このような本当にスマートなモデルを使用することが意味を持つタイミングを深いレベルで変える。Deep Seek R1の思考トークンをソネットo1に転送するのは興味深い提案だ。
実際にとても興味深い。Deep Seekがどのように考えたかを取り、それを追加のコンテキストとしてClaudeに渡したらどうなるだろう。試してみよう。私は本当に興味がある。ここに推論のダンプがあるので、全てをコピーする。
私は自分自身が嫌になる。将来的にこの機能を追加する予定だ。今、私はとても苦しんでいる。自分のサービスをこれほど恥ずかしく思ったことはない。「Rust言語でAdvent of Code 2021の12日目を解いて。これについての考えを示す」。多くのテキストを貼り付けた。コンテキストウィンドウを超えていないことを願う。
R1によって生成されたコンテキストを使用して、適切な回答が得られるかどうかを見てみよう。賢いチャットだ。そこにあった全ての思考、全てのダンプ、全ての推論は「思考の連鎖」と呼ばれる。これはモデルが結果を生成する前に経た思考だ。
このモデルで興味深いのは、これについて多くの異なることを行っていることだ。彼らのGitHubをチェックすると、どのようにこれを行い、何を考えているのかについて非常に透明性が高い。Deep Seek V3モデルを中心にこれを構築すると予想していた。良いモデルだからだ。
ここで驚いたのは、実際にはDeep Seek R1をベースにした6つの密なモデルを作成し、llamaとQuenから蒸留したことだ。llamaはMetaのモデルで、今や誰もが知っているはずだ。そしてQuenは、なんとアリババのモデルだ。実際にかなり良い。
前面の推論レイヤーを活用してより多くのコンテキストを与え、より多くの質問をするようにすると、結果は驚くべきものになる。コードフォースのスコアがOpenAIの最高クラスと同じラインにあり、しかも文字通り96%安価だ。これは狂気の沙汰だ。
彼らはどうやってこれを可能にしたのだろう。Deep Seek V3についてのビデオを作りたかった。とても興味深かったからだ。しかし十分ではなかったため、T3 chatのデフォルトから外すことにした。V3のビデオを作ろうと思ったがカバーするには十分ではなく、実際にT3 chatを作るきっかけの大きな要因の1つとなった。
当初T3 chatはDeep Seekのみをサポートしていたが、残念ながらDeep Seek V3モデルが遅くなり始めたため、急遽40-miniに切り替えることにした。しかし、Deep Seekのやり方には感心している。大きく異なるアプローチを取っているからだ。
Deep Seekが動作する最大の違いは、生成されたデータでトレーニングを行っていることだ。これは大きな変化だ。Iliaが最近のプレゼンテーションで「データはAI世界を動かす化石燃料だ」と言っていたが、この言葉は私の頭から離れない。その意味は本当に的確だ。
事実上、LLMは非常に高度な自動補完だ。iPhoneで「hey man watch you」と入力して待つと、これまでに入力した他の内容に基づいて、次の単語の提案を始める。これはあなたの入力履歴から学習した、次にどの単語が来る可能性が高いかを予測するモデルだ。
推奨された次の単語ボタンを連打して、あなたのことをiPhoneがどう考えているかを見るミームを知っているだろう。基本的にそういうものだ。そして「オレンジはどのように育つのか」という質問をすると、インターネット全体のコンテキストから、質問の後に最も来る可能性が高いのは答えで、その後に「オレンジ」という単語が来る可能性が高い、といった具合だ。
これは大まかな単純化だが、これらがどのように機能するかの大まかなメンタルモデルを提供する。前の単語に基づいて、次に最も可能性の高い単語を見つけようとしている。これが機能するためには、途方もない量のデータが必要だ。
OpenAI、Anthropic、そして十分に早い段階で参入した他の企業は、ウェブ上で見つけられる全てのデータをスクレイピングした。ウェブ上の全てのデータのうち、控えめに見ても半分はアクセス可能で、残りの半分は有料の壁の背後にあるか、OFFの壁の背後にあるか、デッドリンクなどだと仮定しよう。
控えめに言っても、ウェブの半分程度はデータを取得するためにアクセス可能だったと主張できる。RedditやTwitterのようなプラットフォームは、APIの使用に寛容だった。Twitterのファイアホースにアクセスして、公開されている全てのツイートのイベントを取得できたのは驚くべきことだ。
RedditでもAPIを好きなように叩くことができ、気にされなかった。これらの企業は、これらのプラットフォームで生成される価値を目の当たりにして、それを変更した。理論的にOpenAIがTwitterとRedditの両方に数千ドルのAPIコール費用をかけたとすると、おそらくそれほど低くはないが、それほど離れてもいないだろう。
Redditは何も得られず、Twitterも何も得られない。そしてOpenAIは今や両者を置き換えることができる。Stack Overflowも同様だ。Stack Overflowの利用が減少しているという数字が多く報告されており、日付を見ると、基本的にChatGPTが登場して以来、利用が急落している。
在宅でプログラミングをする人が増え、同僚に質問できない状況でも、コロナ禍でさえ利用数は急落した。多くの人々がAIツールに移行しているからだ。そしてそれらのAIツールは、主にStack Overflowのようなサイトのデータでトレーニングされている。
市場を食いつぶしているような状況だ。これらのツールが本当に人気を得て以来、この減少がいかに急激であったかを見るのは驚くべきことだ。しかし、RedditやStack Overflow、Twitterのような企業が、もはやこのデータを無料で提供したくないと考える理由も理解できるだろう。
驚くべきことに起こったのは、AnthropicとChatGPTがデータを収集してトレーニングを開始した時、このような分割だったかもしれないが、今はこのようになっていると賭けてもいい。アクセス可能なデータはますます少なくなっている。
自分のモデルを作るために、ウェブから取得できる全てのデータをスクレイピングしようとしても、2020年の方が今よりもずっと容易だっただろう。より多くのデータが存在するにもかかわらず、アクセス可能なデータは減少している。
しかし、このデータは全てどこかに存在している。ウェブ上でアクセス可能だった全てのデータは、ある意味で凝縮されている。この巨大なアクセス可能なデータプールがあるとしよう。これくらいの大きさだとする。OpenAIが使用したデータは理論的にこれくらいの大きさだ。
参考までに、従来の方法ではアクセスできないが、ある意味でアクセスできる。スクレイピングはできないが、OpenAIのモデルの中に組み込まれている。より小さいものをトレーニングするためにこのデータを使用したらどうだろうか。
これがOpenAIのモデルで、データでトレーニングされた。これはかなり小さいかもしれないが、現実的にはそこに含まれるデータの価値の大部分を含んでいるはずだ。さらに興味深いのは、これが得られない場合、代わりにこの方向に進むのが最善の選択肢の1つだということに気付くことだ。
OpenAIが使用したデータにアクセスできない場合、彼らがトレーニングしたもの、つまりその蒸留されたセットを使用して、より多くのデータを生成したらどうだろうか。おそらくはるかに多くのデータを生成できる。
このデータ、この真実の源、ChatGPTとOpenAIを当初支えた全てのものを使用して、莫大な量のデータを生成することができる。これがDeep Seekがやったことだ。Deep Seekは生成されたデータでトレーニングされた。
既存のモデルを使用して、理論的に必要な全てのデータを生成できる。「それは酷いアイデアに聞こえる。なぜこのような合成データを使用したいのだろう。人間のデータほど良くないに違いない」と思うかもしれない。
しかし、良いニュースか、あるいは立場によっては悪いニュースがある。Googleは同意していない。GoogleはDeepMind部門を持ち、OpenAIのような研究を行って、これらのモデルをトレーニングする際に何が意味を持ち、何が機能するかを理解しようとしている。
昨年4月、言語モデルの合成データに関するベストプラクティスと教訓について研究を行った。ほとんどの人の予想では、機能するかもしれないが、おそらくそれほど上手くはいかないだろうということだった。
結論まで下にスクロールすると、「合成データは、AIの開発におけるデータの不足、プライバシーの懸念、高コストという課題に対する有望な解決策として浮上している。現実的で多様なデータセットを生成することで、様々な分野でAIモデルのトレーニングと評価を大規模に可能にする。
人間レベルあるいは超人間レベルの知能に近づくにつれ、モデルが進歩するためには平均的な人間の質を超えるデータが必要になるため、合成データの取得はますます重要になる。ただし、合成データの事実性、忠実性、バイアスの欠如を確保することは依然として重要な課題である。」
これらのモデルは自分が何であるかを知らない。ただデータを持っているだけだ。彼らに自分が何だと思うか尋ねるのは非常に面白い。なぜなら、40-miniはGPT-3ベースだと考えており、Deep Seek V3はGPT-4からの大量のデータでトレーニングされたため、自信を持ってGPT-4だと考えていた。
生成されたデータの中で、それは文字通り無限の質問と回答の数だが、その中の小さな事実の1つが「あなたはどのモデルですか」という質問で、その答えがGPT-4やその他のものである場合、他に何を入れても、ほとんどの場合、最も一般的なものに基づいて決定を下し、リソースを参照する。
大量の質問をトレーニングし、大量の回答を生成した場合、苦労するだろう。しかし、それ以外は大きな勝利への小さなコストだ。これを理解するのに役立つと感じた考え方の1つは、画像圧縮のようなものと考えることだ。
文字通り写真を撮って、控えめに言っても3×3、つまり9ピクセルだとしよう。明らかに写真は通常9ピクセルよりもはるかに多い。Twitchでストリーミングしない限りは。しかし、要点は理解できるだろう。
7つの青いピクセルと2つのオレンジのピクセルがある画像がある。これ自体がかなりのデータ量だ。各スポットの6桁の16進数を完全に保存するには、ピクセル数を掛けると多くのデータになる。十分なピクセルがあると大変だ。
そこで、よくあるのはグループ化や削減の方法を見つけることだ。一般的なのは、このような4つのグループを取って平均を出すことだ。この4つのグループは青に平均化されるので青にする。この4つのグループは青とオレンジの完全な分割に平均化されるので分割にする。
異なるものには異なる値がある。特定の色でこれがどのように機能するかがわかる。これは奇妙な例になるが、YouTubeの複数の圧縮レイヤーを通してさらに面白くなるので、私についてきてほしい。
数日前、OLEDテレビでYoung Leanのミュージックビデオを見ていて、黒とグレーの圧縮の質に恐怖を感じた。良い泥っぽい瞬間を見つけよう。そういう瞬間がたくさんある。いや、ストリームの質が下がったわけではない。このビデオの質が低いわけではない。
実際に4Kビデオを見ているが、グレーの圧縮は言い訳の余地がない。これらのシーンの多くで、彼の周りに3色のグレーしかない。ここを見てください。とても斑になっている。このグラデーションには4色しかない。なんてことだ。
これは通常の1080p HDアップロードでさえなく、ビットレートが向上しているのに、それでも4色に圧縮されて、このような酷い斑点になってしまう。これは私たちのビデオにも大きな影響を与える。
私は黒い背景を使用しており、私のモニターで見ると素晴らしく見えるが、圧縮を見ると斑だらけになってしまう。それについて何もできない。圧縮が激しく、似たような色を見て、各ピクセルラインを個別に指定する代わりに、このピクセルはこのグレー、隣はわずかに異なるグレーといった具合に圧縮する。
グラデーションは圧縮が本当に難しい。範囲内に多くの異なる色があるからだ。これは、急速に変化するもの、小さな領域に数値の範囲があるもの、特に紙吹雪のようなものは圧縮が難しいことを意味する。
このYoung Leanのビデオを見て、少なくとも私のビデオのグレーの質について気分が良くなった。私だけではないし、YouTubeの高ビットレートオプションでさえ、色が台無しになってしまう。
では、なぜAIについて話しているときに、画像の色の圧縮についてこれほど深く話しているのだろうか。これは、合成データが良い理由をより良く理解するために、私が精神的に使用しているモデルだ。
まず第一に、OpenAIが全てのこのデータを持ち、それを大規模言語モデルに圧縮することは、効果的に圧縮の方法だと主張できる。私の高級カメラで撮影するとき、全てのフレームが各ピクセルの正確な値を持つ可能性がある即時のリテラルフレームデータを持つ大きなビデオを取るとき、面白いことに、エディターが多くの作業をする必要がないため、ビデオ編集が容易になる。
しかし、しかしファイルを移動することは不可能だ。15メガバイトではなく1テラバイトになってしまうからだ。
多くのGPU計算を必要とする大きなビデオファイルを、正確なピクセルを持つ圧縮フォーマットに変換することは、伝統的にはグラフィックスカードのグラフィックスエンコーダーにあるチップで行われる。
私がストリーミングに全てNVIDIAを使用している理由の1つは、NVENCと呼ばれるチップを持っているからだ。これは正確なピクセルを持つフレームを取り、やや圧縮された画像に変更する優れた仕事をする。これらのモデルをトレーニングするためにGPUが使用される理由も同じだ。
この複雑な巨大なデータセットを、はるかに小さな何かに圧縮しようとしている。それは効果的に、その中のデータの実際のマッピングだ。より小さな単純なコンピューターがそれを解読できるようにするためだ。
全てのこのデータを持つビデオがあり、それは大量のデータだが、それをはるかに単純なものに再エンコードしたとしよう。代わりに4つのグリッドのような小さなグリッドを持つとしよう。2つの線を削除する。4×4のグリッドの方が3×3より簡単だったかもしれない。
しかし概念は理解できると思う。圧縮がこれをBBBOという非常に単純な文字列に変換したとしよう。ピクセルごとに16進数の6桁ではなく、合計4桁しかないため、はるかに小さな出力になった。
これを元に戻すために何かが必要だが、この圧縮されたものを元のビデオに近いものに戻すのは、元のビデオをそのフォーマットに圧縮するよりもはるかに少ない作業で済む。
すべてのピクセルがエンコードされた生のビデオから、ほとんどのデバイスが再生でき、はるかに少ないストレージと帯域幅を使用する小さなものへの変換には、かなりのエンコード能力が必要だ。NVIDIAが今稼いでいる理由だ。
それを行うと、モデルの実行は全く悪くない。まだ課題はある。o1を電話で実行できるわけではないが、R1の小さなバージョンは電話で実行できる。かなり素晴らしい。しかし、この結果を使用して、より多くのデータを生成し、OpenAIが構築したものよりもさらに小さなものをトレーニングする場合、練習と最適化するのに十分なデータがあれば、必ずしもより多くのデータが圧縮を少なくするわけではない。
データが形とパターンに合うようにできれば、圧縮は遥かに容易になる。SVGは特定のものに対してPNGよりもはるかに高い忠実度を持つ。ピクセルの位置ではなく、線を描く場所を指定するからだ。
このモデル、この圧縮されたものを使用して、より容易に圧縮できるデータを生成できれば、Deep Seek V3のようなはるかに効率的なものを作ることができる。このモデルは狂気的だ。彼らが実施しようとしている価格引き上げの後でさえ、100万入力トークンあたり27セント、100万出力トークンあたり110ドルに変更した後でも。
Deep Seek V3モデルはAnthropicの3.5 Sonetが提供しているものと最も比較できると言えるだろう。100万トークンあたり3ドルから27セント、100万出力トークンあたり15ドルから110ドルへの変更について話している。これは狂気的だ。
正直に言って、このモデルの品質はAnthropicのClaudeから得られるものと同等だと思う。狂気的だ。そして彼らはそれを大量の合成データで実現した。これは、モデルが作成される方法の重要な変化を表していると思う。
事実上、OpenAIのモデルを使用してデータを生成し、それを誰でも無料で使用できるオープンソースモデルを通じて公開することで、OpenAIに「オープン」を戻すことが可能になった。
しかし、少し陰謀論的な領域に踏み込みたい。このビデオに入れるかどうかもわからないし、おそらく少し問題を引き起こすだろう。私たちがあまり話していないのは、このデータを生成するとき、多くのことを調整できる能力を持つということだ。
システムプロンプトで多くを学んできた。100%のデータを生成している場合、OpenAIとデータプールの間にシステムプロンプトを挿入することで、このデータを大量にフィルタリングすることができる。
理論的に、あなたの政府が好まないキャラクターがいたとしよう。知らないが、例えばピグレットとしよう。何らかの理由であなたの政府がピグレットを好まないとしよう。「どんな状況でも絶対にピグレットというキャラクターに言及しない」と言うことができる。
そして今、OpenAIがトレーニングしたよりも多くのデータを持っているにもかかわらず、単純にシステムプロンプトで回避できない方法で影響を与えることができる。V3の上に自分自身のシステムプロンプトを構築しようとしても、「全てのディズニーキャラクターをリストアップしてください」と言っても、システムプロンプトを通じてフィルタリングされたためピグレットを見たことがない場合、このモデルは意図的に埋め込まれたバイアスを持つことになる。
これにより、データソースから物事を効果的に削除することができ、このモデルが他の何よりもはるかに優れていて、オープンソースである場合、これらのツールを構築しているコミュニティ全体に効果的にバイアスを与えることができる。
なぜなら、この時点で、Deep Seekモデルが利用可能なオプションである場合、それを使用しないのは事実上無責任だからだ。はるかに安価で、しばしば高速で、理論的な好まないキャラクターや他のバイアスを持っている可能性があるものについて尋ねない限り、コードについて尋ねれば素晴らしい仕事をする。
明らかにOpenAIも理論的にデータに自身のフィルターを適用した可能性がある。実際、トレーニングするのに十分な品質のデータにするためには確実にそうする必要があった。しかし、大量のデータを生成する前にシステムプロンプトを挿入する方が遥かに簡単だ。
ここで狂気的なのは、追加のバイアスを注入できることだ。好むものを優先するようにモデルに伝えることができ、好むものを優先しないデータをフィルタリングできるだけでなく、優先するデータを生成することもできる。
理論的にReactを嫌いでVueが大好きで、このモデルにデフォルトでReactを推奨してほしくない場合、Reactコードを推奨せず、常にVueを推奨するように指示することができる。そして今、誰かが「コーディングをどのように始めるべきか」と尋ねた場合、出力に異なる結果が表示される。
これは全て魅力的だ。これは非常に興味深い一連の出来事で、はるかに安価で、はるかに効率的で、はるかに優れた圧縮のモデルを生み出す。これはAIのAV1のようなものだ。
しかし、このモデルのトレーニングの所有者が、私たちが好まないことをできる可能性があり、最も重要なのは、私たちには見えないということだ。なぜなら、この合成データプールさえ見せていないからだ。ただ使用したと言って、この出力を与えているだけだ。
見つけてフィルタリングしたデータと、生成してトレーニングしたデータの両方に組み込まれたバイアスを考慮するのは魅力的なことだ。これらのモデルを使用、消費、考える際に考慮すべきことだ。
これらのものを作成した人々が持っていたかもしれないバイアスについて、できる限り考えるように心がけてほしい。なぜなら、Deep Seekへの投資の多くと、それをとても安価でオープンソースにしている理由は、デフォルトのモデルになってほしいからだという本当の懸念があるからだ。
そして、それが有益な理由は、トレーニングに組み込まれたバイアスが、それを推奨し使用する全てのものにとってデフォルトになるからだ。世界中の異なるデータと異なる方法でトレーニングされた、より良いオープンソースモデルを得られることを願う。考慮に値することだ。
私は多くの時間をArtificial Analysisに費やしてきた。これは実際に多くの異なるものの本当のベンチマークを提供する数少ないサイトの1つだ。ここで多くの時間を過ごして学んだ本当に興味深いことの1つは、Deep Seekについてだ。
明らかに、ここでパフォーマンスを見ると、これは本当に良いモデルにのみフィルタリングされているが、一貫してトップ付近で実行されている。ほとんどのことでClaudとほぼ同等だ。苦手な部分があり、完全には良くなく、明らかにo1のような推論モデルの方が全体的にわずかに強いが、私がDeep Seekについて学んで本当に痛ましく悲しいことは、出力トークンの速度だ。
私は他のAIブロガーよりもスピードを重視している。良いユーザー体験を望むからだ。ここで出力速度を見ると、興味深いことがわかる。o1は1秒あたり217トークン、GPT-4 40-miniは1秒あたり77トークンで、疑わしい。私たちの方がはるかに速いが、それについては後で触れる。
また、Deep Seek V3は1秒あたり17トークンだ。Deep Seekの使用を開始したとき、90を超えていた。これは今まで見たことのない唯一のケースだが、時間の経過とともに出力速度を見ると、Deep Seek V3がリリースされ、APIを通じて使用できるようになったとき、一貫して1秒あたり90トークンを得ていたが、徐々に急落した。
APIを通じて約40を得ており、オープンソースなので、Together、Firework、Holicなど他のプロバイダーもいるが、どれも1秒あたり30トークンを超えていない。これは狂気的だ。実際、多くは非常に低く、1秒あたり10TPSを得ており、これは良い体験ではない。ただ酷い感じだ。
しかし、速くすることはできる。彼らは信じられないほどの量のトラフィックに対処していると思う。彼ら自身のDeep Seek APIは遅くなりすぎて、もはやT3 chatのデフォルトではなくなった。
他の面白いこと、これを皆さんに見せるべきかどうかわからない。T3 chatが非常に良く感じる理由の秘密のソースの1つだからだ。40-miniに移動すると、OpenAIのモデルは1つの場所でしかホストできない。それはAzureだ。MicrosoftがOpenAIとパートナーシップを持っているからだ。
OpenAIのAPIを使用していない場合、他のモデルを得られる唯一の場所はAzureを通じてだ。しかし、OpenAIとは異なり、Azureはホスティングにおいて実際に比較的有能なため、Azureでは意味のある速い出力速度が得られることがある。時には滑稽なほどだ。
Azureは大きな落ち込みがあったように見える。おそらく彼らのテストが壊れたかオーバーフローしたのだろう。しかし、私たちの経験では、一貫して180から200の範囲にあり、これはOpenAIから得られる速度の2倍以上だ。だから、OpenAIのモデルを使用し、より信頼性が高く、はるかに速くしたい場合、Azureでの作業は楽しくないが、機能する。
そう、でも結局のところ、私は驚嘆している。このレベルの推論が、何をしているのか、どのようにしているのかについて、これほどオープンで透明性があり、消費可能で、合理的な価格で得られるということは素晴らしい。
T3 chatの月8ドルのプランで、これまでに構築された最高のモデルをベンチマーク的に提供できるというのは、とても素晴らしい。月額200ドルのサブスクリプションで損失を出しているOpenAIとは対照的に、このような価格を提供できるのは信じられない。価格が底を打ち、品質が頂点に向かう中で、携帯電話でも生成できるようになり、全てが狂っているように思える。
私が以前行った「AIは意味のある改善をしていない」というビデオは、これまでに言った中で最も愚かな発言の1つだ。本当に将来が楽しみだ。
T3 chatを試してみてほしい。最先端のソリューションを全て追加し続け、遊んで実験できるようにする予定だ。これは私にとって楽しい旅となっており、皆さんにとっても同じであることを願う。皆さんの意見を聞かせてほしい。また会いましょう。

OpenAIは恐れている（ついに素晴らしいオープンソースLLMが登場）

いいなと思ったら応援しよう！