
【AI基礎論】DeepSeek R1(その2)
GPTo1 2501222017
以下では、「DeepSeek R1」という新たに公開された大規模言語モデルをテスト・レビューした内容 をまとめます。主題は、モデルの概要・特徴、実際に試した際の印象やサンプルプロジェクトの成果などです。
1. DeepSeek R1 とは
オープンウェイトモデル としてリリースされ、大きくオープンソースに近い立ち位置。
総パラメータ数は約6,700億(Mixture of Experts採用で、実質約37B規模という説あり)。
コードや推論のテストがしやすいように API が提供 されており、安価に利用可能。
評価ベンチマーク(coding、LeetCode、SWE Verified など)で良い結果を公表しているが、実際の性能は使ってみないと分からない部分もある。
料金面の優位
GPT-4 o1が 100万トークンあたり 60ドルほどなのに対し、DeepSeek R1 は 2.9ドルと格段に安価 とされる。
大規模開発の際のコスト削減が期待される一方、まだリリース初期のため、モデルの品質を検証中。
2. 実際のテスト例
2.1 HTML+CSSでPDFリンク抽出アプリを生成
簡単なプロンプト
「純粋なHTMLとCSSだけで、ユーザーがPDFをアップロードできるアプリを作成し、そのPDFのURLをリスト表示するようにしてほしい」という要望をプロンプトとして提示。
応答内容
DeepSeek R1は、想定通りのHTML/CSS/JavaScriptで、PDFをクライアントサイドで読み込みリンクを抽出するコードを出力。
PDF.jsをCDNから読み込む方法を提案し、ブラウザだけでURL抽出が完結。単なるサーバーレスのHTML+JS というミニアプリがすぐに完成した。
実際に実行
コードを保存して開き、PDFをアップロードするとURLの一覧が表示され、クリックできる。動作も迅速で想定通りだった。
2.2 複雑な拡張(リンクされたPDFを次々と自動収集)
さらに拡張要望
1つ目のPDFに含まれる複数のURLが、さらに他のPDFファイルへのリンクだった場合、それらをダウンロードして再度URLを抽出し…という「階層的」な抽出を行うアプリを作りたいと指示。
生成されたコード
DeepSeek R1はHTML/JSのソリューションを提案。しかし、CORSなどの制約を考慮してサーバーが必要な点を指摘。
そのままではCORSエラーが起こる場合があり、ユーザー側でClaudeなど別モデルも使ってサーバーサイドを補う形にし、最終的に機能するアプリが完成。
評価
複雑かつ多段階なロジック に対応しきるのは難しかったが、レスポンスとしては参考になるコードを十分提供。
最終的にユーザーが微調整して「クロール的にPDFをたどるアプリ」を完成させた。
3. デモンストレーション:思考問題への対応
3.1 「青いペイント」「暑い天気」「病院からのメッセージ」の謎
プロンプトの狙い
ある人物が「2階の部屋用に青いペイントを買って家に帰る途中、病院に来いというメッセージを受け取った。いったい何が起きたか?」という曖昧な状況設定で、AIがどのように推論するかをテスト。
狙いは「青いペイント=男の子のベビーのための部屋?」といった連想をAIができるかどうかを確認。
DeepSeek R1の回答
第一段階の回答では「ペイントが化学的に危険」「事故が起きた」「家族の誰かが倒れた」など多数の可能性を列挙したが、赤ちゃんが生まれる(妊娠関連)という線には言及が薄かった。
再度の“リファイン”プロンプトで「もっと推論を見直して別の可能性を探して」と指示すると、「青いペイント=保育室用。パートナーが陣痛に入った可能性」を案として挙げたが、結論としては優先度が高いとは判断しなかった。
結論
モデルは「赤ちゃんが生まれる」シナリオも推測したが、ほかの事故等の可能性を上位に置くなど、当初の狙い通りの結論に到達するわけではなかった。
それでも、提示した要素から発想を拡げる能力は示した。
4. 感想とまとめ
コード生成での利点
シンプルなウェブアプリを構築するタスクで、HTML/CSS/JSのコードを即時生成 し、実行可能なレベルの成果物を出力。
多少複雑な要件(多段階クロール)でも、基本構造を提案する能力を確認できた。
テキスト推論
思考問題への回答は、「複数のシナリオを列挙」して最も可能性の高いものを探す形だが、ユーザーの期待する特定の結論に必ず到達するわけではない。
2回目のリファイン や追加コンテキストで改訂されるが、なお推論にはバラつきがある。
制限点や今後の期待
関数呼び出しやツール呼び出し などの拡張機能がまだサポートされておらず、エージェント的な使い方には制約がある。
リリース初期であり、長期的に使用してみて初めて総合的な評価が可能。
コストは非常に安い ため、GPT-4などよりコスト重視のプロジェクトには魅力的な選択肢となる可能性がある。
最終的な印象
DeepSeek R1 は 大規模オープンウェイトモデル として登場し、実践的なコード生成や推論タスクでまずまずの精度・柔軟性を示している。
「ユーザーが求める微妙な解釈」への到達には、追加のリファインやプロンプト工夫が必要な場合があるが、思考プロセスや複数シナリオ提案などの対応は優れている。
特に コスト面 で顕著な優位性があり、今後のアップデートや機能拡張(関数呼び出しなど)次第で一層注目度が高まるだろう。
**********