大規模言語モデル(LLM)やそのツールの情報整理2025年1月版

2025年2月6日 02:39

1月中に書くつもりが、ちょっとした用事と微妙な体調不良が入り混じって2月にずれ込みました。
情報だけは集めて置いてたんですが、まぁなんと盛り沢山な…、DeepSeekとかいくつかのトピックは別ページにしますし、何なら2月版もそんなに時間をあけないつもり、というかあけられないほど話題が多いww

調査支援系エージェントAI

は、少なくとも１月時点ではfeloが一押しだったんすよねー

元からお気に入りのPerplexityも忘れてはいない。Perplexity Assistantはもちろん、feloとの違いは検索のためのAIモデルから作っているので「Sonara」も公開したし、Perplexityでファクトチェック用スペースを作成する使い方とか面白い

Gensparkも「ディープリサーチ」出してきた。だけど、2月分に回すよていだけどgoogleやOpenAIの「Deep Research」の方が凄そうなんだよなww

それでもリサーチやマインドマップ作成はfeloやgensparkで十分、perplexityはエージェントぽさはないけど、どれにお金をかけるかは個人の好みとして、以上3つをファクトチェックもかねて併用したら十分じゃないかね。

コーディング支援系エージェントAI

についてはコスパ的にClineかな、僕はCool Clineをvs codeで試してます。

Rの簡単なプログラム作成は、ほぼ全てやってくれた。ライブラリとライブラリの狭間というか、細かい所は人がやったけど、かなり楽だった。もう少し込み入った社内アプリづくりで使った若手の感想としても、streamlitくらいなら全然いけた、ただマイナーなモジュールだと学習データに無いのか性能が一気に低下するということで一致。ChatGPTやperplexityにサンプルコードを調査・作成させたときと同じ現象というか、LLMの限界は仕方ないww

但し、かなり楽になったとは確実に言える。僕も分析テーマによってはRでなくpythonを使うけど、正直ゼロから自分でpython書くのはRより遥かに時間がかかりますww、そのため昔はちょうどいいサンプルコードを探したり、それを組み合わせたり考えたり、、、というのが今は基本的なコードをclineが書いてくれて、pythonをゼロから書く時の慣れが無いゆえの躓きが無いのが楽。先日はclineの自動コーディングがループしちゃったけど、ここまで来てればあとはclineを止めて自分で書けるぞ、みたいな。

ちなみに類似ツール「Cursor」ってのもある。プライベートではコッチを使ってみようかな。

ちなみに費用や社内の手続き諸々を気にしなければCognition AIのDevinも気になってる。Microsoft Azureのmarketplaceから契約できるところまでは調べたww

PC操作系エージェントAI

これから試そうとしているのはbrowser-use、AIが自動でブラウザを操作する。ClaudeのComputer UseはPC内のアプリとかをRPA並みに操作してくれるけど、browser-useはブラウザ経由の作業のみ

詳しい内容はGitHub - browser-use/browser-use: Make websites accessible for AI agentsとかGitHub - browser-use/web-ui: Run AI Agent in your browser.を見れば良い。

ちなみに、ここに出てきた記事の1つから以下を引用。これはcline使ってみての感覚とも近いので、ローカルLLMも視野に入れつつ慎重に、と。

browser-useは使いやすく、X-Pathを使ったクローリングよりもはるかに手軽ですが、その分トークンの消費量が多いです。正確に計算したわけではありませんが、通常のモデルを呼び出してチャットする場合の4～5倍程度のコストがかかっているようです。クローリングだけが目的であれば、まずは通常の手法を試し、困難な場合にbrowser-useを使用するのが正しいユースケースだと思います。

browser-use やばいです #AI - Qiita

GitHub - browserbase/stagehand: An AI web browsing framework focused on simplicity and extensibility.のようなものも出ていてるが全部はよくわからん。とりあえずclineで作れば楽にいけるかな（舌の根も乾かないうちにww

この分野ではOpenAIのAIエージェント『Operator』登場

OpenAI Operatorとは？主要機能や使い方、安全性対策について徹底解説

日中に人の操作を学習し、寝ている間にAIが作業するというコンセプトのPC Agentが登場という論文も。この研究では、人による実演データを用いてPCの操作手順を学習させ、動作を再現する実験を行った結果、背後にある思考プロセスまで再現でき、人間らしい柔軟性を帯びた対応力の獲得に成功したらしい

ベースとなるAIモデルの進化

OpenAIのChatGPTも進化、科学分野に参入とかいうニュースを見ると技術を磨く方向に行ってるのも良いけど、もっと皆のブルシットジョブを減らす方をやってくれと思わなくはないww

googleはGemini 2.0 Flash Thinking、こっちも負けず劣らず

正直Geminiの各モデルの使い分けがわからなくなる。Googleは自分たちの検索技術が強かった反動で整理というものをしない文化とは日本支社の人に聞いたことがあるなww
noteに入ったGemini活用のAIアシスタントも正直わかりづらい

あとは一応Metaの記事と

最後に

絞り込んだつもりが情報過多になったので、他の話は別の記事にまとめるとして、まとめ代わりにビル・ゲイツの語りと世界初のチャットボット「ELIZA」の話題で〆