最近の記事
GPT-4o(Claude)に危険物取扱者試験(甲種試験)を解かせてみる-その8: 試験対策本のOCRと、それを使ったRAGでの回答
はじめに専門的なことに回答可能な大規模言語モデルのシステムを作る練習として、危険物取扱者試験に挑戦しています。 士業の仕事は、解くべきタスクの定型性が比較的高いのが特徴(?)です。一連の作業過程が、マニュアルや対策本などのテキストで明文・データベース化されているため、AIによる代替が可能かもしれない、という仮説が成立します。 これまでの検討で、システムのエージェント化の有効性などを検証してきました。 本記事では、解くべきタスクを丁寧に整理した叡智の結晶(?)として、試
GPT-4o(Claude)に危険物取扱者試験(甲種試験)を解かせてみる-その7: Claudeの読解精度(ノイズ耐性)を軽くチェックする
はじめに最近は、専門的な情報に回答できる大規模言語モデル(LLM)のシステムを作るための試行錯誤をしています。 前回までの検討で、(24/10/29時点で)読解力の高いClaude-3.5-sonnetのエージェント化が、回答の精度向上の鍵になりそうだという見解に至りました。 本記事では、Claudeの読解力を軽く調べてみました。 知りたいことRAGなどで参考文献を引っ張る際に課題となるのが、検索精度です。 100%の精度で所望の文献を引っ張ってくることは不可能なので、検
GPT-4o(Claude)に危険物取扱者試験(甲種試験)を解かせてみる-その6: 演習問題を自作させ、間違えた箇所をメモらせて試験に備える
はじめに最近は、専門的な情報に回答できる大規模言語モデル(LLM)のシステムを作るための試行錯誤をしています。 前回までの検討で、(24/10/29時点で)読解力の高いClaude-3.5-sonnetのエージェント化が、回答の精度向上の鍵になりそうだという見解に至りました。 エージェントをいい感じに使うと、法令を参照しながら回答精度を高められることが分かってきました。一方、法令情報のみを読み解いて試験に回答するのが難しい問題があることが分かってきました。 本記事では、
GPT-4o(Claude)に危険物取扱者試験(甲種試験)を解かせてみる-その5: LangGraphによるRAGエージェント化による精度改善の検証
はじめに最近は、専門的な情報に回答できる大規模言語モデル(LLM)のシステムを作るための試行錯誤をしています。 これまでの検討の結果、やはり、モデルのエージェント化が精度向上の鍵になりそうだという見解に至りました。 前回までの検討で、Claudeをいい感じに使うと、法令を参照しながら回答精度を高められることが分かってきました。 脱線 本記事では、構築したRAGエージェントに問題を解かせてみます。 コード詳細は前回までの記事を参照 from typing import
GPT-4o(Claude)に危険物取扱者試験(甲種試験)を解かせてみる-その4: LangGraphによるエージェント化と自動の文献情報の照合
はじめに最近は、専門的な情報に回答できる大規模言語モデル(LLM)のシステムを作るための試行錯誤をしています。 これまでの検討の結果、やはり、モデルのエージェント化が精度向上の鍵になりそうだという見解に至りました。 (適切な文章をLLMも活用しながら探し出して回答するシステムの構築が必要) チャットボットでの予備検証で上手くいく手応えが得られてきましたので、次はエージェントシステムを作る作業が必要になります。 そのためのモジュールが多く存在するようですが、LangGra