シニアがローカルPCでELYZAをドメイン適応させるまで②
どうも、駆け出しシニアのHot3DegC(ホットサンド)です。
NVIDIAのChat with RTXを活用して、ローカルPC上で日本語に特化したモデル、ELYZAを使用して、ドメイン適応(社内でのみ利用する情報を活用すること)を試みています。
今回はその第2回目の活動記録です。
正直に報告しますが、あまり進展していません!今週は少し忙しく時間が取れなかったのですが、進展があった部分に関しては随時紹介していきたいと思いますので、応援をよろしくお願いいたします。
はじめに
おさらいも兼ねて…
最近のAI技術の進化は目を見張るものがありますが、特に注目されているのが、RAG(Retrieval-Augmented Generation)かと思います。
この技術を使えば、より高度で柔軟な文章生成が可能になります。
NVIDIAの「Chat with RTX」は、この技術を誰でも簡単に体験できるツールとして多くの注目を集めているのではと思います。
このツールは、現在(2024年04月16日時点)、Mistral-7BとLlama2-13Bモデルをサポートしており手軽にRAGの体験ができます。
RAGの基本とChat with RTXの利点
RAG(Retrieval-Augmented Generation)は情報検索を組み込んだ生成モデルで、特定のファイル情報を参考にしながら新たな内容を生成する技術です。
Chat with RTXの利用者は、ローカルPC内の任意のフォルダに保存されたファイル情報(txt, doc, pdf)を簡単にRAGのデータソースとして利用できます。
これにより技術的な専門知識がない人でもRAGを活用して新しい文章生成を楽しむことができます。
日本語モデルへの挑戦
ただし、現在のChat with RTXでは利用可能なAIモデルに日本語に特化したモデルはサポートされていません。
これでは私のように英語に苦手意識を持つユーザーにとっては大きな障壁となります。
そこで、私は日本語モデルを利用できるようにシステムを拡張する活動を進めていこうと考えています。
進捗としては、まだ初期段階であり大きな進展はありませんが、内部プログラムの解析を進めつつ拡張が可能な部分を見つけ次第情報を更新していく予定です。
RAG対象データセットの拡張
今日は、RAG(Retrieval-Augmented Generation)で使用できるデータセットの種類について判明したことと、私が行った拡張についてご紹介します。
初期設定ではtxt, doc, pdfファイルが対象とされていましたが、プログラムを解析した結果、docxファイルとxmlファイルもデータセットの対象となっていることがわかりました。
また、いくつかのファイル形式を追加することに成功しましたので、その詳細は後ほど紹介したいと思います。
これにより、より多様な情報源をRAGの入力として使用できるようになり、生成される回答の質と多様性が向上することが期待されます。
プログラム解析とデータセットの拡張
正直に報告しますが、大きな進展はありませんが、少しずつ内部プログラムの解析が進んでおり、一部の拡張を実施することができました。
今日は、そのプロセスと成果について詳しく紹介します。
プログラム解析で読み解いたコードの解説
ここから先は
よろしければサポートお願いします!頂いたサポートは記事テーマのツールやアプリの購入費に使わせていただきます!レビュー希望のツールなどあればコメント頂けると嬉しいです。