見出し画像

AI開発における技術サーベイ

Text by 技術本部 Mouri

DXソリューション開発部アドバンストテクノロジー課に所属している毛利です。現在はお客様のご要望をAIで実現するための開発業務に取り組んでおります。

AI開発していくうえで、欠かせないのが技術サーベイです。
サーベイとは調査のことを指し、社会実装の有無のほか、AI開発においては論文やコード、データセットなどの調査が必要になってきます。

そこで今回はどのようにしてサーベイを進めているかについて説明します。


1.サーベイ方法

・サイトから

初めに、論文やコードなどが載っているサイトから探します。以下がよく使うサイトです。

Google検索も行いますが、基本的には表中のサイトをメインに調査しています。

AIの分野は動向が速いため、調査時点からできるだけ年数を絞って調べるようにしています。精度が現時点で通用する・参考になる、インストールするライブラリのバージョンが古くない、などを考慮して約2年前までを目安にすることが多いです。

論文に関して、最初からひとつひとつを細かく読むと時間がかかってしまうため、概要と実験・評価方法、図・表などを簡単に確認してリストアップしていき、そのあと良さそうな論文について細かく読むといった流れで進めています。

論文を選ぶ際にチェックすることとしては引用数のほか、トップカンファレンスで採択されているか(審査に通過しているか)どうかもその論文が信頼できるかの判断になります。
コンピュータービジョン分野のトップカンファレンスではCVPR※1やICCV※2、ECCV※3、AI分野だとAAAI※4があります。

※1:CVPR(Computer Vision and Pattern Recognition)2023版
※2:ICCV(International Conference on Computer Vision)2023版
※3:ECCV(European Conference on Computer Vision)2022版
※4:AAAI(Association for the Advancement of Artificial Intelligence)2023版

・論文から

続いて、いくつか収集した論文からも他に参考になりそうな情報がないか探します。

先行研究や比較するモデルについては簡単な説明が書かれていることが多いので、論文収集とともに他の論文の概要を理解することもできます。
実験では比較した際の精度感なども分かるので、使用したい手法やモデル、学習・評価に用いるデータセットを選定するのにも役に立ちます。データセットに関して、例えば画像データを対象としていて、論文内で画像が記載してある場合は自分が使いたい画像と近いかどうかも確認します。
これらの情報をもとに今まで調べた内容との関連を確認し、再度詳細の調査を行います。

・リポジトリから

また、GitHubのリポジトリからも追加情報を得ることができます。README.mdではそのコードで使用されている論文やデータセットの情報、参考文献、事前学習済みモデルの有無などが分かります。もし記載がない場合でもフォルダ内に事前学習済みモデルがあるかどうか、コードの内容が評価のみ、または学習もできる内容なのかも確認します。

2.気を付けていること

調査していくうえで意識する必要があるのが、「ライセンスの商用利用が可能か」ということです。どんなに精度が良いモデルやデータ数が多いデータセットでも、研究目的のみの利用、または非営利などの文字があれば使えません。ただ、自分で学習したモデルとの精度比較や評価用としては使えますので、そこは分けて使うようにしています。

オープンソースライセンスの日本語参考訳
クリエイティブ コモンズ ライセンス
オープンデータ|デジタル庁

その他にも、マシンスペックやモデルのサイズなど動作環境面も確認する必要があります。
精度が良いモデルを優先するのか、軽量なモデルを優先するのかなど、お客様の要望によって考慮すべきことは様々あるかと思います。

3.調査に加えて

また、サーベイの仕事としては論文等を調べることに加え、調査結果の報告書作成やお客様への説明なども含まれてきます。
使用したいモデルの精度等を比較して優先度を決めたり、それぞれのメリット・デメリットを考えたりといったことも行います。

4.まとめ

今回はAI開発を進める際、私が実際に行っているサーベイの進め方について簡単にまとめました。
サーベイ方法は三者三様ですが、ある程度の取り組み方は本記事で示せたかと思います。
より良いAI開発のご提案ができるよう、引き続き業務に取り組んでいきます。


■ 第4回 LangChainでLLMを管理しよう!