見出し画像

OpenAI DevDay 2024 | コミュニティスポットライト | DataKind

4,231 文字

こんにちは皆さん。私はケイトリン・オーガスティンです。DataKindのプロダクト・プログラム担当副社長を務めています。私たちは人類への奉仕のためにデータとテクノロジーを活用することに焦点を当てたグローバルな非営利団体です。そして今日は、人道支援活動を主導する同僚のミタリと共にお話しさせていただきます。
人道支援の分野における、タイムリーで質の高いデータへの膨大なニーズについてお話ししたいと思います。その状況を把握していただくために、現在世界では3億人が人道支援を必要としています。40の調整された世界的な支援要請があり、資金不足は460億ドルに上ります。
このような状況から、タイムリーな対応や効率的なリソース活用を実現するソリューションを見出すために、私たちは革新を図らなければならないことは明らかです。DataKindの立場からは、これが非常に上手くいった例を見てきました。これは国連人道問題調整事務所(UN OCHA)によるアフガニスタンでの自然災害対応の例です。
これは国連が設置し維持している双方向ダッシュボードです。現地政府、NGO、国連チームなど、複数のリソースからデータを集めています。これにより、災害が発生した場所を特定し、適切なチームを適切な介入とともに迅速に派遣することができます。
しかし残念ながら、これは例外であって通例ではありません。質の高いデータがあれば命を救うことができるということは分かっています。そこでDataKindは、20以上の人道支援組織にインタビューを行い、このデータへのアクセスと使用における課題は何かを尋ねました。データが対応に役立つことは分かっているのに、なぜできないのか。
私たちは多くの課題を耳にし、人間を介在させながら生成AIがその解決に意味のある役割を果たせる場所を特定しました。ここで掘り下げたい問題は、メタデータの予測です。なぜメタデータの予測なのでしょうか?それは、人道支援者たちはスプレッドシートを愛用しているからです。
彼らが好むデータセット、それは彼らがデータを共有する方法です。主要な人道支援データのリポジトリの一つである人道支援データ取引所(Humanitarian Data Exchange)には、2023年に15万以上の表形式のデータセットがありました。そしてそれらのデータセットには命を救える情報が含まれているにもかかわらず、相互運用性がありません。これは20年前に、HXLというメタデータ標準が community によって作成され、使用が承認されたにもかかわらずです。
これはここにある表のように、データセットの各列にラベルとデータの説明を付けるのに役立つツールです。使い方は超簡単です。実行例にあるように、スプレッドシートに1行追加するだけです。しかしHXLは本当の意味での採用には至っていません。インパクトを与えられていないのです。
データに手作業でラベル付けするのは時間がかかります。エラーも起きやすいです。結果として、人道支援データの約半分にはメタデータが全くありません。そしてメタデータタグが付いている半分のうち、約半分は間違っています。標準化されていないデータです。共通のコーパスにないのです。
そのため、そのデータは目的に適していません。私たちは生成AIがこのデータのラベル付け、タグ付けと属性付けに役立つと考えています。約5年前に概念実証としてこれを示した先行研究がありましたが、実装には多くの摩擦がありました。GPTを使用することで、より広範な知識体系に対してこのタグ付けを行い、はるかに少ない摩擦で実装できることが分かりました。
この取り組みは2023年に開始し、2024年には拡大しました。8月に最後のラウンドを完了し、3つの異なるモデルとプロンプト手法をテストしました。では、どのようにしてこの問題に取り組んだのでしょうか?データセットの約25%しか正確なメタデータを持っていないため、私たちのステークホルダーからは、ほとんど気にしていないと聞きました。
彼らは「間違いより正しければ満足」と言っていました。文献を調べてみると、異なる文脈ではありましたが、同様の課題に対して70%の精度で意味のある結果が得られていることが分かりました。そこで、私たちは70%という精度目標を設定しました。これは人道支援者や非営利組織に使用を依頼するものです。
予算項目がないため、週当たりのコストを約5米ドルに抑えたいと考えました。これにより、週単位の生成量である約100テーブルを処理できます。これは既存のワークフローに組み込まれるものでした。できるだけ早く処理したいと考えました。以前の研究から、テーブル1つあたり約1秒の処理時間が適切だと示唆されていました。
準備から処理まで、合計で約1時間かかることを想定しました。なぜなら、私たちはまだ人間を関与させているからです。彼らは今や、すべてのメタデータを手動で修正し、情報を寄せ集めるという作業から、実際に行われたタグ付けをチェックするだけの作業に移行しています。
これらの目標を念頭に置いて、私たちは作業を開始しました。まず、データを受け取ります。人道支援データ取引所からデータを取得し、多くのデータ準備を行いました。このデータ準備の中から2つの点を強調したいと思います。なぜなら、これらはLLMを使用する過程で私たちのチームにとって有益な学びとなったからです。
1つ目はデータの充実化です。人間がメタデータのタグ付けを行う場合、実際にラベル付けする内容のコンテキストを得るために、複数の行を読む必要があります。システムも同じことをする必要があります。そこで、GPT-3.5 Turboを使用してテーブルの要約を作成し、そのようにデータセットを充実させました。
2つ目はテストセットとトレーニングセットの作成です。標準的な機械学習のフローですね。トレーンとテストの間でランダムに割り当てを行って、それらのデータセットを作成します。しかしこの場合、同じ組織のデータが両方のセットに含まれてしまいます。なぜなら、同じ組織がすべてのメタデータタグ付けを行っているからです。
彼らは全て同じやり方でそれを行います。そのランダムな分割は、実際には人為的に良好な結果につながる可能性がありました。そこで、組織に基づいてトレーンセットとテストセットを作成しました。つまり、ある組織のメタデータはどちらか一方のセットにしか現れないようにしました。そして最終的に、テストファイルを作成し、微調整されたGPT-4o、4o-miniモデルの実際のテストに進みました。
まず言えることは、最も一般的なメタデータに対して非常に良い結果が出たということです。場所と日付については95%以上の精度でした。これは最も重要な部分なので、私たちはこの結果に大変喜びました。また、HXLタグ、つまり人口や場所、日付といったラベルだけを予測する場合も良好でした。
しかし、タグと属性、つまり記述子を予測する場合は、まあまあという結果でした。掘り下げてみると、なぜこれがうまくいかなかったのか、なぜ約60%の精度しか得られなかったのか、興味深い発見がありました。まず、モデルと人間の両方が正解していた状況が見つかりました。
HXL標準にはシノニム(同義語)があります。例えば、locationはadminとも呼べます。人間は一方でラベル付けし、モデルは他方でラベル付けしました。両方とも正解です。より興味深かったのは、モデルが正解、あるいは人間よりも正確だった状況です。モデルは実際に人間以上の記述子を追加しました。
人間が「これは人口データです」と言うところを、モデルは「これは15歳以下の女性の人口データです」と言い、より価値のある情報を提供しました。そして最後に、人間がラベル付けしたデータが間違っている状況がありました。正しい標準であっても、間違った内容を説明していて、モデルの方が実際に正しかったのです。
これにより、この微調整は最善のアプローチではないかもしれないと考えるようになりました。これらのプロンプトでスケールメリットが得られることを考えると、微調整を完全に避け、代わりにこれらのHXLタグと属性を直接プロンプトで指示できないでしょうか?答えは「まあまあ」です。私たちは皆、これらのゼロショットプロンプトを使用してきました。
最初から、答えは正しく見えました。意味が通っているように見える答えが得られましたが、実際にはHXL標準に全く従っていません。答えは人間がラベル付けしたタグによく似ています。「正解だと思うものを見つけよう」というような感じです。そこで、プロンプトに指示を追加する必要がありました。
HXLデータ標準のみを含むように変更する必要がありました。そして、出力される情報の順序にルールを設ける必要がありました。タグが必要で、その後に属性が必要でした。そうすると素晴らしい結果が得られました。私たちのステークホルダーは大喜びでした。なぜなら、精度目標、時間制約、コスト目標を満たす複数のアプローチがあったからです。
これにより、人道支援に使用できる何千もの変数のロックを解除することができました。そして私たちは進歩し続けています。今日の蒸留に関する刺激的な発表や、継続的な改善について。これらを現在フェーズ2に取り入れています。なぜなら、結局のところ、メタデータ予測は私たちの全体的な人道支援データプロジェクトシステムの一部に過ぎないからです。
これは金色で示されているこの1つのボックスに過ぎません。人道支援者に提供し、アクセス可能にしているツールには、他にも多くの部分が関係しています。タイムリーで質の高いデータへの迅速なアクセスを提供するためです。今、私の背後に見えているのは、私たちの人道支援AI アシスタントです。これは現在、調和の取れた相互運用可能なデータをすべて取り込み、人道支援者がチャットで対話し、検証された信頼できる情報を得て、迅速な対応を可能にします。
これはすべて人道支援者と共同で作成されました。駆け足のツアーでした。時間が来ましたね。私たちをフォローし、つながってください。今後もお話できることを楽しみにしています。ありがとうございました。

いいなと思ったら応援しよう!