GPT-3.5、Codex、DALL-E、Whisperのハッカソンを眺めてみる
Hackathonを日本語にするときは、「ハッカーソン」か「ハッカソン」か迷いましたので、ChatGPTに聞くと、「ハッカソン」が良いとのことです。
さて、2023年10月16日から18日で行われたハッカソンを眺めていきます。今回は、GPT-3.5、Codex、DALL-E、Whisperを使用したハッカソンとのことです。
最近のOpenAIの各APIを利用したサービス、あるいは将来的にサービスになりうる可能性を把握するためには、ハッカソンは良い場だと考えています。
今回の開発物をいくつかピックアップして紹介します。
FieldAssessment
AudioSonic
arxiv deep dive
Artificial Medical Imaging
LLM enhanced Medical Notes
SightCom 2
今回は、実際にコードを打っていないため、間違った記載のところもあるかもしれません。
1.FieldAssessment
このアプリは、写真を撮ったら、その画像を分析して状況を評価するとのことです。
ユースケースとしては、ガスパイプ、サッカーのフィールドを撮影して、その状況を修理が必要かなどを評価します。
コードの中身を見てみますと、Streamlitでカメラを起動し撮影し、音声を録画して、Hugging FaceのSpace上のGradioの方に送信し、送信結果をStreamlitに返して表示します。
Gradioの方のコードが無いように見えますので、何とも言えません。
2.AudioSonic
MP3形式のオーディオファイルをアップロードしたら、自動でプロンプトを作成し、そのプロンプトでDALL-Eを利用して、オーディオファイルに合った画像を作成します。
DemoやGitHubのところから試してみるのも良いかもしれません。
3.arxiv deep dive
これは研究者のリラーニングには良いツールなのではないかと思います。
Arxivという世界中の論文が納められているウェブサービス、データベースがあります。そのデータベースから論文をベクトル化して検索できるようにしています。
研究者がある分野を学ぶときに、その分野の主要論文の把握や、専門用語の把握に時間を要するのが問題です。この問題を解決するために、Langchainを用いて、ベクトル化したデータベースに対して、ある分野を入力すると、主要論文や専門用語の説明が出てくるツールです。
4.Artificial Medical Imaging
GPT-3.5ベースで作成した医療用チャットボットのSadiqが既にあり、チャットとのやり取りから、患者の状態を表現した画像を作成します。
Demoがありましたので試してみると、下記のようになります。
5.LLM enhanced Medical Notes
患者一人一人の状態を記載したメモがあり、そのメモをStreamlitにアップロードし、LangchainでQAシステム化しています。
ヘルスケア系の人の参加者が多いなと思いました。
6.SightCom2
視力が悪い人がスマートグラスをかけて、スマートグラスの小型カメラで画像を読み取り、視力が悪い人を音声などで、手助けしましょうというコンセプトです。
但し、スマートグラスまで実現することは現在はできないので、Stremlit上からウェブカメラで撮影して、POC代わりにしています。