Opening up ChatGPT: Tracking openness, transparency, and accountability in instruction-tuned text generators
1. 本研究の学術的背景,研究課題の核心をなす学術的「問い」は何ですか?
- 会話インターフェースにおける大規模言語モデルは、OpenAIのChatGPT(人間のフィードバックから強化学習によって微調整された、テキスト生成用の大規模言語モデル)のリリースによって、最近の大きな変化の一つとなっています。本研究では、プロプライエタリソフトウェアに依存するリスクを検討し、同様のアーキテクチャや機能を備えたオープンソースプロジェクトについての調査を行っています。
2. 本研究の目的及び学術的独自性と創造性は何ですか?
- 本研究では、オープンさの重要性を明確にし、この急速に進む分野におけるオープンさの程度について科学的文書化することを目的としています。研究者らは、オープン性に関して、コード、トレーニングデータ、モデルの重み、強化学習によるフィードバックデータ、ライセンス、科学的文書化、アクセス方法などを評価し、オープンソースプロジェクトの貢献度を科学的に評価しました。
3. 本研究の着想に至った経緯や、関連する国内外の研究動向と本研究の位置づけは何ですか?
- 会話インターフェースにおける大規模言語モデルは、最近急速に進展しており、OpenAIのChatGPTがその代表的な例です。本研究では、この急速な進展によるプロプライエタリソフトウェアに関するリスクを検討し、同様のアーキテクチャや機能を備えたオープンソースプロジェクトを調査しています。
4. 本研究で何をどのように,どこまで明らかにした?
- 本研究では、オープンソースプロジェクトとプロプライエタリソフトウェアの比較を行い、オープンソースプロジェクトにおいて、コード、トレーニングデータ、モデルの重み、強化学習によるフィードバックデータ、ライセンス、科学的文書化、アクセス方法などを評価しました。情報がオープンであることは、データ収集、モデルアーキテクチャ、トレーニングからリリース・展開に至るまで公平性と責任に関係しており、インストラクション調整 (人間のアノテーション労働が関係する重要なサイト) を共有するプロジェクトはほとんどありません。
5. 本研究の有効性はどのように検証した?
- 本研究では、オープンソースプロジェクトとプロプライエタリソフトウェアの比較を行い、取り扱うデータのオープン性や科学的文書化の程度を明らかにしました。オープン性が高いプロジェクトは、公平性と責任の点において有利であることが示唆されています。