BioCoder: A Benchmark for Bioinformatics Code Generation with Contextual Pragmatic Knowledge
1. 本研究の学術的背景は、ChatGPTなどの事前学習済み言語モデルがコード生成を大いに改善する一方で、モデルのスケールアップに伴い、より複雑なタスクを処理する能力へのニーズが増えているという事実です。学術的な問いは、「事前学習済みモデルは、特に生物情報学における複雑なプログラムの生成をどの程度達成することができるのか?」という問いとなります。
2. 本研究の目的は、既存の事前学習済みモデルが生物情報学のコード生成にどの程度成功しているかを評価するための新しいベンチマーク、BioCoderを提供することです。この研究の独自性と創造性は、パッケージ依存性、クラス宣言、グローバル変数などをカバーすると同時に、GitHubやRosalind Projectから集めた大量の関数とメソッドを組み入れ、模範的な「フuzz-testing」フレームワークを評価に導入した点にあります。
3. 事前学習済み言語モデルが高度なコード生成タスクに挑戦し始めるにつれ、この分野の限界を調べる要請から、本研究の着想が生まれました。本当に複雑な問題、特に生物情報学のコード生成におけるこれらのモデルがどの程度有用であるかを明らかにするために、このベンチマークが作成されました。
4. 本研究では、BioCoderというベンチマークを提供し、既存の様々なモデル(InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+, ChatGPT)を使用して、生物情報学のコード生成のパフォーマンスを評価しました。結果は、ドメイン知識、実践的なコード生成、コンテキスト理解の重要性を示しています。
5. BioCoderの有効性は、既存の複数のモデルを用いて行われた詳細な分析と比較により検証されました。そして、結果はすべてのスクリプト、データセット、Dockerイメージと共にオープンソースで公開されています。