自動論文まとめ4月15日
大規模言語モデルのサンプル効率の良い人間評価方法による評価 [LLM]
Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition
著作者: Kehua Feng, Keyan Ding, ..., Huajun Chen
Trend
近年、大規模言語モデル(LLMs)の増加が見られる中、自動化されたかつ偏りのないLLMsの評価は難しいとされていた。
Contribution
本研究では、MAximum Discrepancy(MAD)競争に基づくサンプル効率の良い人間評価方法を提案し、8つの代表的なLLMsを4つのスキルで比較し、信頼性の高いランキングを実現した。
コード要約における大規模言語モデルの性能分析 [LLM]
Analyzing the Performance of Large Language Models on Code Summarization
著作者: Rajarshi Haldar, Julia Hockenmaier
Trend
大規模言語モデル(LLMs)は、自然言語とソースコードの両方を含むタスクで非常に優れた性能を発揮しており、特にコード要約やコード生成のタスクで優れた結果を示している。
Contribution
本研究では、コード要約のタスクにおいて、モデルの性能が個々の例によって異なることを示し、特にコードと対応する自然言語の説明文の(サブワード)トークンの重複量に依存していることを明らかにした。また、BLEUやBERTScoreなどの複数の評価指標を使用しても、これらの指標は互いに高い相関性があるため、追加の洞察がほとんど得られないことも示している。
Verilogコード生成のためのマルチエキスパート大規模言語モデルアーキテクチャ [LLM]
A Multi-Expert Large Language Model Architecture for Verilog Code Generation
著作者: Bardia Nadimi, Hao Zheng
Trend
近年、大規模言語モデル(LLMs)を使用してVerilogコード生成に関心が高まっている。
Contribution
本論文では、Verilogコード生成のための革新的なマルチエキスパートLLMアーキテクチャ(MEV-LLM)を紹介している。複数のLLMを統合し、それぞれが異なる設計複雑性レベルに適応されたデータセットで微調整されている。これにより、よりターゲットされた学習が可能となり、Verilogコード生成の微妙なニュアンスに直接対処できる。
SQBC: LLM生成の合成データを使用したオンライン政治討論におけるスタンス検出のためのアクティブラーニング [LLM]
SQBC: Active Learning using LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions
著作者: Stefan Sylvius Wagner, Maike Behrendt, ..., Stefan Harmeling
Trend
オンライン政治討論におけるスタンス検出はトランスフォーマーモデルの微調整によって行われてきたが、ラベル付きデータの不足が課題となっていた
Contribution
本研究では、LLM生成の合成データを活用してオンライン政治討論のスタンス検出エージェントを訓練し改善する方法を提案。SQBCという新しいアクティブラーニング手法を導入し、合成データを活用して性能向上を実現
言語モデルの微調整のための分散削減ゼロ次勾配法 [LLM]
Variance-reduced Zeroth-Order Methods for Fine-Tuning Language Models
著作者: Tanmay Gautam, Youngsuk Park, ..., Wooseok Ha
Trend
言語モデルの微調整において、メモリ効率の高い最適化手法が重要となっている。
Contribution
本研究では、分散削減技術を用いたゼロ次勾配法を言語モデルの微調整に適用し、安定性と収束性を向上させた。MeZO-SVRGは、タスク固有のプロンプトに依存せずに複数の言語モデルの微調整タスクで効果を示し、メモリ効率も向上させた。
LLMs向けのデータ拡張に基づく方言適応 [LLM]
Data-Augmentation-Based Dialectal Adaptation for LLMs
著作者: Fahim Faisal, Antonios Anastasopoulos
Trend
大規模言語モデル(LLMs)の共通感覚推論能力を評価するDialect-Copa共有タスクにおいて、南スラブ微方言に焦点を当てた研究が行われている。
Contribution
異なる種類の言語モデルの強みを組み合わせ、データ拡張技術を活用して、Chakavian、Cherkano、Torlakの3つの南スラブ方言におけるタスクパフォーマンスを向上させるアプローチを提案している。提案手法はオープンソースモデルカテゴリーにおいて、3つのテストデータセット全体で大幅なパフォーマンス向上をもたらすことを示している。
この記事が気に入ったらサポートをしてみませんか?