マガジンのカバー画像

Akira's ML news & 論文解説

※有料設定してますが投げ銭用です。無料で全て読めます。 機械学習系の情報を週刊で投稿するAkira's ML newsの他に、その中で特に重要だと思うものを月毎にまとめたものと、…
機械学習論文の一言解説、技術的な記事、機械学習の社会実装例などの情報を週刊で発行しているAkira…
¥300 / 月 初月無料
運営しているクリエイター

#transformer

超巨大高性能モデルGPT-3の到達点とその限界

この記事についてこの記事ではGPT-3[1]の解説をします。内容のサマリは以下の通りです。 GPT-3の前身であるGPT-2では、巨大なデータセット+巨大なネットワークで言語モデルを構築し、各タスクで学習させなくても良い結果が得られた。 GPT-3では、さらに巨大なデータセット+さらに巨大なネットワークで言語モデルを構築し、数十のサンプルを見せると凄く良い結果が得られた 一方、様々なタスクに言語モデルのスケールアップのみで対応することへの限界が見えてきた。人種、性別、宗教など