sergicalsix

エンジニアをやっています。

sergicalsix

エンジニアをやっています。

最近の記事

  • 固定された記事

層に着目したLLMの口調の学習について

こちらは【第3回】生成AIなんでもLT会の登壇内容のnoteです。 👇【第3回】生成AIなんでもLT会のリンクはこちら 👇登壇資料はこちら(PDF化した時にサイズ変更があり、少しバグっているようです。) はじめにLLMのファインチューニングをしていると、ふと「学習した情報ってどこに保存されているんだろう?」と思うことはありませんか? LLMの知識がどこに保存されているのかというお話は、議論されていて「全結合層に知識が保存されている」という仮説などあります。 またZe

    • LLMニュースまとめ[2024年10月27日~11月2日]

      2024年10月27日~11月2日のLLM関連のニュースとして有名なもの、個人的に刺さったもの9点を以下にまとめる。 1. ROCKET-1 オープンワールド環境でのインタラクションを向上させるために、Visionモデルと言語のモデルを活用したROCKET-1という手法を提案。 言語を使ったタスクを指示だけでなく、過去の視覚情報から得られたオブジェクトのセグメンテーションを利用し、どのオブジェクトとどの取り扱うかかを指示するvisual-temporal context

      • LLMニュースまとめ[2024年10月20日~10月26日]

        2024年10月20日~10月26日のLLM関連のニュースとして有名なもの、個人的に刺さったもの6点を以下にまとめる。 1. SPARE LLMの知識選択(パラメトリックな知識かコンテキストか)を効率的に制御する方法であるSPARE(Sparse Auto-Encoder-based Representation Engineering)を提案。知識の矛盾検出して、パラメトリックな知識を抑制することで知識選択を正確に実施。 2. Knowledge Unlearning

        • LLMニュースまとめ[2024年10月13日~10月19日]

          2024年10月13日~10月19日のLLM関連のニュースとして有名なもの、個人的に刺さったもの8点を以下にまとめる。 1. StructRAG 知識集約型推論タスクにおいて、散在する情報を効果的に構造化し、LLMsの推論能力を向上させる新しいフレームワーク「StructRAG」を提案。 2. VITask: From Generalist to Specialist VLM VLMのタスク特化型適応性を向上させる新しいフレームワーク「VITask」を提案。VITas

        • 固定された記事

        層に着目したLLMの口調の学習について

          LLMニュースまとめ[2024年10月6日~10月12日]

          2024年10月6日~10月12日のLLM関連のニュースとして有名なもの、個人的に刺さったもの11点を以下にまとめる。 1. GSM-Symbolic LLMの論理的推論能力に疑問を投げかけている論文。 数値を変更したり、非属性の節を追加したりするだけで、LLMの数学的推論性能が著しく低下した。これによりモデルが論理的推論を行っているのではなく、むしろ学習データからパターンを模倣していることを示唆しており、数学的推論の進歩に関するこれまでの指標に疑問を投げかけている。

          LLMニュースまとめ[2024年10月6日~10月12日]

          LLMニュースまとめ[2024年9月30日~10月5日]

          2024年9月30日~10月5日のLLM関連のニュースとして有名なもの、個人的に刺さったもの9点を以下にまとめる。 1. Contextual Document Embeddings 周辺文書を考慮した文書埋め込みを提案。 エンコーダーのアーキテクチャを変更し、隣接文書の情報をエンコードに組み込めるようにし、トレーニング時に隣接文書を明示的に取り入れて学習を行っている。 2. ENTP: Encoder-only Next Token Prediction ENTP:

          LLMニュースまとめ[2024年9月30日~10月5日]

          LLMニュースまとめ[2024年9月23日~9月29日]

          2024年9月23日~9月29日のLLM関連のニュースとして有名なもの、個人的に刺さったもの8点を以下にまとめる。 1. Were RNNs All We Needed? 従来のRNN(LSTMやGRU)よりもパラメータ数が少なく、計算効率が高い「minLSTM」と「minGRU」を提案。 2. LLMs Know More Than They Show LLMの内部状態において、正しい答えを示すトークンに情報が強くエンコードいる特性を利用することで誤り検出系のタスク

          LLMニュースまとめ[2024年9月23日~9月29日]

          LLMニュースまとめ[2024年9月16日~9月22日]

          2024年9月16日~9月22日のLLM関連のニュースとして有名なもの、個人的に刺さったもの11点を以下にまとめる。 1. Molmo Molmo: オープンソースのマルチモーダルAI OpenAIのGPT-4oやGoogleのGemini 1.5 Proなどの最先端のAIに匹敵する性能を持ちながら、モデルのサイズは非常に小さい。 2. AlphaChip AlphaChip: Google DeepMindが開発したAIシステムで、コンピューターチップの設計を自動化

          LLMニュースまとめ[2024年9月16日~9月22日]

          LLMニュースまとめ[2024年9月9日~9月15日]

          2024年9月8日~9月15日のLLM関連のニュースとして有名なもの、個人的に刺さったもの9点を以下にまとめる。 1.  Moshi Moshi: speech-text基盤モデルかつ、リアルタイムの全二重音声対話システム Moshiは「Inner Monologue」という手法を導入しており、これは音声トークンを生成する前に、時間に合わせたテキストトークンを予測している。この方法により、生成される音声の言語的な質が大幅に向上する。 https://kyutai.org

          LLMニュースまとめ[2024年9月9日~9月15日]

          LLMニュースまとめ[2024年9月2日~9月8日]

          2024年9月2日~9月8日のLLM関連のニュースとして有名なもの、個人的に刺さったもの10点を以下にまとめる。 1. Strategic Chain-of-Thought(SCoT) SCoT: 推論を始める前に、戦略を生成し、それに基づいて推論を進める手法。(ex.数学の問題ならば、先に公式を使うという戦略を立てるイメージ) 2. The Effects of Generative AI on High Skilled Work ソフトウェア開発者がGitHub

          LLMニュースまとめ[2024年9月2日~9月8日]

          LLMニュースまとめ[2024年8月26日~9月1日]

          2024年8月26日~9月1日のLLM関連のニュースとして有名なもの、個人的に刺さったもの15点を以下にまとめる。 1. GameNGen GameNGen: ニューラルモデルのみで構成された初のゲームエンジン 2. Agentic RAG for Time Series Analysis 時系列用のために、Agentic RAGを提案。メインのエージェントが全体統制、サブの時系列に特化したエージェントがそれぞれのタスクを解く。過去のパターンや傾向に関する知識をプロン

          LLMニュースまとめ[2024年8月26日~9月1日]

          LLMニュースまとめ[2024年8月19日~8月25日]

          2024年8月19日~8月25日のLLM関連のニュースとして有名なもの、個人的に刺さったもの12点を以下にまとめる。 1. Automate Design of Agentic Systems 「Meta Agent Search(メタエージェント検索)」という新しい手法を提案。メタエージェントは、過去の発見を蓄積したアーカイブを基に、新しいエージェントを作成&テストすることで、プロンプト、ツールの使用、制御フローなど、あらゆる種類のエージェントシステムを学習することが可

          LLMニュースまとめ[2024年8月19日~8月25日]

          LLMニュースまとめ[2024年8月12日~8月18日]

          2024年8月12日~8月18日のLLM関連のニュースとして有名なもの、個人的に刺さったもの12点を以下にまとめる。 1. The AI Scientist AIエージェントが、独自の研究実施、研究結果整理、論文執筆を一貫して実施。 2. Grok-2 LMSYS Chatbot ArenaでClaude 3.5 SonnetとGPT-4-Turboを凌駕 3. LongWriter 20Kの単語以上の一貫した出力が可能なAgentWriteを提案。AgentWr

          LLMニュースまとめ[2024年8月12日~8月18日]

          AQUILA2のテクニカルレポート紹介[BAAI]

          タイトルAQUILA2 TECHNICAL REPORT リンクhttps://arxiv.org/pdf/2408.07410 ひとこと要約英語、中国語のバイリンガルモデルであるAquila2のテクニカルレポート。独自のHeuriMentor(HM)を採用し、効率的な訓練に成功。 メモAquila2とは 7B、34B、70Bパラメータの二言語(中国語・英語)モデルシリーズ HeuriMentor(HM)フレームワークを用いることで、従来の学習に比べて効率的な学習を

          AQUILA2のテクニカルレポート紹介[BAAI]

          LLMの内部理解に役立つTransformer Explainerの紹介

          タイトルTRANSFORMER EXPLAINER: Interactive Learning of Text-Generative Models リンクhttps://arxiv.org/pdf/2408.04619 ひとこと要約LLMの内部計算を可視化するツールであるTransformer Explainerを開発。 メモTransformer Explainerの特徴 ブラウザで直接実行可能 リアルタイムでGPT-2モデルを操作 複数の抽象化レベルを提供(構

          LLMの内部理解に役立つTransformer Explainerの紹介

          詳細かつ包括的な検索手法:MindSearchの紹介

          タイトルMindSearch 思·索: Mimicking Human Minds Elicits Deep AI Searcher リンクhttps://arxiv.org/pdf/2407.20183 ひとこと要約情報検索の新たなフレームワークとしてMindSearchを提案。Perplexity.aiやChatGPTよりもより詳細で包括的な回答を生成可能。 メモMindSearch 基本概念 大きな問題を小さな部分に分けて、それぞれを解決し、最後に全体をまとめ

          詳細かつ包括的な検索手法:MindSearchの紹介