LLM

2024年7月19日 12:52

量子化したローカルLLMによるセンチメント分析モデルのpreprintを公開しました

arXivにローカルLLMを用いたモデル提案のpreprintを公開しました。大規模言語モデル、今回はLLaMA-3を量子化したローカルモデルを使ったセンチメント分析手法の提案ですね。

1. タイトルなどTitle: Dynamic Sentiment Analysis with Local Large Language Models using Majority Voting: A Study

もっとみる

QunaSys

2024年7月26日 09:59

手書き化学構造認識モデルDECIMER V2を解説&動かしてみた

PDFの中に埋もれている化学構造をSMILESなどのコンピュータが扱える形にしたいと思ったことはありますか？

最近だと化学構造を手書きで描いた画像をChatGPTでSMILESに変換させてみようとしましたが、うまくいきませんでした。
ベンゼンぐらいだったらうまくいくSMILESに変換してくれますが、カフェインぐらいになると無理です。

そこで見つけたのが、手書き化学構造認識モデルであるDECIM

もっとみる

はち

2024年7月31日 23:59

WizardLM-2の開発方法: Auto Evol-Instruct

はじめに2024年4月に高い性能を叩き出し、オープンライセンスで公開されたにも関わらずすぐにHugging Faceから消されたWizardLM-2というモデルがあります。（現在、HuggingFace上には非公式のモデルのみ公開されています。短期間公開されていたタイミングにダウンロードされていたのでしょうか。）

以下のように高い性能を叩き出したことでWizardLM-2は注目を集めましたが、

もっとみる

Lucas

2024年7月29日 13:39

覚え書き：Hugging face 上でモデルの量子化が実行できそうです

昨日、Ollamaの説明を下記の見てました。

リンク先のGuideをさらに見てみたら、こんなノートがありました。

なんとHugging face 上で量子化ができるとのことです！
Create your own GGUF Quants, blazingly fast ⚡!

ログインして許可を与えると、こんなページです。
簡単な英語ですが、訳すると「このスペースは HF リポジトリを入力として

もっとみる

npaka

2024年7月31日 17:43

Cohere Prompt Tuner の使い方

以下の記事が面白かったので、簡単にまとめました。

1. Cohere Prompt Tuner「Cohere Prompt Tuner」は、「Cohere Dashboard」で利用できるプロンプト最適化ツールです。「PROmpting」(OPRO) にヒントを得たツールで、カスタマイズ可能な最適化と評価のループを使用して、プロンプトを最適化します。

2. モデル機能の強化一般的な企業LLMワ

もっとみる

npaka

2024年7月28日 06:51

AlphaProof と AlphaGeometry 2 の概要

以下の記事が面白かったので、簡単にまとめました。

1. はじめに高度な数学的推論機能を備えた汎用人工知能 (AGI) は、科学技術の新たな領域を切り開く可能性を秘めています。

私たち (Google DeepMind) は、数学者が新しい洞察、斬新なアルゴリズム、未解決の問題への答えを発見するのに役立つAIシステムの構築で大きな進歩を遂げてきました。しかし、現在のAIシステムは、推論スキルと学

もっとみる

Kan Hatakeyama

2024年7月29日 09:20

ネットの文章とChatBotの文章は「どれくらい離れているか」を可視化する

(下書きをclaudeが書き直した記事です)

はじめにみなさん、こんにちは。今日は大規模言語モデル（LLM）の学習プロセスについて、少し深掘りしてみたいと思います。

LLMの作成方法として、よく次の2段階のプロセスが紹介されています：

大量のインターネットデータや書籍などを使って事前学習を行う

その後、会話形式の指示データを使って微調整（ファインチューニング）を行う

この方法は、多くの研

もっとみる

朝日新聞社メディア研究開発センター

2024年7月2日 12:00

【LLM】Few-shot推論は言語化の壁を越えられるか

こんにちは。メディア研究開発センターの川畑です。

みなさん ChatGPT 使ってますか？便利ですよね。何か訊いたら大概のことは正確に教えてくれますし、論文等の文書もわかりやすくまとめてくれたりと万能な存在です。

そんな便利な ChatGPT もとい LLM (large language model) ですが、その知識を引き出すためには質問や指示をキチンと言葉にしなければいけません。ちゃんと

もっとみる

npaka

2024年7月27日 22:28

Llama.cpp で Llama-3.1-70B-Japanese-Instruct-2407 を試す

「Llama.cpp」で「mmnga/Llama-3.1-70B-Japanese-Instruct-2407」(Q8_0)を試したのでまとめました。

1. Llama-3.1-70B-Japanese-Instruct-2407「Llama-3.1-70B-Japanese-Instruct-2407」は、「meta-llama/Meta-Llama-3.1-70B-Instruct」をベース

もっとみる

Maki@Sunwood.ai.labs

2024年7月17日 21:57

SpreadsheetLLM: 大規模言語モデルによる革新的なスプレッドシート処理

はじめにスプレッドシートは、ビジネスや個人の日常生活で広く使用されているデータ管理ツールです。しかし、その複雑な構造や大量のデータを効率的に処理することは、従来の手法では困難でした。本記事では、大規模言語モデル（LLM）を活用して、スプレッドシートの理解と処理を革新的に改善する「SpreadsheetLLM」について詳しく解説します。

SpreadsheetLLMの概要SpreadsheetLL

もっとみる

IT navi

2024年7月25日 11:45

大規模言語モデルは人間レベルの物語を生成できるのか？

近年、人工知能（AI）の進化に伴い、大規模言語モデル（LLM）がさまざまな分野で活用されています。特に、自然言語処理の分野では、GPT-4やClaudeなどのLLMが人間のような文章を生成する能力を持つとされてきました。しかし、これらのモデルが本当に人間レベルの物語を生成できるのかについては、まだ議論の余地があります。今回は、その能力を検証するための研究を紹介します。

【論文】
Are Larg

もっとみる

めぐチャンネル

2024年7月25日 20:27

Llama3.1をローカルで動かしてみた。完全版

ローカルで動かすこともできる最新のオープンソースLLMを動かしました。
モデルは以下の
Llama-3.1-8B-Instruct-Q4_K_M.gguf
です。動かすことはできましたが、普通じゃない動きです。以下レポート。

Metaのサンプルコードを動かす。これが動かない。オリジナルのコードはモデルを自動ダウンロードしてくれないし、CLIでも落とせない。なぜなんでしょうね。他のモデルだと簡単

もっとみる

IT navi

2024年7月25日 05:03

Llama 3.1発表：無料で商用利用可能な最強のオープンソースAIモデル

第1章: イントロダクション2024年7月24日、Metaは最新の大規模言語モデル「Llama 3.1」を発表しました。この新モデルは、最大4050億（405B）パラメータを持ち、世界最大かつ最も高性能なオープンソースAIモデルの一つとして注目されています。MetaのオープンソースAI戦略の一環としてリリースされたLlama 3.1は、商用利用が可能でありながらも無料で提供され、開発者や研究者に大

もっとみる

QunaSys

2024年7月23日 11:45

化学で使えるLLMエージェント：CACTUSを解説＆動かしてみた

はじめにCRSチームでソフトウェアエンジニアをやっている山口です！
今日は化学で使えるLLMエージェントであるCACTUSについて解説して、最後には実際に動かしていこうと思います！

CACTUSとは？CACTUSは大規模言語モデル（LLM）と化学情報学ツールを組み合わせたLLMエージェントです。ChemCrowのようなLLM支援型化学合成プランナーから着想を得て、新薬設計および分子発見支援用に作

もっとみる

フォローしませんか？

2024年7月の記事一覧