マガジンのカバー画像

Data

55
運営しているクリエイター

記事一覧

自治体発 点群オープンデータまとめ

自治体発 点群オープンデータまとめ

※データの利用規約は各サイトでご確認ください
2024年10月31日更新

全国My City Construction
工事・業務の成果品をDLすることが出来ます
「工事データ一覧」→「成果物 公開のみ」
点群を公開してるのは2022/02/01現在、静岡県、長野県
https://mycityconstruction.jp/

国土交通データプラットフォーム
「データ選択」→「工事・業務データ

もっとみる
【モデル配布】VRoid100人できるかな?

【モデル配布】VRoid100人できるかな?

初めまして、こんばんは。VRoid、遊べてますか? VRoid Hub、検索つらくないですか?(挨拶)

VRoidモデルはデータ内に利用条件を設定できるのが利点のひとつですが、とにかく好きな使い方ができるモデルがたくさん欲しい……と考えた際には、ひとつずつ探しに行く必要がありました。
それはそれで、大変だ。もしかしたら作った方が早いかもしれない……本当に?

作りました。(妹君が)

本note

もっとみる
過去の天気予報データを蓄積するリポジトリを作りました

過去の天気予報データを蓄積するリポジトリを作りました

jniimi/weather_forecast_japan (Huggingface Datasets)
7日間先までの気象予測の値を取得しています。

まだ蓄積し始めなのでしばらくは使い物にならないと思いますが。

1. データ作成の背景仕事の関係で気象関係のデータを使う必要ができたのだけれど、いい感じに使えるものがいまいちなかったので自分で作った。
完全データを使って変数間の関係性を事後的に明

もっとみる

LAION-5Bの開発元であるLAIONがデータセットからCSAMを削除した「Re-LAION-5B」を新たに発表しました

「LAION-5B」は非常に大規模なデータセットであり、その中から2000件の児童性的虐待コンテンツ(CSAM)が見つかったという報告があります。これを受けて、開発元であるLAIONは、これらのリンクを削除した「Re-LAION-5B」という新しいバージョンをリリースしました。

この問題についての説明ですが、まず重要な点として、2000件という数は確かに懸念されるべきものであり、CSAMが含まれ

もっとみる
【論文要約:自動運転関連】WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding

【論文要約:自動運転関連】WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding

自動運転に関連する論文の要約をしています。
論文へのリンク:https://arxiv.org/abs/2407.15350

1. タイトル

原題: WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding
和訳: WTS: 詳細な時空間理解のための歩行者中心の

もっとみる
Persona Hubについて

Persona Hubについて

少し前に中国のTencentのチームが発表したPersona Hub(テクニカルレポート)について書いてみたいと思います。

Persona Hubは、ウェブデータを活用して膨大なペルソナ(「〇〇の専門家」みたいな人格・属性を表す短文)を生成したデータセットです。

具体的にどうやって生成しているかは示されていないようですが、ペルソナからさらに別のペルソナを生成することで、ペルソナの多様性を増やし

もっとみる
データがなくても大丈夫!無料で使える学習用データを活用しよう~国内版~

データがなくても大丈夫!無料で使える学習用データを活用しよう~国内版~

データの可視化やデータ分析を実際に挑戦してみたいけど、手元に使えるデータがない…とお悩みのあなたに朗報です。

実はインターネット上などに誰でも無料で使えるデータセットが公開されており、気軽に実践的な分析を行うことができます。

今回は、特にデータサイエンス初心者におすすめのデータセットをご紹介します。

scikit-learnのiris

まず始めに、Pythonのライブラリ「scikit-l

もっとみる

LLMだけでデータセット生成してみよう!Magpie方式でのprompt生成

こんにちは、クロガネです。
タイトルの通り、完全にLLMのみを使用したデータセット作成を行います。

以下の論文に基づいて進め行きます。
[2406.08464] Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing (arxiv.org)
本当にそんなに簡単にデータセット生成ができ

もっとみる

埋め込みモデル学習と評価ための4つのクラスタリングデータセットの公開

埋め込みモデルの学習と評価のために、有価証券報告書、法律、輸出入貨物の関税分類、医療機器の類別の4つの異なるドメインからデータを収集し、クラスタリングデータセットとして整形、公開しました。

背景私は主にRAG目的で埋め込みモデルを調べていたため、クラスタリングタスクは触っていませんでしたが、最近、SFR-Embeddingの記事にクラスタリングタスクの訓練で検索タスクも性能向上するという記述を目

もっとみる
デルタもんLoRAの正式版を公開します。

デルタもんLoRAの正式版を公開します。

こんにちは、BlendAI運営です。

デルタもんLoRAの正式版を公開しました。 以下からダウンロード可能です。

booth (学習データセット付き)
https://blendai.booth.pm/items/5801621

civitai (LoRAのみ)
https://civitai.com/models/492694

デルタもん公式LoRA version1.0の特徴についてご

もっとみる
LLMによる合成データ(Synthetic Data)生成のテクニック

LLMによる合成データ(Synthetic Data)生成のテクニック

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べたり試したことをまとめておこうと思います。
個別の論文の詳細については他の方の記事や私の過去記事でまとめたりしてあるので、どちらかというと合成データ生成における方向性にどんなものがあるのかという観点で紹介したいと思います。

概要LLMによる合成データ生成には、その使い道から以下の2つの種類があ

もっとみる
論文メモ: Self-Rewarding Language Models

論文メモ: Self-Rewarding Language Models

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べているので論文等忘れないようにこの場にメモを残していきたいと思います。
基本的に、『Synthetic dataをどう作るか』によったメモとなるので、その論文中の結果等は書かなかったりすると思います。
また、内容には私、GPT、Claudeの見解を含みます。

1. 今回の論文今回は以下の論文を

もっとみる
論文メモ: Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

論文メモ: Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べているので論文等忘れないようにこの場にメモを残していきたいと思います。
基本的に、『Synthetic dataをどう作るか』によったメモとなるので、その論文中の結果等は書かなかったりすると思います。
また、内容には私、GPT、Claudeの見解を含みます。

1. 今回の論文今回は以下の論文を

もっとみる
llm-jp-evalの中身を見てみる

llm-jp-evalの中身を見てみる

llm-jp-evalが対応している8つのカテゴリ

自然言語推論(Natural Language Inference, NLI)
- Jamp, JaNLI, JNLI, JSeM, JSICK

質問応答(Question Answering, QA)
- JEMHopQA, NIILC

読解力(Reading Comprehension, RC)
- JSQuAD

多肢選択問題(Mul

もっとみる