- 運営しているクリエイター
記事一覧
自治体発 点群オープンデータまとめ
※データの利用規約は各サイトでご確認ください
2024年10月31日更新
全国My City Construction
工事・業務の成果品をDLすることが出来ます
「工事データ一覧」→「成果物 公開のみ」
点群を公開してるのは2022/02/01現在、静岡県、長野県
https://mycityconstruction.jp/
国土交通データプラットフォーム
「データ選択」→「工事・業務データ
【モデル配布】VRoid100人できるかな?
初めまして、こんばんは。VRoid、遊べてますか? VRoid Hub、検索つらくないですか?(挨拶)
VRoidモデルはデータ内に利用条件を設定できるのが利点のひとつですが、とにかく好きな使い方ができるモデルがたくさん欲しい……と考えた際には、ひとつずつ探しに行く必要がありました。
それはそれで、大変だ。もしかしたら作った方が早いかもしれない……本当に?
作りました。(妹君が)
本note
過去の天気予報データを蓄積するリポジトリを作りました
jniimi/weather_forecast_japan (Huggingface Datasets)
7日間先までの気象予測の値を取得しています。
まだ蓄積し始めなのでしばらくは使い物にならないと思いますが。
1. データ作成の背景仕事の関係で気象関係のデータを使う必要ができたのだけれど、いい感じに使えるものがいまいちなかったので自分で作った。
完全データを使って変数間の関係性を事後的に明
【論文要約:自動運転関連】WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding
自動運転に関連する論文の要約をしています。
論文へのリンク:https://arxiv.org/abs/2407.15350
1. タイトル
原題: WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding
和訳: WTS: 詳細な時空間理解のための歩行者中心の
Persona Hubについて
少し前に中国のTencentのチームが発表したPersona Hub(テクニカルレポート)について書いてみたいと思います。
Persona Hubは、ウェブデータを活用して膨大なペルソナ(「〇〇の専門家」みたいな人格・属性を表す短文)を生成したデータセットです。
具体的にどうやって生成しているかは示されていないようですが、ペルソナからさらに別のペルソナを生成することで、ペルソナの多様性を増やし
データがなくても大丈夫!無料で使える学習用データを活用しよう~国内版~
データの可視化やデータ分析を実際に挑戦してみたいけど、手元に使えるデータがない…とお悩みのあなたに朗報です。
実はインターネット上などに誰でも無料で使えるデータセットが公開されており、気軽に実践的な分析を行うことができます。
今回は、特にデータサイエンス初心者におすすめのデータセットをご紹介します。
scikit-learnのiris
まず始めに、Pythonのライブラリ「scikit-l
埋め込みモデル学習と評価ための4つのクラスタリングデータセットの公開
埋め込みモデルの学習と評価のために、有価証券報告書、法律、輸出入貨物の関税分類、医療機器の類別の4つの異なるドメインからデータを収集し、クラスタリングデータセットとして整形、公開しました。
背景私は主にRAG目的で埋め込みモデルを調べていたため、クラスタリングタスクは触っていませんでしたが、最近、SFR-Embeddingの記事にクラスタリングタスクの訓練で検索タスクも性能向上するという記述を目
デルタもんLoRAの正式版を公開します。
こんにちは、BlendAI運営です。
デルタもんLoRAの正式版を公開しました。 以下からダウンロード可能です。
booth (学習データセット付き)
https://blendai.booth.pm/items/5801621
civitai (LoRAのみ)
https://civitai.com/models/492694
デルタもん公式LoRA version1.0の特徴についてご
LLMによる合成データ(Synthetic Data)生成のテクニック
私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べたり試したことをまとめておこうと思います。
個別の論文の詳細については他の方の記事や私の過去記事でまとめたりしてあるので、どちらかというと合成データ生成における方向性にどんなものがあるのかという観点で紹介したいと思います。
概要LLMによる合成データ生成には、その使い道から以下の2つの種類があ
論文メモ: Self-Rewarding Language Models
私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べているので論文等忘れないようにこの場にメモを残していきたいと思います。
基本的に、『Synthetic dataをどう作るか』によったメモとなるので、その論文中の結果等は書かなかったりすると思います。
また、内容には私、GPT、Claudeの見解を含みます。
1. 今回の論文今回は以下の論文を
論文メモ: Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べているので論文等忘れないようにこの場にメモを残していきたいと思います。
基本的に、『Synthetic dataをどう作るか』によったメモとなるので、その論文中の結果等は書かなかったりすると思います。
また、内容には私、GPT、Claudeの見解を含みます。
1. 今回の論文今回は以下の論文を