見出し画像

HTMLから Markdown コンテンツへの変換に特化したJina Reader-LMを試す

2024年9月12日 15:47

Jina AIからHTMLから Markdown コンテンツへの変換に特化したJina Reader-LMが公表されていたので、ざっと試してみました。

モデル概要

ノイズも含む生HTMLから、Markdownへの変換に特化した小型言語モデル(SLM)
モデルのバリエーション　reader-lm-0.5b と1.54Bのreader-lm-1.5b
多言語、長文脈サポート（256Kトークン）
コンパクトなサイズにもかかわらず、このタスクで最先端のパフォーマンスを実現
ライセンスはCreative Commons Attribution Non Commercial 4.0で非営利利用に限定

Colabサンプルを試してみる

Google Colabノートブックでサンプル用意されているので早速試してみます。実行環境は無料のT4 GPUです。

小さいほうの0.5bモデルでmax_tokensは8192で試してみる

GPUメモリ消費は12GB程度

Jina.AIのReader-LM紹介ページを変換してみます

期待通り、いい感じにmd形式に変換されました

感想

マークダウン変換をクライアント側で比較的気楽に行えるので、RAG用のデータ作成など結構使えそうな気がしました。巨大モデルで総合性能を競うのでなく、特定の機能に特化するのも面白い戦略ですね。

最後までお読みいただきありがとうございました。

いいなと思ったら応援しよう！