見出し画像

HTMLから Markdown コンテンツへの変換に特化したJina Reader-LMを試す

Jina AIからHTMLから Markdown コンテンツへの変換に特化したJina Reader-LMが公表されていたので、ざっと試してみました。


モデル概要

  • ノイズも含む生HTMLから、Markdownへの変換に特化した小型言語モデル(SLM)

  • モデルのバリエーション reader-lm-0.5b と1.54Bのreader-lm-1.5b

  • 多言語、長文脈サポート(256Kトークン)

  • コンパクトなサイズにもかかわらず、このタスクで最先端のパフォーマンスを実現

  • ライセンスはCreative Commons Attribution Non Commercial 4.0で非営利利用に限定

Colabサンプルを試してみる

Google Colabノートブックでサンプル用意されているので早速試してみます。実行環境は無料のT4 GPUです。


小さいほうの0.5bモデルでmax_tokensは8192で試してみる
GPUメモリ消費は12GB程度

Jina.AIのReader-LM紹介ページを変換してみます

期待通り、いい感じにmd形式に変換されました

感想

  • マークダウン変換をクライアント側で比較的気楽に行えるので、RAG用のデータ作成など結構使えそうな気がしました。巨大モデルで総合性能を競うのでなく、特定の機能に特化するのも面白い戦略ですね。

最後までお読みいただきありがとうございました。

いいなと思ったら応援しよう!