HTMLから Markdown コンテンツへの変換に特化したJina Reader-LMを試す
Jina AIからHTMLから Markdown コンテンツへの変換に特化したJina Reader-LMが公表されていたので、ざっと試してみました。
モデル概要
ノイズも含む生HTMLから、Markdownへの変換に特化した小型言語モデル(SLM)
モデルのバリエーション reader-lm-0.5b と1.54Bのreader-lm-1.5b
多言語、長文脈サポート(256Kトークン)
コンパクトなサイズにもかかわらず、このタスクで最先端のパフォーマンスを実現
ライセンスはCreative Commons Attribution Non Commercial 4.0で非営利利用に限定
Colabサンプルを試してみる
Google Colabノートブックでサンプル用意されているので早速試してみます。実行環境は無料のT4 GPUです。
Jina.AIのReader-LM紹介ページを変換してみます
感想
マークダウン変換をクライアント側で比較的気楽に行えるので、RAG用のデータ作成など結構使えそうな気がしました。巨大モデルで総合性能を競うのでなく、特定の機能に特化するのも面白い戦略ですね。
最後までお読みいただきありがとうございました。