数式を含むスキャン画像のPDFをOCRしてマークダウン形式に変換できる。Nougatを試す
Meta社が公開した数式を含むPDFのOCRモデル、Nougat (Neural Optical Understanding for Academic Documents)を試してみました。
PDFを入力すると、いい感じにLaTeX埋め込みマークダウン形式で出力されるので、いろいろ捗りそうです。😄
なお、コードはMITライセンス、モデルウェイトはCC-BY-NCライセンスになっています。
https://facebookresearch.github.io/nougat/
Google Colabで実行してみます
GPUを有効にしてインストール
!pip install nougat-ocr
目的のPDFを入力
!nougat /content/Attention_Is_All_You_Need.pdf --out .
出力結果
いい感じにマークダウン形式で出力されました。
手軽に変換できるので、いいですね。
この記事が気に入ったらサポートをしてみませんか?