【Python】画像から文字抽出！普段WindowsだとMacを使った時パッケージ格納場所に戸惑う

2023年12月17日 23:31

画像から文字認識を行います。
普段Windows中心の男がMacでPythonを書いたとき、ライブラリパッケージの場所とかで少々困ったので書き残します。

実行環境

Mac
Python3.9

インストールライブラリ

pip install pyocr
pip install Image
pip install pytesseract

Sample Code

from PIL import Image
import pyocr

#読み込む画像ファイルのパスを設定
IMG_FILE_PATH = "sample4.png"

ocr_instance = pyocr.get_available_tools()
ocr = ocr_instance[0]

#画像ファイルを開く
image = Image.open(IMG_FILE_PATH)

#画像から文字列データを抽出
text = ocr.image_to_string(image, lang='jpn')　#　lang->日本語設定

#結果を出力
print(text)

日本語対応

デフォルトでは日本語を読み取りできません。
githubから日本語データをダウンロードして適切な場所に格納して下さい。

日本語データダウンロード

jpn.traineddataファイルをダウンロードします。

https://github.com/tesseract-ocr/tessdata_best/blob/main/jpn.traineddata

GitHub:tesseract-ocr

日本語ファイル格納先

ダウンロードしたファイルを格納します。

/usr/local/Cellar/tesseract/5.3.3/share/tessdata/jpn.traineddata

※POINT
ライブラリパッケージはデフォルトで「/usr/local/Cellar」に格納されます。

実行結果

一応読み取れましたけどかなり精度低いようです。

こういった手書き文字はまず反応してくれませんでした。
色々調整が必要そうです。