【Python】画像から文字抽出!普段WindowsだとMacを使った時パッケージ格納場所に戸惑う
画像から文字認識を行います。
普段Windows中心の男がMacでPythonを書いたとき、ライブラリパッケージの場所とかで少々困ったので書き残します。
実行環境
Mac
Python3.9
インストールライブラリ
pip install pyocr
pip install Image
pip install pytesseract
Sample Code
from PIL import Image
import pyocr
#読み込む画像ファイルのパスを設定
IMG_FILE_PATH = "sample4.png"
ocr_instance = pyocr.get_available_tools()
ocr = ocr_instance[0]
#画像ファイルを開く
image = Image.open(IMG_FILE_PATH)
#画像から文字列データを抽出
text = ocr.image_to_string(image, lang='jpn') # lang->日本語設定
#結果を出力
print(text)
日本語対応
デフォルトでは日本語を読み取りできません。
githubから日本語データをダウンロードして適切な場所に格納して下さい。
日本語データダウンロード
jpn.traineddataファイルをダウンロードします。
日本語ファイル格納先
ダウンロードしたファイルを格納します。
/usr/local/Cellar/tesseract/5.3.3/share/tessdata/jpn.traineddata
※POINT
ライブラリパッケージはデフォルトで「/usr/local/Cellar」に格納されます。
実行結果
一応読み取れましたけどかなり精度低いようです。
こういった手書き文字はまず反応してくれませんでした。
色々調整が必要そうです。
この記事が気に入ったらサポートをしてみませんか?