Python、「荒い画像を読み込む」試してみた。
import os
from PIL import Image
from PIL import ImageEnhance
import pyocr
import pyocr.builders
# Tesseract の実行可能ファイルが含まれているディレクトリに変更
path_tesseract = "C:\\Program Files\\Tesseract-OCR"
# PATH 環境変数にパスが含まれていない場合は追加
if path_tesseract not in os.environ["PATH"].split(os.pathsep):
os.environ["PATH"] += os.pathsep + path_tesseract
# 2.OCRエンジンの取得
tools = pyocr.get_available_tools()
tool = tools[0]
# 3.原稿画像の読み込み
img_org = Image.open("illustrator_sumidamsti_tips_13.jpg")
# 画像の鮮明化
enhancer = ImageEnhance.Contrast(img_org)
img_org = enhancer.enhance(2.0) # 鮮明化の度合いを調整
# 画像のノイズ除去
# ここにノイズ除去の処理を追加する
# OCR 実行
builder = pyocr.builders.TextBuilder()
result = tool.image_to_string(img_org, lang="jpn", builder=builder)
print(result)
この記事が気に入ったらサポートをしてみませんか?