マガジンのカバー画像

ICT活用あれこれ

37
運営しているクリエイター

#テキスト化

文字認識結果から名詞のみを抽出する

きっぷをOCRかけた結果から、「発駅は国府である」という情報を抽出したい、で終わったのが前回。

駅名は名詞。
なので、
認識結果から名詞を抽出

名詞の中から駅名を抽出

きっぷの位置情報から発駅・着駅を判定

とするとよさそう。
人間の目の動きもそんな感じの気がするし。

じゃあ、どうやって名詞を抽出しようか?
ということで、自然言語処理をかけてみましょう。
今回使ってみるのは、NTT印の

もっとみる
画像の文字起こしをしてみよう

画像の文字起こしをしてみよう

こんな画像から文字起こしをしたいと思ったことはありませんか?
観光地に行くと、こんな掲示は結構見ます。

「写真を撮っておいて後で見返そう!」と思っても、ファイルは画像のままなので、検索にも使いづらい。せいぜい、いつどこで撮ったっけ?と思い出して探すくらいです。

検索とか翻訳にも使うなら文字起こしして、テキスト情報にする必要がありますが、手作業で書き起こすとなると大変ですよね。

そこで、OCR

もっとみる