Kindleから文字を抜き出して、NotebookLMで読む(Windows)

こんにちは、kaです。

以下の記事を見て、自分でも試してみたくなりましたが、Windowsでの方法を説明した記事が見つからなかったため、自分で作成してみることにしました。

もちろん、目的はNotebookLMでの使用です。

購入希望者が100人以上集まった場合、マニュアルを作成し、1,500円で販売しようと思っています。


Kindleの全ページをスクショ

これはUWSCというソフトを使用して、全ページをスクリーンショットで記録しています。以下はその実際の作業を示した動画です。

すると、このように全てのスクリーンショットがフォルダに保存されます。

Google DocumentAIを使って全ページから文字を抽出


ネット上で紹介されている様々なツールの中で、私が試した中で最も優れていたのはGoogle DocumentAIでした。Pythonを使ってGoogle DocumentAIのAPIを呼び出し、それぞれの画像から文字を抽出し、最終的にすべてのテキストを一つのファイルにまとめています。
Pythonでexeファイルを作成することにより、プログラムを毎回立ち上げる手間が不要になりました。

以下の動画では、先に撮影したスクリーンショットをすべてinputフォルダに入れ、実行ファイルをダブルクリックするだけで、自動的に全ファイルにOCR処理を適用しています。

以下、最初の方のOCR結果です。かなり良い感じではないでしょうか。

銀河鉄道の夜宮沢賢治1午後の授業ぎんがたいてんてんへんじへんじじゃり「ではみなさんは、そういうふうに川だと言われたり、乳の流れたあとだと言われたりしていた、このぼんやりと白いものがほんとうは何かご承知ですか」先生は、黒板につるした大きな黒い星座の図の、上から下へ白くけぶったしょうちこくばん銀河帯のようなところを指しながら、みんなに問いをかけました。せいざカムパネルラが手をあげました。それから四、五人手をあげました。ジョバンニも手をあげようとして、急いでそのままやめました。 たしかにあれがみんな星だと、いつか雑誌で読んだのでしたが、このごろはジョバンニはまるで毎日教室でもねむく、本を読むひまも読む本もないので、なんだかどんなこともよくわからないという気持ちがするのでした。ところが先生は早くもそれを見つけたのでした。「ジョバンニさん。 あなたはわかっているのでしょう」ジョバンニは勢いよく立ちあがりましたが、立ってみるともうはっきりとそれを答えることができないのでした。ザネリが前の席からふりかえって、 ジョバンニを見てくすっとわらいました。

購入希望

購入を希望される方は、以下からお申し込みください。参加者が100人に達した際には、マニュアルを作成してお送りします!

ここまで読んでいただき、ありがとうございました!
なぜ100人以上にしてるかと言うと、まだマニュアルがないためです(笑)
100人の購入が集まるまでに、コツコツとマニュアルを作成しておきます。

いいなと思ったら応援しよう!