大量の 文書/書籍 の OCR : YomiToku(Local で使える無料の AI OCR) がお勧め
前置き
先日の過去記事で
全文検索の雑感
Elasticsearch/Opensearch による Local での全文検索(*1)の威力は絶大。10年前の記事でも見つけてくる。しかも Isley を Islei と誤記した場合でも曖昧検索が機能してヒットする。
この絶大な有効性から、UFO 研究者/マニア ならずとも大量の資料や文献を扱うのであれば、必須の道具と言っても言い過ぎではないと思える。local で全文検索を実装し利用してからまだ 3-4か月しか経過していないが、もう手放せない。
あとは、大量の書籍文書の local AI による OCR 処理だが、これも 1-2年後には個人用 PC でも可能となる筈。既に十分な性能の AI OCR モデルがいくつも出現している。
ref: Niara Isley : 被験者から覚醒した証人へ (2025-12-11)
と述べたが、Local AI による OCR は 「1-2年後」といった悠長な話ではなかった。
Github で公開されていた YomiToku(AI OCR パッケージ)を実際に試したら今現在、既に十分に実用レベルだった。
大量の文書を扱う 研究者/マニア なら、是非導入すべき。
詳細
180ページの文庫本(の scan 画像)を YomiToku で丸ごと OCR 処理したら 77秒で完了した(GPU 使用時)。GPU を使えずに CPU のみなら数倍の時間がかかるが、その場合であっても一冊丸ごとの OCR が 10分以下で完了する。
Web の pdf 文書(96ページ)、
- 「文部科学広報 2019 年 4 月号」:(文部科学省) https://prtimes.jp/main/html/rd/p/000000001.000157087.html
を丸ごと OCR したら、103秒で完了。
なお、文字認識精度は、ざっと見た限りほぼ完璧。Windows11 に標準搭載の Snipping tool の OCR より精度が高い。Snipping tool と違ってマウスで認識範囲を指定するような手間も不要。しかも縦書き対応、手書き対応、表対応で言う事無し。
YomiToku の詳細
MLism株式会社、独自AIを搭載し、日本語に特化した文書画像解析エンジン「YomiToku-Pro」をリリース | MLism株式会社のプレスリリース https://prtimes.jp/main/html/rd/p/000000001.000157087.html
YomiTokuアップデート情報 v0.8.1|Kotaro.Kinoshita https://note.com/kotaro_kinoshita/n/n9f597e2e51d7
GitHub - kotaro-kinoshita/yomitoku: YomiTokuはAIを活用した日本語文書解析エンジンを提供するPythonパッケージです。 Yomitoku is an AI-powered document image analysis package designed specifically for the Japanese language. https://github.com/kotaro-kinoshita/yomitoku
AI OCR の利用方法(案)
以下、数百冊~数千冊の書籍を扱う 研究者/マニア を想定する。
この場合、
- 一冊分の書籍を scan → AI OCR → テキスト化 → 全文検索
という流れでも良いが、これでは情報粒度が細かすぎる。むしろ
- 1冊分の書籍を scan → AI OCR → テキスト化 → NotebookLM などの AI による全体要約 → 全文検索
の方が実用性が高いと予想する。
(2025-12-19)