全文検索(Opensearch/Elasticsearch + FESS)によるデスクトップ検索の面倒を解決する方法
· 22 min read
前置き
以下、この Blog の読み手の興味を惹かない内容(=検索に関する技術的な細部)なので skip 推奨。この手の小細工はすぐに忘れるので 記録/保存 するのが目的。
何が問題か?
本 Blog では記事が累積し、非公開の内部 資料/記事 も含めると既に文書総数が数万件になっている。さらに 記事/文書 は複数のサイト(+local) に跨っている。加えて個々の記事は比較的長く、文字起こしを含む場合は 200KiB を超えるものも少なくない。ちなみに文庫本一冊に含まれる文章の情報量は 200~300 KiB 程度。
この状況で、どうやって過去記事を効率的に検索するか? これが問題となる。
具体的にいえば、
- 複数のサイト(+local) に跨る数万件の記事、
- それも 200KbiB を超える長文の記事を含む文書群を、
- 効率的に「全文検索」し、
- 検索結果を一瞥でわかるように表示し、
- かつ、必要となれば(画像や動画を含めた)完全な形で表示できる(=元サイトの記事を直接アクセスして表示)
ことが必要となる。この対処方法について、以下で詳しく述べる。