それでも好きです。。。 - Perl + MySQL で ngram (bigram) で全文検索したときのメモ

サイドコンテンツ【メイン】

推し：加藤安那

加藤安那 (ユメオイ少女)

Twitter: @_hana_celeb_

最新 15 件のエントリー

2025/12/09 00:28:46 pfsense が Up to date と表示されるだけでアップデートが出来ない場合
2025/10/17 13:57:01 Windows のシステムイメージ作成に SD カードや USB メモリを指定する
2024/04/21 21:45:57 パソコンを購入したら必ずやる事－ブラウザのプッシュ通知を切る
2021/05/03 22:48:40 R30Y2 とダストバッグと電動工具と。
2020/05/16 22:36:19 OSMC (Kodi) で 5.1ch サラウンド
2020/01/20 00:46:32 NEC サーバーの 80PLUS PLATINUM リダンダント電源は本当に効率が良いのか？
2019/11/16 23:08:13 2019/03/24 小野はるかユメオイ少女卒業ライブ～ありがとう僕たちの歌姫～ (TOKYO FM ホール)
2019/11/16 23:08:01 2019/03/24 つりビットラストライブ～Sail Away～ (赤坂 BLITZ)
2019/11/16 23:07:49 2019/03/09 ユメオイ少女「テキーラサンライズ」リリースイベント (渋谷タワーレコード)
2019/10/21 18:26:10 RDX カートリッジを分解してみた
2019/06/26 22:19:27 perl の PerlIO の種類で read() で読み込まれるサイズが変わる
2019/06/09 01:30:07 Windows の共有方法をゆるーく考える (結局は現状維持です・・・)
2019/05/16 16:09:55 pfSense を USB メモリからインストールしたときのメモ
2019/04/23 01:40:49 ファイルサーバー用 PC のビデオカードを考える
2019/03/06 02:55:27 hp ProLiant Gen8 の HDD トレイ (キャディ)

エントリー一覧

カテゴリ

管理

サイドコンテンツ【サブ】

ブログエントリー

Perl + MySQL で ngram (bigram) で全文検索したときのメモ

プログラム - 2018/03/10 03:57:34

MySQL の設定が弄れない場合は ft_min_word_len や innodb_ft_min_token_size で単語最小単位の変更が出来ない。または不用意に設定ファイルは弄りたくない場合に全文検索で単語の最小単位 (4 だったり 3 だったり) に対応したときのメモ。

全文検索時の揺らぎ (例えば「カキクケコ」が「かきくけこ」でも検索できる) は使わないので、テーブル作成時のオプションで CHARSET や COLLATE の指定はしない。 COLLATE を指定するにしても utf8mb4_bin など末尾に _bin が付くものにする。

全文検索用のテーブルは個別で用意する

重要なデータが入ったテーブルに全文検索用のカラムは用意しない。

これは好みの問題かもしれない。

文字を一定規則に沿ってノーマライズする

全角英数字は半角へ。半角へ置換可能な全角記号も半角へ。大文字英字は小文字へ。カタカナはひらがなへ。面倒でなければ半角カタカナも全角へ (濁点の処理が面倒)。

これは揺らぎの検索が出来ないことの対策。

重複する文字はまとめる

例えば「2011/11/11」を bigram にすると「20 01 11 1/ /1 11 1/ /1 11」となり、重複を省くと「20 01 11 1/ /1」となります。

各単語は人間が読める意味のある文字の並びである必要は無いため、重複するのは削除して構わない。 11 月の「11」と 11 日の「11」は 2 つとも保存する意味があるか？無いですよね。

プログラムでは bigram の 2 文字をキーにした連想配列を使えば重複する 2 文字はまとめられる。

データベースへの保存は文字コードで行う

「20 01 11 1/ /1」を文字コードにすると「3230 3031 3131 312f 2f31」となります。 (2 文字ペアの bigram でも文字コードにすれば 4 文字になることに注目)

文字コードにしておけば、検索時に % や * を使うと syntax error になるのも防げるし、エスケープする必要も無い。

以上。

ただでさえデータ量が多くなる ngram なのに、文字コードで保存するからデータ量がさらに倍になるのが欠点っちゃ欠点。
Perl + MySQL で ngram (bigram) で全文検索したときのメモ
http://0pm.0am.jp/memo3/index.cgi?entry=20180310_035734