以前は、C でユーザー定義関数を記述しない限り、SQL は非構造化データ (テキストなど) を処理できないと考えていました。しかし、InnoDB の全文検索機能は、すでにそのような作業の多くを行っているようです。
https://dev.mysql.com/doc/refman/5.6/en/innodb-fulltext-index.htmlによると、インデックスは という名前の InnoDB テーブルに保存されFTS_00000..._00000..._INDEX_?
ます。
各ドキュメントにトークンが表示されることを期待して、SELECT * FROM FTS_00000..._00000..._INDEX_1 を実行しようとしました (おそらくストップワードは既に削除されています)。ただし、エラーメッセージが表示されました
ERROR 1146 (42S02): Table 'tf.FTS_0000000000000028_0000000000000030_INDEX_1' doesn't exist
select * from information_schema.INNODB_SYS_TABLES;
テーブルが存在することが明らかになったとしても。
フルテキスト インデックスに挿入した各ドキュメントのトークンを取得する方法を知っている人はいますか? 次のデータ スキーマで情報を取得できれば幸いです。
token_id document_id count
"apple" 103343 3
"orange" 9593 1
...