postgresql - データベース内のテキストドキュメントをクラスタ化する

Question

20.000 個のテキストファイルが PostgreSQL データベースにロードされてdocsいます。doc_iddoc_content

約8種類の書類があることがわかっています。ここに私の質問があります：

これらのグループを見つけるにはどうすればよいですか?
使用できる類似性、非類似性の尺度はありますか?
PostgreSQL に最長共通部分文字列の実装はありますか?
PostgreSQL にテキストマイニング用の拡張機能はありますか? (私はTsearchしか見つけていませんが、これは 2007 年に最後に更新されたようです)

おそらくいくつかlike '%%'またはSIMILAR TOを使用できますが、より良いアプローチがあるかもしれません。

score 1 · Accepted Answer

PostgreSQL 9.x コア (別名 Tsearch2) の一部である全文検索を使用する必要があります。

最長の共通部分文字列 (または類似性) のある種の尺度については、拡張levenshtein()の一部である関数を使用できる場合があります。fuzzystrmatch

postgresql - データベース内のテキスト ドキュメントをクラスタ化する