20.000 個のテキスト ファイルが PostgreSQL データベースにロードされてdocs
います。doc_id
doc_content
約8種類の書類があることがわかっています。ここに私の質問があります:
- これらのグループを見つけるにはどうすればよいですか?
- 使用できる類似性、非類似性の尺度はありますか?
- PostgreSQL に最長共通部分文字列の実装はありますか?
- PostgreSQL にテキスト マイニング用の拡張機能はありますか? (私はTsearchしか見つけていませんが、これは 2007 年に最後に更新されたようです)
おそらくいくつかlike '%%'
またはSIMILAR TO
を使用できますが、より良いアプローチがあるかもしれません。