1

20.000 個のテキスト ファイルが PostgreSQL データベースにロードされてdocsいます。doc_iddoc_content

約8種類の書類があることがわかっています。ここに私の質問があります:

  • これらのグループを見つけるにはどうすればよいですか?
  • 使用できる類似性、非類似性の尺度はありますか?
  • PostgreSQL に最長共通部分文字列の実装はありますか?
  • PostgreSQL にテキスト マイニング用の拡張機能はありますか? (私はTsearchしか見つけていませんが、これは 2007 年に最後に更新されたようです)

おそらくいくつかlike '%%'またはSIMILAR TOを使用できますが、より良いアプローチがあるかもしれません。

4

2 に答える 2

1

PostgreSQL 9.x コア (別名 Tsearch2) の一部である全文検索を使用する必要があります。

最長の共通部分文字列 (または類似性) のある種の尺度については、拡張levenshtein()の一部である関数を使用できる場合があります。fuzzystrmatch

于 2013-04-04T08:13:45.997 に答える