8

私はこの質問と同じ問題を効果的に解決しようとしています:

特定の単語に関連する単語 (特に物理的なオブジェクト) を検索する

単語が物理的なオブジェクトを表すという要件を差し引いたものです。回答と編集された質問は、ウィキペディアのテキストをコーパスとして使用して、n-gram の頻度のリストを作成することが良い出発点であることを示しているようです。巨大なウィキペディアのダンプのダウンロードを開始する前に、そのようなリストが既に存在するかどうか誰か知りませんか?

PS 前の質問の元の投稿者がこれを見た場合、結果が優れているように見えるので、問題をどのように解決したかを知りたいです:-)

4

2 に答える 2

2

Google には、公開されているテラバイトの n-garam データベース (最大 5 つ) があります。
6 枚の DVD で注文するか、それをホストする torrent を見つけることができます。

于 2010-02-24T10:34:21.610 に答える