text - 数十の単語のリストが与えられた場合、何百ものテキストのコーパスから最適に一致するセクションを見つけるにはどうすればよいでしょうか?

Question

250 個の単語のリストがあるとします。これは、全体を通して一意のエントリで構成されているか、すべての文法形式の単語の束、または特定の文法形式のあらゆる種類の単語 (たとえば、すべて過去形) で構成されている可能性があります。また、セクションのデータベースに便利に分割されたテキストのコーパスもあり、おそらくそれぞれ 150 ワードです (将来的にはこれらのセクションを動的に決定したいと思うかもしれませんが、今のところはそのままにしておきます)。

私の質問は次のとおりです。私の 250 語のほとんどを含むセクションをコーパスから取り出す便利な方法は何ですか?

Lucene などの全文検索エンジンをいくつか調べましたが、それらが長いクエリリストを処理できるように構築されているかどうかはわかりません。ブルームフィルターも興味深いようです。私は Perl に最も慣れていますが、Ruby や Python で面白いことがあれば喜んで学びます。この時点では、パフォーマンスは問題ではありません。

このようなプログラムの使用例は語学教育です。この場合、学習者の知識のさまざまな範囲を反映したさまざまな単語リストがあり、元の情報源から適切なテキストや例をすばやく見つけることができれば便利です。また、これを行う方法を知りたいだけです。

score 1 · Accepted Answer

事実上、私が探しているのはドキュメントの比較です。PostgreSQL で、特定のドキュメントとの類似性によってテキストをランク付けする方法を見つけました。

text - 数十の単語のリストが与えられた場合、何百ものテキストのコーパスから最適に一致するセクションを見つけるにはどうすればよいでしょうか?

1 に答える 1

Related

Reference