3

私のGoogle-fuが私を失敗させているようです。

単語のベースだけを含む、無料で入手できる単語ベースの辞書を知っている人はいますか? つまり、イチゴのようなものはイチゴになります。しかし、略語、スペルミス、または別のスペル (UK と US など) が含まれていませんか? Java ですぐに使用できるものであれば何でもよいのですが、マッピングのテキスト ファイルまたは読み取り可能なものであれば何でも役に立ちます。

4

3 に答える 3

5

これは見出し語化と呼ばれ、「単語の基点」と呼ばれるものは見出し語と呼ばれます。morphaそして、スタンフォード POS タガーでの再実装がこれを行います。ただし、どちらも、自然言語固有のあいまいさを解決するために、POS タグ付き入力が必要です。

(POS タグ付けとは、単語のカテゴリ (名詞、動詞など) を決定することを意味します。私は、英語を処理するツールが必要であると想定しています。)

編集:これを検索に使用するため、いくつかのヒントを次に示します。

  • 英語の単純なステミングは、検索エンジンの世界では賛否両論あります。うまくいくこともあれば、うまくいかないこともあります。
  • 自動スペル修正の方が適切に機能する場合があります。これは、Googleが行っていることです。ただし、正しく実行したい場合は、計算時間の点で費用がかかります。
  • 見出し語化はメリットをもたらす可能性がありますが、それは単語と見出し語の両方を索引付けして検索する場合に限られます。(同じアドバイスがステミングにも当てはまります。)
  • これは、見出し語化を行う Luceneのプラグインです

(上記の発言は、私自身の調査に基づいています。私は、非常にノイズの多いデータに対する検索エンジンでの見出し語化に関する修士論文を書きました。)

于 2010-10-26T15:31:20.193 に答える
1

これはまさにあなたが求めているものではありませんが、ステミングに関するウィキペディアは啓発的で、無料のステミング プログラムへのリンクが多数含まれています。おそらく語幹のリストを含める必要があります

于 2010-10-26T15:33:17.280 に答える
1

http://www.puzzlers.org/dokuwiki/doku.php?id=solving:wordlists:about:start

このページの Miriam Websters Collegiate 9th Edition リンクには、単語の原形のみの単語ファイルが含まれています。いちごは入っていますが、いちごは入っていません。同様に、「追加」はありますが、「追加」はありません。これがあなたが求めているものかどうかはわかりませんが、私にとっては役に立ちました。

于 2011-01-13T16:20:50.473 に答える