私のGoogle-fuが私を失敗させているようです。
単語のベースだけを含む、無料で入手できる単語ベースの辞書を知っている人はいますか? つまり、イチゴのようなものはイチゴになります。しかし、略語、スペルミス、または別のスペル (UK と US など) が含まれていませんか? Java ですぐに使用できるものであれば何でもよいのですが、マッピングのテキスト ファイルまたは読み取り可能なものであれば何でも役に立ちます。
私のGoogle-fuが私を失敗させているようです。
単語のベースだけを含む、無料で入手できる単語ベースの辞書を知っている人はいますか? つまり、イチゴのようなものはイチゴになります。しかし、略語、スペルミス、または別のスペル (UK と US など) が含まれていませんか? Java ですぐに使用できるものであれば何でもよいのですが、マッピングのテキスト ファイルまたは読み取り可能なものであれば何でも役に立ちます。
これは見出し語化と呼ばれ、「単語の基点」と呼ばれるものは見出し語と呼ばれます。morpha
そして、スタンフォード POS タガーでの再実装がこれを行います。ただし、どちらも、自然言語固有のあいまいさを解決するために、POS タグ付き入力が必要です。
(POS タグ付けとは、単語のカテゴリ (名詞、動詞など) を決定することを意味します。私は、英語を処理するツールが必要であると想定しています。)
編集:これを検索に使用するため、いくつかのヒントを次に示します。
(上記の発言は、私自身の調査に基づいています。私は、非常にノイズの多いデータに対する検索エンジンでの見出し語化に関する修士論文を書きました。)
これはまさにあなたが求めているものではありませんが、ステミングに関するウィキペディアは啓発的で、無料のステミング プログラムへのリンクが多数含まれています。おそらく語幹のリストを含める必要があります
http://www.puzzlers.org/dokuwiki/doku.php?id=solving:wordlists:about:start
このページの Miriam Websters Collegiate 9th Edition リンクには、単語の原形のみの単語ファイルが含まれています。いちごは入っていますが、いちごは入っていません。同様に、「追加」はありますが、「追加」はありません。これがあなたが求めているものかどうかはわかりませんが、私にとっては役に立ちました。