いくつかの種類の言語処理操作について見つけることができる最も網羅的な英単語リストが必要ですが、インターネット上で十分な品質を備えたものを見つけることができませんでした。
英語には、外国語や専門用語を含めて 1,000,000 の単語があります。
少し分類されたインターネットからダウンロードできるソース (または 500k ワード近く) を提案していただけますか? 言語処理アプリケーションにどの入力を使用しますか?
いくつかの種類の言語処理操作について見つけることができる最も網羅的な英単語リストが必要ですが、インターネット上で十分な品質を備えたものを見つけることができませんでした。
英語には、外国語や専門用語を含めて 1,000,000 の単語があります。
少し分類されたインターネットからダウンロードできるソース (または 500k ワード近く) を提案していただけますか? 言語処理アプリケーションにどの入力を使用しますか?
Kevin の wordlistsは、単語のリストだけで私が知っている最高のものです。
名詞、動詞など、同義語などについて知りたい場合は、WordNetの方が適しています。
「「百万語」のデマが転がる」、なるほど;-)
単語リストを長くする方法:名詞を指定して、次のいずれかを追加します:non-、pseudo-、semi-、-arific、-geek、...; 動詞などを準用する。
制御された/自然な英語と言語ドメインの知識処理に関するパーデュー大学の研究を行いました。
制御された自然な英語を構築するためのプロジェクトであるhttp://attempto.ifi.uzh.ch/site/description/の試みプロジェクトを見てみましょう。
単語辞書全体をhttp://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zipからダウンロードできます。100,000個の自然な英単語が含まれています。
ドメイン固有の単語に独自のレキシコンを提供することもできます。これは、私たちの調査で行ったことです。自然な英語のテキストを解析してフォーマットするための Web サービスを提供します。
100万語あるなんて誰が言った?ウィキペディアによると、オックスフォード英語辞典には 600,000 しかありません。また、OED は、使用されているすべての技術用語や俗語を含めようとしています。
ウィキペディアの抜粋を直接試してください: http://dbpedia.org
基本単語はあまり多くありません (このオックスフォードによると 171k 。これは、大学の CS プログラムで言われたことを覚えています。しかし、単語のすべての形式を含めると、かなり増加します。
とはいえ、自分で作ってみませんか?ウィキペディアのダンプを取得して解析し、遭遇したすべてのトークンのセットを作成します。
ただし、スペルミスがあることを期待してください-クラウドソースのすべてのものと同様に、エラーが発生します.