dataset - 基本的な文章を構成するための一般的な単語のデータセット

Question

だから私は「冷蔵庫の磁石」をインタラクティブにしていて、ユーザーがドラッグできる単語の有効なデータセットを見つけようとしていました。

私はこのデータセットを使用しています..しかし、それほど素晴らしいものではありません

http://en.wikipedia.org/wiki/Most_common_words_in_English

より有効な単語のセットを見つけるためのアイデア

score 2 · Accepted Answer

これを自分で行う方法の 1 つは、テキストのコーパスをダウンロードし、出現する各単語の数をカウントするスクリプトを実行することです。次に、値Nを選択し、すべてのカウントを N で割ります(切り捨て)。単語ごとに、分割されたカウントごとにマグネットを作成します。最後に必要な磁石の数に基づいてNを選択する必要があります。

これには、磁石の分布が単語の分布と一致するという利点があります。たとえば、「the」が 1000 回、「man」が 320 回、「walks」が 150 回、「skips」が 2 回出現し、Nを 100 にすると、10 個の「the」マグネットが作成されます。 3人の「男」、1人の「散歩」、0人の「スキップ」。

カウントの対数をとって、スキューを減らすこともできます。単語の分布はZipfianであるため、各「ウォーク」に対して数千の「the」マグネットが発生する可能性があります)。

最後に、このアプローチの良い点は、特定のドメインで実行して、そのドメインに設定されたワードマグネットを作成できることです。たとえば、ニュース記事のように聞こえるワードマグネットを作成する場合は、ニュース記事のコーパスで実行します。おとぎ話のような単語マグネットを作成したい場合は、おとぎ話のコーパスで実行します。

本当に凝りたいのであれば、TF-IDF のようなものを使ってそのドメインを最も代表する単語を選び出し、それらを共通の機能単語と混ぜることができます。

dataset - 基本的な文章を構成するための一般的な単語のデータセット

1 に答える 1

Related

Reference