wordnet gem を動作させることをあきらめたため、wn コマンドライン ツールを使用して ruby で wordnet にアクセスする実験をいくつか書いています。
感覚の頻度を調べて、最終的には、特定の単語が名詞/形容詞/動詞/副詞である確率を計算できるようにしたいと考えています。
私はドキュメントを試しましたが、必ずしもそれほど明示的ではありません。
wn ツールだけを使用せずにこれは可能ですか? wordnetにこの情報が含まれていると思って書いていますか?
私が知る限り、それ自体には頻度は含まれていませんが、synset は返される結果で最も頻度の高いものから最も頻度の低いものへと並べられています。
実際の周波数を取得するには、いくつかの方法があります。おそらく最も信頼できるのは、Penn TreeBank のような POS タグ付きコーパスを使用し、値を自分で計算することです。残念ながら、大学に通っていない場合、そのコピーを無料で入手することは困難です。もう 1 つのオプションは、独自のコーパス (ブログ、Project Gutenberg の書籍、Wikipedia などから) を構築し、その上で POS タガーを実行してから、頻度を計算することです。明らかに、この方法は偏っていますが、手動でコーパスにタグを付けるよりもはるかに簡単です。