1

私は自然言語処理のための特徴抽出の初心者です。ハッシュマップを使用してテキストの特徴を抽出する方法を知りたいです。各機能がハッシュマップの「キー」であり、その値が「値」(すべての機能が 0 または 1 のバイナリ) である場合、n 個のハッシュマップ (n はテキスト内の単語の数) が必要であることを意味しますか? )? 単語ごとに特徴を抽出する必要があるためです。

私は正しいですか?

前もって感謝します、アリス

4

1 に答える 1

0

はい、これをハッシュマップで実装できますが、機能の数とメモリ要件によっては、最適または最速のデータ構造ではない可能性があります。実際にはドメインに依存します。一般に、フィーチャを存在または非存在として表すと、悪い結果が得られます。より良い方法は、特徴を重み付けするときに TF-IDF を使用することです。

あなたが話しているアプローチは、「bag-of-words」アプローチです。これは、単語境界に基づいてドキュメントをトークン化し、単語を機能として使用する場所です。最初のパスとして、ストップ ワード (つまり、「a」、「and」、「the」) を削除してから、データを正規化します (つまり、Now == now == nOw)。その後、単語ステミングを実行して、ベクトル サイズをさらに縮小できます。

特徴を抽出するために今控えめに言う良い方法は、MALLETを見ることです。Naive Bayesの例として、RCV-1 のパーサーを使用した Naive Bayes の非常に単純な実装があります。

于 2013-03-12T23:10:52.207 に答える