12

私は自然言語処理の正式なバックグラウンドを持っていません.NLP側の誰かがこれに光を当てることができるかどうか疑問に思っていました. 私はNLTKライブラリをいじっていて、特にこのパッケージが提供するストップワード機能を調べていました:

[80]: nltk.corpus.stopwords.words('english')

アウト[80]:

[「私」、「私」、「私」、「私自身」、「私たち」、「私たち」、「私たち」、「私たち自身」、「あなた」、「あなた」、「あなた」、「あなた自身」、「あなた自身」、「彼」、「彼」、「彼」、「彼自身」、「彼女」、「彼女」、「彼女」、「彼女自身」、「それ」、「それ」、「それ自体」、「彼ら」 、「彼ら」、「彼ら」、「彼ら」、「彼ら自身」、「何」、「どれ」、「誰」、「誰」、「これ」、「あれ」、「これら」、「それら」、「 am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', '持つ」、「する」、「する」、「した」、「する」、「a」、「an」、「the」、「and」、「but」、「if」、「or」、「because」 , 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'before', 'into', 'を通じて、中、前、後、上、下、先、上、下、中、外、上、「オフ」、「上」、「下」、「再び」、「さらに」、「その後」、「一度」、「ここ」、「そこ」、「いつ」、「どこで」、「なぜ」、「どのように」、「すべて」、「すべて」、「両方」、「それぞれ」、「少ない」、「もっと」、「ほとんど」、「その他」、「一部」、「そのような」、「いいえ」 、「も」、「ない」、「のみ」、「自分」、「同じ」、「そう」、「より」、「も」、「非常に」、「s」、「t」、「できる」、「 will', 'just', 'don', 'should', '今']'s', 't', 'can', 'will', 'just', 'don', 'should', 'now']'s', 't', 'can', 'will', 'just', 'don', 'should', 'now']

私が理解できないのは、なぜ「ない」という言葉が存在するのですか?文中の感情を判断するために必要ではないでしょうか。たとえば、次のような文です。

何が問題なのかわかりません。

ストップワードnotが削除されると、文の意味がその反対に変わります ( I am sure what the problem is)。その場合、これらのストップワードを使用しない場合に見逃している一連のルールはありますか?

4

1 に答える 1

18

ストップ ワード リストの概念には普遍的な意味はなく、何をしたいかによって異なります。フレーズの極性、感情、または同様の特性を理解する必要があるタスクがあり、メソッドが否定の検出に依存している場合 (例のように)、明らかにストップ ワードとして「not」を削除しないでください (新しいストップワードリストを構成する他の非常に一般的な無関係の単語を削除したい場合があることに注意してください)。

ただし、あなたの質問に答えるために、ほとんどの感情分析方法は非常に表面的なものです。彼らは感情や感情を含んだ言葉を探しますが、ほとんどの場合、文章を深く分析しようとはしません。

ストップ ワードを残しておきたい別の例として、作成者に従ってドキュメントを分類しようとしている場合 (著者の帰属)、またはスタイロメトリクスを実行している場合、これらの機能的な言葉はドキュメントの大部分を特徴付けているため、必ず残しておく必要があります。スタイルと談話。

ただし、他の多くの種類の分析 (単語空間モデル、ドキュメントの類似性、検索など) では、非常に一般的で機能的な単語を削除することは、計算上 (より少ない単語を処理する) にも、場合によっては実際に (より良い結果が得られる場合もあります) にも意味があります。ストップワードを削除して)。特定の単語が非常に頻繁に使用される文脈を理解しようとしている場合は、機能的な単語ではなく、内容の単語を見たいと思います。

于 2011-06-26T04:11:26.607 に答える