正規表現を使用して、Twitter のストリームから一連の質問を収集し、質問の種類 ( who、what、when、whereなど) で始まり、疑問符で終わるテキストを含むツイートを選び出します。
そのため、データベースには、「誰が気にするの?」、「これは何ですか?」などの役に立たない質問がいくつか返ってきます。「バスケットボールの試合はどのくらいの頻度で行われますか?」、「ホッキョクグマの体重はどれくらいですか?」等
ただし、有用な質問にのみ関心があります。
約 3000 の質問がありますが、そのうちの ~2000 は役に立たず、~1000 は有用であり、手動でラベルを付けました。有用な質問を手動で選択する必要がないように、単純なベイズ分類器 (NLTK に付属) を使用して質問を自動的に分類しようとしています。
手始めに、質問の最初の 3 語を特徴として選んでみましたが、あまり役に立ちません。分類器は、100 の質問のうち、有用な質問として正しいと予測したのは 10% ~ 15% 程度でした。また、有用ではないと予測された質問から有用な質問を選択することもできませんでした。
質問の長さを含め、すべての単語を含めるなどの他の機能を試しましたが、結果は大幅に変わりませんでした.
機能を選択する方法や続行する方法について何か提案はありますか?
ありがとう。