私は自然言語処理の分野に非常に慣れていません。私の唯一の経験は、スタンドフォード nlp を使用して文の品詞を取得することでした。
問題: 一連の製品フィードバックから上位 10 件の提案を見つけなければなりません。
入力: ある製品の提案として与えられた約 100 のフィードバックで構成されています。
どこから仕事を始めればいいのかわからない。トップ 10 の提案は何に基づいて作成する必要がありますか?
私は自然言語処理の分野に非常に慣れていません。私の唯一の経験は、スタンドフォード nlp を使用して文の品詞を取得することでした。
問題: 一連の製品フィードバックから上位 10 件の提案を見つけなければなりません。
入力: ある製品の提案として与えられた約 100 のフィードバックで構成されています。
どこから仕事を始めればいいのかわからない。トップ 10 の提案は何に基づいて作成する必要がありますか?
一連のフィードバックがあると言うとき、区切り文字列または関連する何かがある場合は、正規表現を使用してさまざまなフィードバックを区切ることができます..そのためにこのリンクを参照できます
https://sites.google.com/site/gothnlp/links/regular-expressions
http://docs.python.org/2/library/re.html
区切り記号がフィードバックを送信する人の名前のようなものである場合、名前を区切ることができる名前付きエンティティ認識と呼ばれる概念を見ることができます。
NLTk ツールキットを使用できる場合は、それを使用することをお勧めします..
http://www.slideshare.net/japerk/nltk-in-20-minutes
ここに役立つリンクがあります
また、このブログはあなたを助けるかもしれません