1 週間前にテキスト マイニングについていくつか質問をしましたが、少し混乱していましたが、今はやりたいことがわかりました。
状況: HTML コンテンツを含むダウンロード ページが多数あります。その一部は、たとえばブログのテキストにすることができます。それらは構造化されておらず、異なるサイトからのものです。
私がやりたいこと:すべての単語を空白で分割し、名前、番号、電話、電子メール、URL、日付、お金、温度などの事前定義された項目でそれぞれまたは単語のグループを分類したい.
私が知っていること:自然言語処理、Named Entity Reconigzer、POSTagging、NayveBayesian、HMM、トレーニング、および分類を行うための多くのことなどについての概念を知っている/聞いたことがありますが、異なる分類子を備えたいくつかの異なる NLP ライブラリがあり、これを行う方法と、何を使用するのか、何をするのかわかりません。
必要なもの:テキスト全体ではなく、テキストから各単語を個別に分類できる、分類子、NLPなどからのコード例が必要です。このようなもの:
//This is pseudo-code for what I want, and not a implementation
classifier.trainFromFile("file-with-train-words.txt");
words = text.split(" ");
for(String word: words){
classifiedWord = classifier.classify(word);
System.out.println(classifiedWord.getType());
}
誰かが私を助けることができますか?さまざまな API、分類子、およびアルゴリズムと混同しています。