私は、NCBI (National Center for Biotechnology Information) に接続し、そこで記事を検索する Web サイトで構成されるプロジェクトに取り組んでいます。問題は、すべての結果に対してテキスト マイニングを行う必要があるということです。テキストマイニングには JAVA 言語を使用し、Web サイトの開発には ICEFACES を使用した AJAX を使用しています。What do I have : 検索から返された記事のリスト。各記事には ID と要約があります。アイデアは、各要約テキストからキーワードを取得することです。そして、すべてのアブストラクトのすべてのキーワードを比較し、最も繰り返されているキーワードを見つけます。次に、検索に関連する単語をウェブサイトに表示します。何か案は ?私はウェブでたくさん検索しましたが、Named Entity Recognition、Part Of Speech のタグ付け、遺伝子とタンパク質に関する NER の GENIA シソーラスがあることを知っています。すでにステミングを試しました... ストップ ワード リストなど... この問題を解決するための最善の方法を知りたいだけです。どうもありがとう。
4 に答える
POSタグ付けと文字列トークン化の組み合わせを使用して、各要約からすべての名詞を抽出することをお勧めします..次に、ある種の辞書/ハッシュを使用して、これらの名詞のそれぞれの頻度をカウントし、N個の最も多作な名詞を出力します.. それを他のインテリジェントなフィルタリング メカニズムと組み合わせることで、POS タグ付けの要旨から重要なキーワードを適切に得ることができます
。
ただし、コーパスに多数の複数単語の用語が含まれていると予想される場合は、名詞だけを抽出する代わりに、n=2 から 4の最も多量のn-gramを取得できます。
そのための Apache プロジェクトがあります... 私は使用していませんが、OpenNLPはオープン ソースの Apache プロジェクトです。インキュベーターに入れているので、少し生っぽいかもしれません。
jeff's search engine cafeからのこの投稿には、他にも多くの提案があります。
これも関連している可能性があります: https://github.com/jdf/cue.language
ストップ ワード、単語、ngram の頻度などがあります。
Wordleの背後にあるソフトウェアの一部です。
Alias`i Ling Pipeを使うことになった