7

私は、NCBI (National Center for Biotechnology Information) に接続し、そこで記事を検索する Web サイトで構成されるプロジェクトに取り組んでいます。問題は、すべての結果に対してテキスト マイニングを行う必要があるということです。テキストマイニングには JAVA 言語を使用し、Web サイトの開発には ICEFACES を使用した AJAX を使用しています。What do I have : 検索から返された記事のリスト。各記事には ID と要約があります。アイデアは、各要約テキストからキーワードを取得することです。そして、すべてのアブストラクトのすべてのキーワードを比較し、最も繰り返されているキーワードを見つけます。次に、検索に関連する単語をウェブサイトに表示します。何か案は ?私はウェブでたくさん検索しましたが、Named Entity Recognition、Part Of Speech のタグ付け、遺伝子とタンパク質に関する NER の GENIA シソーラスがあることを知っています。すでにステミングを試しました... ストップ ワード リストなど... この問題を解決するための最善の方法を知りたいだけです。どうもありがとう。

4

4 に答える 4

5

POSタグ付けと文字列トークン化の組み合わせを使用して、各要約からすべての名詞を抽出することをお勧めします..次に、ある種の辞書/ハッシュを使用して、これらの名詞のそれぞれの頻度をカウントし、N個の最も多作な名詞を出力します.. それを他のインテリジェントなフィルタリング メカニズムと組み合わせることで、POS タグ付けの要旨から重要なキーワードを適切に得ることができます

ただし、コーパスに多数の複数単語の用語が含まれていると予想される場合は、名詞だけを抽出する代わりに、n=2 から 4の最も多量のn-gramを取得できます。

于 2009-05-22T01:32:16.430 に答える
1

そのための Apache プロジェクトがあります... 私は使用していませんが、OpenNLPはオープン ソースの Apache プロジェクトです。インキュベーターに入れているので、少し生っぽいかもしれません。

jeff's search engine cafeからのこの投稿には、他にも多くの提案があります。

于 2011-04-15T15:43:37.840 に答える
1

これも関連している可能性があります: https://github.com/jdf/cue.language

ストップ ワード、単語、ngram の頻度などがあります。

Wordleの背後にあるソフトウェアの一部です。

于 2011-01-12T10:44:25.277 に答える
0

Alias`i Ling Pipeを使うことになった

于 2012-11-04T17:18:46.960 に答える