20

ウィキペディアの分類情報を使用して、コンテンツからタグ/キーワードを抽出する方法を模索しています。

DBPediaに関する記事を見つけました。DBpediaは、ウィキペディアから構造化された情報を抽出し、この情報をWeb上で利用できるようにするためのコミュニティの取り組みです。

誰かが自分のWebサービスを使用したことがありますか?それらがどのように機能し、どれほど信頼できるか知っていますか?

4

2 に答える 2

21

DBpediaは素晴らしい、高品質のリソースです。ただし、コンテンツを一連の関連する DBpedia の概念に変えるには、テキスト内でそれらを正確に識別する必要があります。これには、少なくとも 2 つの手順が必要です。

  1. コンテンツ内の DBpedia の概念を特定する: これには、テキスト内の概念名 (および代替名) の認識と、各フレーズの考えられるすべての意味のあいまいさの解消が含まれます。「太陽」という用語は、星、新聞、人名などを含む明確化ページに従って、数十の可能な概念を指す場合があります。これには、エンティティの識別、分類、およびリンクが含まれます。

  2. これらの概念のどれが興味深いかを特定します。たとえば、テキストに「the」という用語が含まれている場合に「定冠詞」という概念が表示されるようにしますか ( The のリダイレクト先)。

DBpedia へのエンティティ リンクをサポートする、既存のテキスト分析ライブラリまたはサービスを検討することをお勧めします。トピックの索引付けのための優れたツールの 1 つにMauiがあります。これは、 Alyona Medelyanが博士号取得中に開発したものです。もう 1 つの優れたオープン ソース ソリューションは、同じ大学の David Milne によるWikipedia Minerです。

DBpedia の概念へのリンクを提供する 2 つの商用サービスは、Zemanta Extractiv (ある程度無料で使用できます) です。 DBpedia スポットライトオプション。これらの機能を提供する可能性のある他のものは、https ://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais にリストされています。

開示: 私は、 Language Computer Corporationの NLPを利用している Extractiv (廃止) で [以前] 働いていました。

于 2011-01-20T16:52:11.887 に答える
4

このプロセスにはApache Stanbolを使用できます。EntityhubApache Stanbol のコンポーネントは、ニーズに基づいてカスタム DBPedia インデックスを生成します。次に、Enhancerコンポーネントを使用して、テキストから Places、Persons、Locations エンティティを抽出できます。

次のメール スレッドが役立つ場合があります。
http://markmail.org/message/52266yl5ohijxiof

次のリンクから Apache Stanbol の実行中のデモにアクセスできます:
http://dev.iks-project.eu/

さらに質問をすることもできますstanbol-dev AT incubator.apache.org

于 2011-10-26T20:26:10.727 に答える