4

テキストまたは単語を特定のカテゴリに分類する必要があります。たとえば、テキスト「ピンク・フロイド」は「音楽」、「ウィキメディア」は「テクノロジー」、「アインシュタイン」は「科学」に分類する必要があります。

これはどのように行うことができますか?同じ目的でDBpediaを使用する方法はありますか? そうでない場合は、データベースを時々トレーニングする必要がありますよね?

4

5 に答える 5

3

はい、DBpediaはこの種の問題に適しているかもしれません。あなたがしなければならないでしょう

  1. DBpediaのカテゴリ構造を押しつぶして、適切な粒度が得られるようにします(たとえば、Pink FloydはCapitol Records artists、他のカテゴリのホストの下にリストされていますが、すぐ下にはリストされていませんMusic)。たぶん、いくつかの大きなカテゴリを選び、あなたの概念がそれらに間接的にリストされているかどうかを見つけようとします。
  2. テキストを正規化します。アインシュタインはAlbert Einstein、ではなくとしてリストされていますeinstein
  3. 複数の概念および複数のトップレベルのカテゴリに属する​​概念を説明する用語によるあいまいさを処理します。

これらの問題は機械学習を使用して解決できる可能性がありますが、実行中のテキストからこれらの用語と関連する機能を抽出した場合にのみ、どのように解決できるかがわかります。ただし、その場合は、テキスト全体を手順1で選択したカテゴリの1つに分類することもできます。

于 2011-05-03T10:30:17.763 に答える
3

これはテキスト分類の問題です。Manning、Raghavan、および Schütze の『Information Retrieval』の章は、優れた紹介です。これにはDBPediaもNERも必要ないと思います。すべてのクラスに十分なラベル付きの例を含む小さなラベル付きトレーニングデータセットだけです。

于 2011-05-04T18:29:10.667 に答える
1

はい、DBpedia はテキスト分類に適しています。その述語/関係を使用してクエリを実行し、特定のカテゴリの意味のある情報を抽出できるからです。

Dbpedia を照会するためのエンドポイントを調べることができます: http://dbpedia.org/sparql

さらに、エンドポイントでクエリを実行するための SPARQL の基本的な構文については、次のリンクを参照してください: http://www.w3.org/TR/rdf-sparql-query/

于 2014-04-15T06:09:07.223 に答える
1

これはよく研究されている固有表現認識の問題です。独自の技術を展開する必要がある場合を除き (ヒント: 一般的に難しい問題です)、Gateを使用するか、おそらくその上に構築されたオンライン サービスの 1 つ (TSO のData Enrichment Serviceなど) を使用することをお勧めします。別のオンライン サービスはOpenCalaisです。

于 2011-05-03T09:52:58.230 に答える
1
  1. カテゴリを DBPedia にマッピングします。
  2. lucene で選択された DBPedia カテゴリでインデックスを作成し、データをカテゴリ名でラベル付けします。
  3. データを検索してください - トークン化、正規化は Lucene によって行われます。

このアプローチは、何らかの形で KNN 分類に関連しています。

于 2011-05-04T04:28:31.600 に答える