テキストまたは単語を特定のカテゴリに分類する必要があります。たとえば、テキスト「ピンク・フロイド」は「音楽」、「ウィキメディア」は「テクノロジー」、「アインシュタイン」は「科学」に分類する必要があります。
これはどのように行うことができますか?同じ目的でDBpediaを使用する方法はありますか? そうでない場合は、データベースを時々トレーニングする必要がありますよね?
テキストまたは単語を特定のカテゴリに分類する必要があります。たとえば、テキスト「ピンク・フロイド」は「音楽」、「ウィキメディア」は「テクノロジー」、「アインシュタイン」は「科学」に分類する必要があります。
これはどのように行うことができますか?同じ目的でDBpediaを使用する方法はありますか? そうでない場合は、データベースを時々トレーニングする必要がありますよね?
はい、DBpediaはこの種の問題に適しているかもしれません。あなたがしなければならないでしょう
Capitol Records artists
、他のカテゴリのホストの下にリストされていますが、すぐ下にはリストされていませんMusic
)。たぶん、いくつかの大きなカテゴリを選び、あなたの概念がそれらに間接的にリストされているかどうかを見つけようとします。Albert Einstein
、ではなくとしてリストされていますeinstein
これらの問題は機械学習を使用して解決できる可能性がありますが、実行中のテキストからこれらの用語と関連する機能を抽出した場合にのみ、どのように解決できるかがわかります。ただし、その場合は、テキスト全体を手順1で選択したカテゴリの1つに分類することもできます。
これはテキスト分類の問題です。Manning、Raghavan、および Schütze の『Information Retrieval』の章は、優れた紹介です。これにはDBPediaもNERも必要ないと思います。すべてのクラスに十分なラベル付きの例を含む小さなラベル付きトレーニングデータセットだけです。
はい、DBpedia はテキスト分類に適しています。その述語/関係を使用してクエリを実行し、特定のカテゴリの意味のある情報を抽出できるからです。
Dbpedia を照会するためのエンドポイントを調べることができます: http://dbpedia.org/sparql
さらに、エンドポイントでクエリを実行するための SPARQL の基本的な構文については、次のリンクを参照してください: http://www.w3.org/TR/rdf-sparql-query/
これはよく研究されている固有表現認識の問題です。独自の技術を展開する必要がある場合を除き (ヒント: 一般的に難しい問題です)、Gateを使用するか、おそらくその上に構築されたオンライン サービスの 1 つ (TSO のData Enrichment Serviceなど) を使用することをお勧めします。別のオンライン サービスはOpenCalaisです。
このアプローチは、何らかの形で KNN 分類に関連しています。