2

特定のテキストで名前付きエンティティを見つけようとしています。そのために、DBPedia スポットライト サービスを使用してみました。

  1. 私はそれから応答を得ることができます。ただし、DBPedia のデータセットは限られているため、spotter.dict ファイルを独自の辞書に置き換えてみました。私の辞書には、行ごとにエンティティが含まれています。

    サチン・テンドルカール###PERSON

    バラク・オバマ ###PERSON

    ....など

  2. 次に、このファイルを解析してオブジェクトを構築しExactDictionaryChunkerます。

  3. これで、エンティティとそのタイプを取得できるようになりました (dbpedia コードの変更後)。

私の質問: DBPedia スポットライトは Lucene インデックス ファイルを使用しています。彼らがこれらのファイルをどのような目的で使用しているのか本当にわかりませんか?

インデックスファイルを使わずにできますか? インデックス ファイルの重要性は何ですか?

4

1 に答える 1

0

Lucene は、DBpedia Spotlight の以前の実装で、各エンティティのモデルをナレッジベースに保存するために使用されました。このモデルは、コンテキスト (入力テキストから抽出されたもの) とエンティティの間の関連性を測定するために使用されます。より具体的には、各エンティティは vector で表され{t1: score1, t2: score2, ... }ます。実行時に、入力テキストを同じ次元のベクトルとしてモデル化し、入力ベクトルとエンティティ ベクトルの間のコサインを測定します。あなたの場合、まだそこにない場合は、Sachin Tendulkar のベクトルをスペースに追加する (Lucene インデックスにドキュメントを追加する) 必要があります。ただし、最新の実装では、Lucene から社内のインメモリ コンテキスト ストアに移行しています。https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Internationalization-(DB-backed-core)

于 2015-08-01T19:35:04.463 に答える