lucene - DBPedia-Spotlight での lucene インデックスファイルの用途は何ですか?

Question

特定のテキストで名前付きエンティティを見つけようとしています。そのために、DBPedia スポットライトサービスを使用してみました。

私はそれから応答を得ることができます。ただし、DBPedia のデータセットは限られているため、spotter.dict ファイルを独自の辞書に置き換えてみました。私の辞書には、行ごとにエンティティが含まれています。

サチン・テンドルカール###PERSON

バラク・オバマ ###PERSON

....など
次に、このファイルを解析してオブジェクトを構築しExactDictionaryChunkerます。
これで、エンティティとそのタイプを取得できるようになりました (dbpedia コードの変更後)。

私の質問: DBPedia スポットライトは Lucene インデックスファイルを使用しています。彼らがこれらのファイルをどのような目的で使用しているのか本当にわかりませんか?

インデックスファイルを使わずにできますか? インデックスファイルの重要性は何ですか?

score 0 · Accepted Answer

Lucene は、DBpedia Spotlight の以前の実装で、各エンティティのモデルをナレッジベースに保存するために使用されました。このモデルは、コンテキスト (入力テキストから抽出されたもの) とエンティティの間の関連性を測定するために使用されます。より具体的には、各エンティティは vector で表され{t1: score1, t2: score2, ... }ます。実行時に、入力テキストを同じ次元のベクトルとしてモデル化し、入力ベクトルとエンティティベクトルの間のコサインを測定します。あなたの場合、まだそこにない場合は、Sachin Tendulkar のベクトルをスペースに追加する (Lucene インデックスにドキュメントを追加する) 必要があります。ただし、最新の実装では、Lucene から社内のインメモリコンテキストストアに移行しています。https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Internationalization-(DB-backed-core)

lucene - DBPedia-Spotlight での lucene インデックス ファイルの用途は何ですか?

1 に答える 1

Related

Reference

lucene - DBPedia-Spotlight での lucene インデックスファイルの用途は何ですか?