特定のテキストで名前付きエンティティを見つけようとしています。そのために、DBPedia スポットライト サービスを使用してみました。
私はそれから応答を得ることができます。ただし、DBPedia のデータセットは限られているため、spotter.dict ファイルを独自の辞書に置き換えてみました。私の辞書には、行ごとにエンティティが含まれています。
サチン・テンドルカール###PERSON
バラク・オバマ ###PERSON
....など
次に、このファイルを解析してオブジェクトを構築し
ExactDictionaryChunker
ます。これで、エンティティとそのタイプを取得できるようになりました (dbpedia コードの変更後)。
私の質問: DBPedia スポットライトは Lucene インデックス ファイルを使用しています。彼らがこれらのファイルをどのような目的で使用しているのか本当にわかりませんか?
インデックスファイルを使わずにできますか? インデックス ファイルの重要性は何ですか?