c# - Lucene.Net を使用して PDF ファイルのインデックスを作成するにはどうすればよいですか?

Question

Lucene.Net と C# を使用して PDF ドキュメントのインデックスを作成する方法を示すサンプルコードを探しています。Google はいくつかの情報を見つけましたが、役に立ちそうなものはありませんでした。

score 6 · Accepted Answer

私の理解では、Luceneはインデックスの作成とそのインデックスの検索に限定されています。ファイルを開いてその内容をインデックスに抽出するのは、アプリケーション次第です。したがって、PDFドキュメントを検索する場合は、iTextSharpなどを使用してファイルを開き、コンテンツを取り出して、インデックス作成のためにLuceneに渡します。Dimecasts.net Webサイトには、Luceneを使用するための良い開始例がいくつかあります。

score 2 · Accepted Answer

StringBuilder stringBuilder = new StringBuilder();

PdfReader pdfReader = new PdfReader(byte[] of the .pdf);

for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{
    stringBuilder.Append(PdfTextExtractor.GetTextFromPage(pdfReader, page) + " ");
}

(iTextSharp を使用)

残りは簡潔に図示されていません。

私のサイトの製品デモには、lucene.net コードの使用方法を示すコードがありますが、ここに投稿するには少し長いです。

私の製品に関連するコードは次のとおりです: https://svn.arachnode.net/svn/arachnodenet/trunk/Plugins/CrawlActions/ManageLuceneDotNetIndexes.cs ユーザー名/パスワード: パブリック

c# - Lucene.Net を使用して PDF ファイルのインデックスを作成するにはどうすればよいですか?

2 に答える 2

Related

Reference