5

Lucene.Net と C# を使用して PDF ドキュメントのインデックスを作成する方法を示すサンプル コードを探しています。Google はいくつかの情報を見つけましたが、役に立ちそうなものはありませんでした。

4

2 に答える 2

6

私の理解では、Luceneはインデックスの作成とそのインデックスの検索に限定されています。ファイルを開いてその内容をインデックスに抽出するのは、アプリケーション次第です。したがって、PDFドキュメントを検索する場合は、iTextSharpなどを使用してファイルを開き、コンテンツを取り出して、インデックス作成のためにLuceneに渡します。Dimecasts.net Webサイトには、Luceneを使用するための良い開始例がいくつかあります。

于 2010-01-08T17:10:08.753 に答える
2
StringBuilder stringBuilder = new StringBuilder();

PdfReader pdfReader = new PdfReader(byte[] of the .pdf);

for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{
    stringBuilder.Append(PdfTextExtractor.GetTextFromPage(pdfReader, page) + " ");
}

(iTextSharp を使用)

残りは簡潔に図示されていません。

私のサイトの製品デモには、lucene.net コードの使用方法を示すコードがありますが、ここに投稿するには少し長いです。

私の製品に関連するコードは次のとおりです: https://svn.arachnode.net/svn/arachnodenet/trunk/Plugins/CrawlActions/ManageLuceneDotNetIndexes.cs ユーザー名/パスワード: パブリック

于 2012-09-17T16:19:06.183 に答える