1

私はsolrを使用してpdfファイルを抽出し、インデックスを作成しています。次のコードで抽出できるようになりました。

private static void IndexPDFFile(ISolrOperations<Article> solr)
{
    string filecontent = null;

    using (var file = File.OpenRead(@"C:\\cookbook.pdf"))
    {
        var response = solr.Extract(new ExtractParameters(file, "abcd1")
        {
            ExtractOnly = true,
            ExtractFormat = ExtractFormat.Text,
        });

        filecontent = response.Content;
    }
    solr.Commit();
}

しかし、ブラウザで次のコマンドを使用して solr を確認すると、何も表示されません。

http://berserkerpc:444/solr/select/?q=text:solr

また

http://berserkerpc:444/solr/select/?q=author:admin

PDFファイルの内容は次のとおりです。これはSolrクックブックです...フィールドの作成者には、管理者との何かが含まれている必要があります。

ここで出力:

    <response><lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">1</int>
<lst name="params"><str name="q">text:Solr</str></lst></lst><result name="response" numFound="0" start="0"/></response>

その問題に対する提案はありますか??

ありがとう、トロ

4

1 に答える 1

1

これは、 で を設定したためExtractOnly=trueですExtractParameters。ソース コードからの ExtractOnly パラメータのコメントを次に示します。

    /// <summary>
    /// If true, return the extracted content from Tika without indexing the document. 
    /// This literally includes the extracted XHTML as a string in the response. 
    /// </summary>
    public bool ExtractOnly { get; set; }

抽出されたコンテンツのインデックスを作成する場合は、このパラメーターを true に設定しないでください。

于 2013-03-29T12:05:28.263 に答える