私はsolr5.3を使用しています。
「DataImportHandler」を使用してウィキペディアのページの記事のダンプを solr にアップロードしようとしていますが、クエリを実行すると ID ファイルとタイトル ファイルしか取得できません。
以下は私のdata-config.xmlです
<dataConfig>
<dataSource type="FileDataSource" encoding="UTF-8" />
<document>
<entity name="page"
processor="XPathEntityProcessor"
stream="true"
forEach="/mediawiki/page/"
url="/mnt/TEST/enwiki-20150602-pages-articles1.xml"
transformer="RegexTransformer,DateFormatTransformer"
>
<field column="id" xpath="/mediawiki/page/id" />
<field column="title" xpath="/mediawiki/page/title" />
<field column="revision" xpath="/mediawiki/page/revision/id" />
<field column="user" xpath="/mediawiki/page/revision/contributor/username" />
<field column="userId" xpath="/mediawiki/page/revision/contributor/id" />
<field column="text" xpath="/mediawiki/page/revision/text" />
<field column="timestamp" xpath="/mediawiki/page/revision/timestamp" dateTimeFormat="yyyy-MM-dd'T'hh:mm:ss'Z'" />
<field column="$skipDoc" regex="^#REDIRECT .*" replaceWith="true" sourceColName="text"/>
</entity>
</document>
</dataConfig>
また、以下の全体を schema.xml に追加しました。
<field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" />
<field name="title" type="string" indexed="true" stored="false"/>
<field name="revision" type="int" indexed="true" stored="true"/>
<field name="user" type="string" indexed="true" stored="true"/>
<field name="userId" type="int" indexed="true" stored="true"/>
<field name="text" type="text_en" indexed="true" stored="false"/>
<field name="timestamp" type="date" indexed="true" stored="true"/>
<field name="titleText" type="text_en" indexed="true" stored="true"/>
「example/example-DIH/solr/solr/conf/schema.xml」から schema.xml をコピーし、コメントに記載されているいくつかの例外を除いて、すべてのフィールド エントリを削除しました。
データをインポートした後、すべてのフィールドを取得しようとしていますが、「ID」と「タイトル」しか取得していません。
また、インデックス作成に関する情報を取得できるように、デバッグ モードを使用して documentImport を実行しようとしましたが、デバッグ モードを選択すると、2 つのドキュメントしかインポートされません。なぜかわからないのですが?このため、インデックス作成プロセスをデバッグできません。
さらに案内してください。
編集 - df=user または text を指定すると、メッセージの下に表示されるため、他のフィールドがインデックス化されていないことがわかりました。
"msg": "未定義フィールド ユーザー",
以下のようにクエリを実行しています: http://localhost:8983/solr/wiki/select?q= %3A &fl=id%2Ctitle%2Ctext%2Crevision&wt=json&indent=true&debugQuery=true