SOLRにはCellというモジュールがあります。Tika を使用してドキュメントからコンテンツを抽出し、SOLR でインデックスを作成します。
https://github.com/apache/lucene-solr/tree/master/solr/contrib/extractionのソースから、Cell は生の抽出されたテキスト ドキュメント テキストを「コンテンツ」と呼ばれるフィールドに配置すると結論付けます。フィールドは SOLR によって索引付けされますが、保管されません。ドキュメントをクエリすると、「コンテンツ」が出てきません。
私の SOLR インスタンスにはスキーマがありません (デフォルトのスキーマをそのまま残しました)。
UpdateRequestHandler
デフォルト(POST to )を使用して、同様の種類の動作を実装しようとしています/solr/corename/update
。POST リクエストは次のようになります。
<add commitWithin="60000">
<doc>
<field name="content">lorem ipsum</field>
<field name="id">123456</field>
<field name="someotherfield_i">17</field>
</doc>
</add>
この方法でドキュメントを追加すると、コンテンツフィールドがインデックス化されて保存されます。クエリ結果に表示されます。そうであってほしくありません。それはスペースの無駄です。
Cell がドキュメントを追加する方法について何が欠けていますか?