問題タブ [solr-cell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - SOLR セルはどのようにドキュメント コンテンツを追加しますか?
SOLRにはCellというモジュールがあります。Tika を使用してドキュメントからコンテンツを抽出し、SOLR でインデックスを作成します。
https://github.com/apache/lucene-solr/tree/master/solr/contrib/extractionのソースから、Cell は生の抽出されたテキスト ドキュメント テキストを「コンテンツ」と呼ばれるフィールドに配置すると結論付けます。フィールドは SOLR によって索引付けされますが、保管されません。ドキュメントをクエリすると、「コンテンツ」が出てきません。
私の SOLR インスタンスにはスキーマがありません (デフォルトのスキーマをそのまま残しました)。
UpdateRequestHandler
デフォルト(POST to )を使用して、同様の種類の動作を実装しようとしています/solr/corename/update
。POST リクエストは次のようになります。
この方法でドキュメントを追加すると、コンテンツフィールドがインデックス化されて保存されます。クエリ結果に表示されます。そうであってほしくありません。それはスペースの無駄です。
Cell がドキュメントを追加する方法について何が欠けていますか?
solr - Solr Cell が EXIF を含む画像ファイルのインデックス作成に失敗する
Solr6.6.0をインストールしました。CentOS で、提供されているサンプル 'sample_techproducts_configs' で動作させます。ファイルのインデックスを作成できますが、画像ファイルをフィードするとすぐに、無効な日付に関する例外が発生します。Solr セルは、EXIF から日付を抽出し、それを Solr に渡すことができないようです。次の画像ファイルを使用しました。
http://www.imagemagick.org/Usage/photos/pagoda_sm.jpg
Solr からの応答は次のとおりです。
それが不平を言う日付は次のようにフォーマットされてyyyy-MM-dd'T'HH:mm:ss
います。これは、次のデフォルトの日付フォーマットである必要があります。
https://cwiki.apache.org/confluence/display/solr/Uploading+Data+with+Solr+Cell+using+Apache+Tika
修正または少なくとも回避策を探しているので、日付をスキップして、EXIF から他の情報をインデックス化するだけです。