問題タブ [fscrawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
368 参照

elasticsearch - インデックス時に異なるソースからのデータをマージする

fscrawler ( https://github.com/dadoonet/fscrawler )を使用して、互いに関連するデータに対して 2 つのファイル クローラー ジョブを別々に実行しています。ここで、インデックス作成時に何らかの方法でデータをマージしたい (親子関係またはフラット ドキュメントは問題ありません) ため、いくつかのミドルウェアが必要です。Logstash と ES 5.0 の新しい Ingest Node 機能の両方を見ると、カスタム プロセッサの作成をサポートしているようには見えません。

インデックス時にこの種のマージ/リレーショナル マッピングを行う可能性はありますか? または、代わりに後処理を行う必要がありますか?

編集: 1 つのジョブは、json 形式の「記事」をクロールします。記事には、別の場所に複数の添付ファイル (json の添付ファイル配列で宣言) を含めることができます。2 番目のジョブは、実際の添付ファイル (pdf など) をクロールし、TIKA 処理を適用します。最後に、添付ファイルのコンテンツも含む 1 つの記事タイプが必要です。

0 投票する
1 に答える
203 参照

elasticsearch - fscrawler で 3 つの JavaScript エラーが発生する

私は Elasticsearch を初めて使用し、取り込みプラグインを使用しようとしています (それについていくつか質問を投稿しました)。私がやろうとしていることには、Fscrawler を使用する必要があることが示唆されています。Elasticsearch 5.5.1 を使用しており、Fscrawler 2.3 をインストールしました。Java 8.0.1 をインストールし、Java ディレクトリを指す環境変数 'JAVA_HOME' を作成しました。Kibana を使用して、以下を作成しました。

Fscrawlerの_settingsファイルで、URLをドキュメントフォルダーに設定し、elaasticsearchセクションに含めました"index" : "myindex"

PowerShell コマンドの使用.\fscrawler mydocs --loop 1

以下は、コマンドからの出力です。

ここに画像の説明を入力

ここに fscrawler の _settings.json ファイルがあります

0 投票する
1 に答える
441 参照

elasticsearch - fscrawler コンテナーが異常です (終了コード 126)

Docker shadiakiki1986/fsrawler から fscrawler を起動すると、次の 2 つのエラーが表示されます。

エラー: fscrawler コンテナー "XXX" は正常ではありません。
エラー: プロジェクトの立ち上げ中にエラーが発生しました。

異常なコンテナーは次のように検査されました。

docker ps # コンテナのリスト
docker inspect --format='{{json .State.Health}}'

{"Status":"unhealthy","FailingStreak":3,"Log":[{"Start":"2018-11-24T14:29:57.31355179-06:00","End":"2018-11- 24T14:29:57.395705557-06:00","ExitCode":126,"Output":"/usr/local/bin/docker-healthcheck: /usr/local/bin/docker-healthcheck: ディレクトリです\n" },{"開始":"2018-11-24T14:30:27.408426387-06:00","終了":"2018-11-24T14:30:27.48572124-06:00","ExitCode":126," Output":"/usr/local/bin/docker-healthcheck: /usr/local/bin/docker-healthcheck: ディレクトリです\n"},{"Start":"2018-11-24T14:30:57.497604654- 06:00","終了":"2018-11-24T14:30:57.575523908-06:00","ExitCode":126,"出力":"/usr/local/bin/docker-healthcheck:/usr/local/bin/docker-healthcheck: ディレクトリです\n"}]}