1

Microsoft Word Docs、PowerPoint、PDF、テキスト ファイルなどのドキュメントのコーパスを中心に検索エンジンを構築しています。ElasticSearch を正常にダウンロードしてインストールし、実行しました (コマンド プロンプトとブラウザーから表示できます - localhost:9200)。

手動で入力したデータをアップロードして検索できます (オンラインのいくつかのチュートリアルで見つかります - このような: http://www.elasticsearchtutorial.com/elasticsearch-in-5-minutes.html#Indexing )

ここで、手動で入力されたデータの検索から、構造化されたテキスト ファイルの大規模なコーパスの検索に (大規模な?) ジャンプを行う必要があります。私の質問は、これらのドキュメントをアップロード/インデックス付けして、すでに実行している Elasticsearch インスタンスで使用できるようにする方法です。

これは大きすぎて 1 回の返信で答えることができない場合があることを理解しています。ツールやチュートリアルのリンクを示しても役に立ちます。

バージョン: Windows 7、Elasticsearch 1.2.1

4

1 に答える 1

3

Elasticsearch アタッチメント プラグインを使用してみます。

http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/mapping-attachment-type.html https://github.com/elasticsearch/elasticsearch-mapper-attachments

アタッチメントの種類

添付ファイルの種類により、Microsoft Office 形式、オープン ドキュメント形式、ePub、HTML など、さまざまな「添付ファイル」の種類のフィールド (base64 としてエンコード) にインデックスを付けることができます (完全なリストはこちらで確認できます)。

添付タイプは、プラグイン拡張として提供されます。プラグインは、ダウンロードして $ES_HOME/plugins の場所に配置できる単純な zip ファイルです。自動的に検出され、添付ファイルの種類が追加されます。

これは Apache Tika を使用して構築されており、次のファイル形式をサポートしています。

サポートされているドキュメント形式

  • ハイパーテキストマークアップ言語
  • XML および派生形式
  • Microsoft Office ドキュメント形式
  • OpenDocument 形式
  • ポータブルドキュメントフォーマット
  • 電子出版フォーマット
  • リッチ テキスト形式
  • 圧縮およびパッケージ形式
  • テキスト形式
  • オーディオ形式
  • 画像フォーマット
  • ビデオ形式
  • Java クラス ファイルとアーカイブ
  • mbox フォーマット

http://tika.apache.org/0.10/formats.html

プラグインとして提供されています - プラグインのアーキテクチャに慣れていない場合は、こちらをご覧ください。

http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/modules-plugins.html

于 2014-06-11T19:18:28.253 に答える