mongodb - MongoDB を使用した PDF、単語、およびテキストドキュメントの情報抽出、インデックス作成、および検索

Question

MongoDB には、PDF、テキスト、または .doc/docx ドキュメントを保存して検索したり、コンテンツにあるキーワードで 2 つのドキュメントを一致させたりする機能はありますか?

例えば：

診断コード、簡単な説明、日付、金額の値を含む「claim.txt」という1 つのドキュメントを保存したいと思うかもしれません。「physician_diagnosis.pdf」という名前の別のファイルを保存する必要があります。このファイルには、他のテキストの中でも、一致する短い説明が含まれています。

一致する日付と同じ診断の両方を持つドキュメントを見つけることができるクエリを発行したいと思います。(例: 「肺炎」、「2012 年 12 月 12 日」)

API だけを使用して MongoDB でこのようなことは可能ですか、それとも前処理を行う必要がありますか?

可能であれば、良い例とドキュメントを教えてください。

score 1 · Accepted Answer

あなたのタスクはおそらく、多くの異なるドキュメント ( http://wiki.apache.org/solr/ExtractingRequestHandler ) への入力を持つ Solr ( http://lucene.apache.org/solr/ ) のようなものに適しています。ただし、適切な抽出を行うには、いくつかのコードを記述する必要があります。

MongoDB は構造化データを対象としています。ドキュメントと呼んでいますが、ここでは「PDF ドキュメント」や「Word ドキュメント」を意味するものではありません。ドキュメントと呼ばれるネストされたフィールドタイプをサポートするのは、それを許可しないリレーショナルデータベースの行とは対照的な、単なる一般的な形式です。

mongodb - MongoDB を使用した PDF、単語、およびテキスト ドキュメントの情報抽出、インデックス作成、および検索

1 に答える 1

Related

Reference

mongodb - MongoDB を使用した PDF、単語、およびテキストドキュメントの情報抽出、インデックス作成、および検索