3

MongoDB には、PDF、テキスト、または .doc/docx ドキュメントを保存して検索したり、コンテンツにあるキーワードで 2 つのドキュメントを一致させたりする機能はありますか?

例えば:

診断コード、簡単な説明、日付、金額の値を含む「claim.txt」という1 つのドキュメントを保存したいと思うかもしれません。 「physician_diagnosis.pdf」という名前の別のファイルを保存する必要があります。このファイルには、他のテキストの中でも、一致する短い説明が含まれています。

一致する日付と同じ診断の両方を持つドキュメントを見つけることができるクエリを発行したいと思います。(例: 「肺炎」、「2012 年 12 月 12 日」)

API だけを使用して MongoDB でこのようなことは可能ですか、それとも前処理を行う必要がありますか?

可能であれば、良い例とドキュメントを教えてください。

4

1 に答える 1

1

あなたのタスクはおそらく、多くの異なるドキュメント ( http://wiki.apache.org/solr/ExtractingRequestHandler ) への入力を持つ Solr ( http://lucene.apache.org/solr/ ) のようなものに適しています。ただし、適切な抽出を行うには、いくつかのコードを記述する必要があります。

MongoDB は構造化データを対象としています。ドキュメントと呼んでいますが、ここでは「PDF ドキュメント」や「Word ドキュメント」を意味するものではありません。ドキュメントと呼ばれるネストされたフィールド タイプをサポートするのは、それを許可しないリレーショナル データベースの行とは対照的な、単なる一般的な形式です。

于 2013-07-23T14:36:37.430 に答える