0

Pythonで書かれたNLPプロジェクトで使用される音声シーケンス、依存関係、文の一部などのテキスト情報を保存するのにどのデータベースが適しているかについて、誰かがアドバイスできますか? 現在、この情報はファイルに保存されており、次の処理段階の入力として使用される前述のブロックを抽出するために、毎回解析する必要があります。考慮されるオプション - MongoDB、Cassandra、および MySQL。このタイプのアプリケーションでは、NoSQL データベースの方が優れていますか。ありがとう。

4

1 に答える 1

6

これは、正確に何を保存しているのか、このデータに対してどの操作を実行するのかによって異なります。

SQL と NoSQL は非常に基本的な決定であり、ここで適切なアドバイスを与えることはできません。データがリレーショナル モデルに適している場合は、SQL (PostgreSQL または MySQL) を選択します。データがドキュメントに近い場合は、MongoDB を使用してください。

そうは言っても、つい最近検索エンジンを作りました。インデックス化されたページ (生のテキスト)、トークン化された同じテキスト、およびいくつかの追加のメタデータを保存する必要がありました。MongoDB は非常に優れたパフォーマンスを発揮しました。

于 2013-06-01T13:07:30.160 に答える