トルコ語で約 15 万の記事があります。自然言語処理の研究に記事を使用します。記事を処理した後、記事ごとに単語とその頻度を保存したい。
現在RDBSに保存しています。
私は3つのテーブルを持っています:
Articles -> article_id,text
Words -> word_id, type, word
Words-Article -> id, word_id, article_id, frequency (word_id のインデックス、 article_id のインデックス)
問い合わせます
- 記事内のすべての単語
- 記事ごとに 1 つの単語の頻度
- すべての記事およびどの記事での単語の出現
words-article テーブルに何百万もの行があります。このプロジェクトでは常に RDBS を使用していました。mysql から始めて、現在は oracle を使用しています。しかし、私は oracle を使用したくなく、mysql よりも優れたパフォーマンスが必要です。
また、4 GB RAM を搭載したマシンでこのジョブを処理する必要があります。
簡単に言えば、文書と用語のマトリックスを保存し、それに対してクエリを実行する方法は? 性能が必要です。「キー値データベース」はパフォーマンスでmysqlを打ち負かすことができますか? または、mysql に勝るものは何ですか?
あなたの答えのプログラミング言語が依存している場合、私はpythonでコードを書いています。ただし、C/C++ 、Java は問題ありません。