約 10,000 レコードを持つ MySQL データベースを構築しています。各レコードには、テキスト ドキュメント (ほとんどの場合、数ページのテキスト) が含まれます。データベース全体であらゆる種類の n-gram カウントを実行したいと考えています。多数のテキスト ファイルを含むディレクトリに対して必要なアルゴリズムを既に Python で記述していますが、そのためにはデータベースから 10,000 個のテキスト ファイルを抽出する必要があります。これにはパフォーマンスの問題があります。
私は MySQL の新人なので、n-gram 分析を行う組み込み機能があるかどうか、またはそれを行う優れたプラグインがあるかどうかはわかりません。私の分析では少なくとも 4 グラム (できれば 5 グラム) まで上げる必要があることに注意してください。また、n-gram カウントを行う前に、テキスト ドキュメントからストップワードを削除する機能も必要です。
コミュニティからのアイデアはありますか?
ありがとう、
ロン