テキスト ファイルのディレクトリが 2 つあります。一方には がUser Description
あり、もう一方にはUser Messages
フィールドDATE<\t>NAME<\t>DESCRIPTION
とがありDATE<\t>NAME<\t>MESSAGE
ます。私の主な目的は、これら 2 つのファイル間のプロファイルとメッセージ ワード間の相関行列を取得することです。
一例は次のとおりです。
*message words*
cat dog mouse ....
*profile words* cat 100 20 50
dog 2 30 22 ...
...
...
ここで、cat と cat の間にある 100 という数字は、「プロファイルの説明に「cat」を含むすべてのユーザーが作成したすべてのメッセージで、「cat」という単語が 100 回出現した」ことを意味します。
Java を使用してこの問題を解決しようとしましたが、テキスト ファイルのサイズが原因で、このプログラムのより単純なバージョンでさえ実行できませんでした。数日前に投稿した問題です。このawk
ツールは以前の問題を解決しました。
私の質問は、この種の問題を解決する効率的な方法はありますか? 言語の制限はありません。また、diff や cat などの bash ユーティリティについてある程度の知識があります。
参考までに、User Messages
1.7G の複数のテキスト ファイルがあります。User Description
複数のファイルでも約400Mです。Java に割り当てることができる最大のメモリは -Xmx1800m です。
また、これが有効な質問でない場合は、お知らせください。投稿を削除します。
ありがとうございました!