私はビッグデータのトピックにまったく慣れていません。数値を含む約 10 GB のテキスト ドキュメントを分析する必要があります。これらは 10 億近くの数字なので、このドキュメントのように分析するのは簡単ではありません。このドキュメントは、1 行に 1 つの数字が並んだリストのような構造になっています。私の主な質問は、これらの膨大なデータセットのようなものを分析するための最良の機会は何だと思いますか? 私の目的は、リストに含まれる異なる数の数を調べることであり、この結果を保存したいと考えています。
入力は次のようなもので、10 億行近くあります。
123801
435345
123
7
43958112
4569
45
509858172
...
出力は次のようになります (例として)。
1 2
2 4
3 1
4 109
5 56
...
10億近くまで
まず、linux/unix の 'sort' と 'unique' と特定のパラメータで試してみましたが、このような場合は解決策ではありません。
次に考えたのは、クイック ソートまたはマージ ソートをデータ セットに実装することでした。Java または別の言語で、このような分析/読み込みを行うことは可能ですか? ArrayList は Java リストのオーバーヘッドが最も少ないと読みました。可能であれば、番号 'n' までインクリメントする for ループを実装しようと考え、nextElement != thisElement が for ループから抜け出す場合。1 つの変数をインクリメントしてカウントを保存し、条件が正しければゼロに設定できると思います。このアイデア、そしてもちろんこの問題についてどう思いますか?
また、このデータセットのデータベースをセットアップすることも考えました。それはより良い機会ですか?はいの場合、どの DBMS が最適ですか?
私は他のことについて本当に心を開いています。あなたの意見、考え、解決策に本当に感謝しています!