まず第一に、あいまいさを許してください。私の問題は英語で説明するのが少し難しいと思います。基本的に私がやりたいことは、膨大な単語のセットを「N」個の部分に分割することです。
たとえば、ファイル内のすべての単語を読み取り、それらを N=10 の部分に分割します。より正確に言うと、私はデータ マイニング プロジェクトに取り組んでいます。の単語を並べ替える必要があるドキュメントは何千もあります。
n = 2 とします。am と nz をファイルに入れることができることを知っています。n > 100 に対してこれを実行できるアルゴリズムが必要です。
PS: 私のプログラムは最初に N 個のファイル (またはチャンク) を作成し、次にすべての単語を読み取り、開始方法に応じてそれらをチャンクの 1 つに割り当てる必要があります。
例 : 入力 : N = 2 語 = [....]
output : [amで始まる単語] , [nzで始まる単語]
言い換えれば、単語を辞書順に分割したい