これは明らかな質問のようですが、リストのチュートリアルとドキュメントは近日公開されません。これらの問題の多くは、私のテキストファイルのサイズ(数百MB)と、システムで管理できるものにまとめようとする試みに起因しています。その結果、私はセグメントで作業を行っており、現在、結果を組み合わせようとしています。
私は複数の単語頻度リストを持っています(そのうちの約40)。リストは、Import []を介して取得することも、Mathematicaで生成された変数として取得することもできます。各リストは次のように表示され、Tally[]およびSort[]コマンドを使用して生成されています。
{{"the"、42216}、{"of"、24903}、{"and"、18624}、{"n"、16850}、{"in"、
16164}、{"de"、14930}、{ "a"、14660}、{"to"、14175}、{"la"、7347}、{"was"、6030}、{"l"、5981}、{"le"、5735}、<< 51293 >>、{"食肉処理場"、1}、{"食肉処理場"、1}、{"食肉処理場"、1}、{"食肉処理場"、1}、{"食肉処理場"、1}、{"食肉処理場"、1} 、{"abaiss"、1}、{"aback"、1}、{"aase"、1}、{"aaijaut"、1}、{"aaaah"、1}、{"aaa"、1}}
2番目のファイルの例を次に示します。
{{"the"、30419}、{"n"、20414}、{"de"、19956}、{"of"、16262}、{"and"、
14488}、{"to"、12726}、{ "a"、12635}、{"in"、11141}、{"la"、10739}、{"et"、9016}、{"les"、8675}、{"le"、7748}、<< 101032 >>、{"食肉処理"、1}、{"食肉処理"、1}、{"食肉処理"、1}、{"食肉処理"、1}、{"食肉処理"、1}、{"食肉処理"、1} 、{"aback"、1}、{"aase"、1}、{"aaijaut"、1}、{"aaaah"、1}、{"aaa"、1}}
頻度データが集約されるようにそれらを組み合わせたいと思います。つまり、2番目のファイルに30,419回の「the」があり、最初のファイルに結合されている場合、72,635回の出現があることを返す必要があります(コレクション)。