pandas.DataFrame を使用した (非常に大きな) テーブルがあります。テキストの単語数が含まれています。インデックスは単語リストです:
one.txt third.txt two.txt
a 1 1 0
i 0 0 1
is 1 1 1
no 0 0 1
not 0 1 0
really 1 0 0
sentence 1 1 1
short 2 0 0
think 0 0 1
すべてのテキストの単語の頻度で単語リストを並べ替えたいと思います。したがって、各単語の頻度の合計を含むシリーズを簡単に作成できます (単語をインデックスとして使用)。しかし、どうすればこのリストを並べ替えることができるでしょうか?
簡単な方法の 1 つは、リストを列としてデータフレームに追加し、並べ替えてから削除することです。パフォーマンス上の理由から、これは避けたいと思います。
他の 2 つの方法についてはこちらで説明していますが、1 つはサイズが原因で問題となるデータフレームを複製し、もう 1 つは新しいインデックスを作成しますが、さらに下の単語に関する情報が必要です。