Wes Mckinney の Python for Data Analysis を読んでいますが、このデータ操作には驚きました。ここですべての手順を確認できますが、ここで要約してみます。次のようなものがあるとします。
In [133]: agg_counts = by_tz_os.size().unstack().fillna(0)
Out[133]:
a Not Windows Windows
tz 245 276
Africa/Cairo 0 3
Africa/Casablanca 0 1
Africa/Ceuta 0 2
Africa/Johannesburg 0 1
Africa/Lusaka 0 1
America/Anchorage 4 1
...
tz
はタイム ゾーンを意味し、元のデータのユーザー エージェントから抽出されたカテゴリNot Windows
でWindows
あるため、収集されたデータから、アフリカ/カイロには 3 人の Windows ユーザーと 0 人の非 Windows ユーザーがいることがわかります。
次に、「全体のタイムゾーンのトップ」を取得するために、次のようにします。
In [134]: indexer = agg_counts.sum(1).argsort()
Out[134]:
tz
24
Africa/Cairo 20
Africa/Casablanca 21
Africa/Ceuta 92
Africa/Johannesburg 87
Africa/Lusaka 53
America/Anchorage 54
America/Argentina/Buenos_Aires 57
America/Argentina/Cordoba 26
America/Argentina/Mendoza 55
America/Bogota 62
...
その時点で、ドキュメンテーションによると、列を合計し(sum(1)
)、引数を示す結果に従ってソートしていると思いました(通常はargsortで)。まず第一に、このシリーズのコンテキストで「列」が何を意味するのかわかりません。sum(1)
実際には合計さNot Windows
れ、Windows
ユーザーはその値をタイムゾーンと同じ行に保持しているためです。さらに、argsort 値とagg_counts
. たとえばPacific/Auckland
、「argsort 値」( ) が 0 で、合計が 11とusersIn[134]
しかありません。argsort 値は 1 で、合計 3と Not Windows ユーザーで表示されます。Windows
Not Windows
Asia/Harbin
Windows
誰かがそこで何が起こっているのか説明できますか? 明らかに私は何かを誤解しています。