python-3.x - PandasなしでCSVファイルをフィルタリングするには? (Pythonista の Pandas の最適な代替品)

Question

Pythonista 3 (Python 用の iOS アプリ) でデータ分析をしようとしていますが、pandas の C ライブラリが原因で、iOS デバイスでコンパイルされません。

パンダの代わりになるものはありますか？numpy は type のデータのオプションになりますstringか?

現時点で私が持っているデータセットは、友人と私との間のメッセージの履歴です。

履歴全体が 1 つの csv ファイルにまとめられています。各行には、「day_of_the_week」、「date」、「time_of_message」、「author_of_message」、「message_body」という列があります

分析の目的は、過去 1 年間のチャットのレポートを作成することです。

各友人が送信したメッセージの数をカウントできるようにしたい。各友人からメッセージが送信された時間のヒストグラムをプロットできるようにしたいと考えています。次に、個人およびグループとして単語カウントを行いたいと思います。

パンダでは、その方法を知っています。例えば：

df = read_csv("messages.csv")
number_of_messages_friend1 = len(df[df.author_of_message == 'friend1']

Pandasなしでcsvファイルをフィルタリングするにはどうすればよいですか?

score 3 · Accepted Answer

Pythonista には numpy があるため、この種の問題に対する numpy のアプローチである再配列を確認する必要があります。以下は、私にとってPythonistaの箱から出してすぐに機能しました：

import numpy as np
df=np.recfromcsv('messages.csv')
len(df[df.author_of_message==b'friend1'])

データ形式によっては、recsfromcsvto がデータ型を推測しようとするため、「うまく機能する」ことがわかる場合もあれば、少しカスタマイズする必要がある場合もあります。genfromtextデータ型を明示的に指定したり、文字列の日付を datetime オブジェクトに変換するためのコンバーターを使用したりするなど、多くのオプションについては、を参照してください。recsfromcsv単なる便利なラッパーですgenfromtext

https://docs.scipy.org/doc/numpy/user/basics.io.genfromtxt.html#

rearray に入ると、単純なインデックス操作の多くは pandas と同じように機能します。上記のように、Unicode 文字列に変換しない限り、b プレフィックス文字列 (bytes オブジェクト) を使用して文字列比較を行う必要がある場合があることに注意してください。

python-3.x - PandasなしでCSVファイルをフィルタリングするには? (Pythonista の Pandas の最適な代替品)

3 に答える 3

Related

Reference