Python と Pandas (どちらも初心者) で最初の分析をセットアップしていますが、これを適切にセットアップする方法についていくつかの質問/問題があります。
基本的にはユーザーの行動を時系列で見ようとしていますが、ユーザー数が日よりも多いので、月単位で見ようとしています。私はこのように構築しましたDataFrame
:
df2 = pd.DataFrame({'ID':range(100)})
df2['Day1'] = random.sample(xrange(1000), 100)
df2['Day2'] = random.sample(xrange(1000), 100)
df2['Day3'] = random.sample(xrange(1000), 100)
いくつかの方法で「ID」列にインデックスを追加しようとしましたが、1) 必要かどうかわからない、2) どの方法も使用できません。これが私が試したことです:
df2 = pd.DataFrame({'ID':range(100)}, index_col='ID')
df2 = pd.DataFrame({'ID':range(100)}, index_col=0)
df2.index(0)
df2.index('ID')
df2.reindex(index='ID')
df2.reindex(index=0)
Day2 の値が Day 1 より 95% 少ないかどうか、Day 3 が Day 2 より 95% 少ないかどうかを示す新しいデータフレームを作成するために取得しようとしているものの最終出力 - 以降 ( DataFrame
100 列の)。出力は次のようになります。
ID Day2 Day3
1 NaN 1
2 NaN NaN
3 NaN NaN
4 1 NaN
これを判断する適切な方法は、次のような for ループを実行することだと思います。
for i in df2:
if (Day2-Day1)/Day1 < .95:
print 1
ただし、関数で列を参照する方法や、この関数を柔軟にして .xml ファイルにすべての列を含める方法がわかりませんDataFrame
。この関数の列をどのように参照すればよいですか?
この関数の列をどのように参照すればよいですか?