パンダを作成しようとしていますDataFrame
が、単一のファイルに対しては正常に機能します。同じデータ構造を持つ複数のファイル用にビルドする必要がある場合。したがって、単一のファイル名の代わりに、作成したいファイル名のリストがありますDataFrame
。
pandas で current に追加する方法がわからない、DataFrame
または pandas がファイルのリストをDataFrame
.
pandasconcat
コマンドは、ここでの友達です。ディレクトリtargetdirにすべてのファイルがあるとしましょう。あなたはできる:
`
import os
import pandas as pd
#list the files
filelist = os.listdir(targetdir)
#read them into pandas
df_list = [pd.read_table(file) for file in filelist]
#concatenate them together
big_df = pd.concat(df_list)
潜在的に恐ろしく非効率的ですが...
を使用read_csv
して 2 つ (またはそれ以上) のデータフレームを作成してから、 join を使用してそれらをまとめてみませんか?
とはいえ、これまでに使用したデータまたはコードの一部を提供すると、質問に答えやすくなります。
パンダにフィードする前に、ファイルを連結しようとするかもしれません。Linux または Mac を使用しているcat
場合は、 を使用できます。それ以外の場合は、非常に単純な Python 関数で作業できます。
これらのファイルはcsv形式ですか。read_csvを使用できます。 http://pandas.sourceforge.net/io.html
ファイルを読み取って2つのデータフレームに保存したら、2つのデータフレームをマージするか、2つのデータフレームの1つに列を追加します(共通のインデックスを想定)。パンダは不足している行を埋めることができるはずです。
import os
import pandas as pd
data = []
thisdir = os.getcwd()
for r, d, f in os.walk(thisdir):
for file in f:
if ".docx" in file:
data.append(file)
df = pd.DataFrame(data)