テキスト分類問題のために、PyBrain を使用してリカレント ニューラル ネットワークを構築しています。何度も試みた後、文字列のリストをデータセットとして使用できる配列に変換する方法をまだ整理できません。私がしたこと:
import collections,re
from pybrain.datasets import SupervisedDataSet
#create the supervised dataset variable with 5 inputs and 1 output
windowSize=5
main_ds = SupervisedDataSet(windowSize,1)
with open('ltest5lg_d1.fr','r') as train_1:
import_data_train=train_1.readlines()
train_data = []
for lines in import_data_train:
s = lines.split()
for words in s:
train_data.append(words)
bagsofwords = [collections.Counter(re.findall(r'\w+', txt)) for txt in train_data]
sumbags = sum(bagsofwords, collections.Counter())
そのため、トレーニング データの頻度表を取得しましたが、データ自体を main_ds 変数の入力として使用できる形式に変換する方法を整理できません。