単語のデータセットから言語モデルをトレーニングする必要があります。これには、モデルが機能する唯一の方法であるため、すべてのテキストを1つの列に配置する必要があります。これまでは、Pythonを使用して必要に応じて、問題なくドキュメントを1つの列に分割できました。
例:元のドキュメント
Zomer、1951
De warld bestond uit het wazige blauw van een wolkenloze zomerhemel、het goudgroen van koel、geruststellend naaldbos en het lijnrechte wit van de betonnen weg、die nieuw was、hij stond nog op geenenkelekaart。
必要に応じて文書化する
Zomer,
1951.
De
wereld
bestond
uit
het
wazige
blauw
van
een
wolkenloze
zomerhemel,
het
goudgroen
van
koel,
geruststellend
naaldbos
en
het
lijnrechte
wit
van
de
betonnen
weg,
die
nieuw
was,
hij
stond
nog
op
geen
enkele
kaart.
問題は、記号(コンマ、コロン、セミコロンなど)を新しい行に入れ、終止符(。)ごとに追加の空白を含めようとしたときに始まりました。例:
Zomer
,
1951
.
De
wereld
私はこれを行う適切な方法を見つけていません。これまで、.split()
やなどの関数を使用してさまざまな方法を試し.find()
ましたが、良い結果は得られませんでした。ファイルを開いた後:
fileHandle = open("C:\Language Model\Corpora\Computing Clients 3.txt",'r')
ループと条件を試しましたが、何も機能しませんでした。そして、これまでに得られたすべての結果は次のとおりです。
AttributeError: 'list' object has no attribute 'find'
何かが足りないのかもしれません。ファイルが非常に大きいので、Pythonが私に代わってそれを実行できることを知っているので、手動で実行しても役に立たないので、貴重な助けを求めています。