これは私が読んでいる生のテキストのサンプルです:
ID: 00000001
SENT: to do something
to 01573831
do 02017283
something 03517283
ID: 00000002
SENT: just an example
just 06482823
an 01298744
example 01724894
今、私はそれをリストのリストのリストに分割しようとしています。
最上位レベルのリスト: ID ごとに、ここに 2 つの要素 (完了)
次のレベル: 各 ID 内で改行で分割
最後のレベル: 各行内で単語と ID を分割します。ID または SENT で始まる行については、それらが分割されているかどうかは問題ではありません。単語と ID の間にはインデント (\t) があります。
現在のコード:
f=open("text.txt","r")
raw=list(f)
text=" ".join(raw)
wordlist=text.split("\n \n ") #split by ID
toplist=wordlist[:2] #just take 2 IDs
編集:単語を別のテキストファイルに相互参照して単語クラスを追加するつもりだったので、リストのリストのリストを要求しました。
手順:
1) .append() を使用して、各単語の単語クラスを追加します
2) "\t".join() を使用して線を接続します
3) "\n".join() を使用して ID 内の異なる行を接続します
4) "\n\n".join() すべての ID を結合して文字列にする
出力:
ID: 00000001
SENT: to do something
to 01573831 prep
do 02017283 verb
something 03517283 noun
ID: 00000002
SENT: just an example
just 06482823 adverb
an 01298744 ind-art
example 01724894 noun