より効率的に作業できるようにするために、.xml に変換する必要があるテキスト ファイルがたくさんあります (英語の方言を分析するためにいくつかの言語モデルを実行することになっています)。
ファイルは次のようになります。
<I> <IFL-IDN W2C-001 #1:1> <#> <h> <bold> Some Statement that I can edit </bold> <bold> followed by another </bold> </h>
<IFL-IDN W2C-001 #2:1> <p> <#> more and more text that is not very relevant . </p></I>
ファイルごとに約 500 語あります。タグを識別し、<#> のような閉じられていないタグと文末を閉じます。
次に、すべての単語の前後に.txtファイル全体を有効なxmlファイルに変換したいと思います。それを .split() で分離することもできましたが、問題はそのようなタグにスペースが含まれていることです。
私が思いついた最良のコードは、splilines()、次に .split() を文で実行し、次に識別しようとすることです
ここにそのコードがあります
Korpus = open("w2c-001.txt").read().splitlines()
for i in Korpus:
Sentence = i.split()
for j in range(0,len(Sentence)-2):
if((Sentence[j][0]=='<' and Sentence[j][len(Sentence[j])-1]!='>') or( Sentence[j][0]!='<' and Sentence[j][len(Sentence[j])-1]=='>')):
Sentence[j] = Sentence[j] + " " + Sentence[j+1] +" " + Sentence[j+2]
Sentence.remove(Sentence[j+1])
Sentence.remove(Sentence[j+2])
#print(Sentence[j])
print(Sentence[j])
私の最初の考えは、有効なxmlを.txtファイルに保存するために何かを書くことができれば、そのファイルを.xmlに変換することは大きな問題ではないはずでした。これを行うことができるpythonライブラリが見つかりません.eltreeライブラリはxmlを作成できますが、それを識別して変換するものは何も見つかりませんでした.
事前に感謝します。どんな助けでも大歓迎です。