私は Python の初心者で、(特定の形式で書かれた) テキスト ファイルを XML ファイルに解析する Python スクリプトを書き込もうとしています。テキストファイルは非ヨーロッパ言語で書かれており、UTF-8 でエンコードされています (右から左に書かれています)。これだけでも問題が発生します。
テキストファイルのフォーマット:
{number}"|"{number}"|" {text in UTF-8}
その例は次のとおりです。
1|2|حمد ހުރީ، عالم ތަކުގެ ވެރި اللَّه އަށެވެ
最初の問題は、テキストから読み取るときに、単語の順序が Python で入れ替わることでした。テキストを読む場合: 1|2| ABC DEF、Python では 1|2| と表示されます。DEF ABC これは明らかに間違っています。
私はテキストを取得するためにそれを使用file = open("text.txt")
して実行readlines()
しています。
このバグを修正するためにsplit()
、単語を分離してリストに入れ、必要に応じて並べ替えようとしましたが、この場合、おそらく変換エラーが発生し、文字化けが発生します。このような UTF-8 文字を Python リストに格納して取得するには問題があります。文字は保持されません。
このリスト処理のバグが修正されれば、XML ファイルの作成は簡単になります。
編集: 参考になれば、言語はディベヒ語、アルファベットはターナ語です。