テキストをテーブル マークアップに変換する Python スクリプトを使用して、MS Word ドキュメント内の双方向テキスト (ウルドゥー語と英語) を処理したいと考えていました。バイナリ形式であるため、Word 文書から双方向テキストに直接アクセスすることはできません。また、Word 文書からテキストをコピーしてテキスト エディターに貼り付けても、すべての双方向テキストが正しくレンダリングされず、方向性が失われます。
例:
次のテキストは、コピーした元の MSWord テキストとは逆方向にレンダリングされます (ウルドゥー語のテキストが含まれています)。
画像 پر ہے۔
では、notepad++ のようなテキスト エディターで正しくレンダリングされ、Python スクリプトで忠実に処理できるように、そのような双方向テキストを処理するにはどうすればよいでしょうか?