さて、テキストでいっぱいの docx ファイル (テキストのみ) があり、非常に具体的な方法で解析したいと思います。ŠĐŽĆČ などのセルビア語ラテン語の特殊文字が使用されていることに注意してください。
ここで私がやろうとしていることは次のとおりです: 1) 1文字の単語を無視して、テキストから各単語を取得します 2) 特殊文字 (例: Čovek) でエンコードされている場合は、2 つのバージョンを作成します。 " (特別な文字を含むものと含まないもの) 3) 適切な列の下の表に両方を保存します (単語の最初の文字によって決定されるため、Covek は C、Čovek は Č です。スキップする場合は存在します
それでおしまい。ファイルが存在し、テーブル構造が存在しますが、それらを解析する方法がわかりません。
ありがとう!