php - PHP での URL エンコードされた正規表現解析の問題

Question

そのため、特定のフィールドを解析しようとして単語 doc を URL エンコードしました..これは面倒です。「予期しない」結果がいくつかありますが、この 1 つを除いて、すべてがうまく動作しています。

結果の 99.8% に対する Word からの出力の例を次に示します。

%13+FORMTEXT+%01%14wes%15

通常、私が設定した正規表現は、上記の例のように、必要に応じてすべてのフィールドを正確に取得します。しかし、以下の例は奇妙なものです。一番下の例から「wes」を解析しようとしています。

%13+FORMTEXT+%01%15%86%15%9A%9C%9E%A0%F2%F4%0A%1A%1C%1E+468%3A%3C%3E%40TVXZ%5C%15%60bvxz%FC %F0%E0%14%D4%C1%06%14wes%15

これは 1 つの大きな文字列なので、次のように続きます。

%13+FORMTEXT+%01%15%86%15%9A%9C%9E%A0%F2%F4%0A%1A%1C%1E+468%3A%3C%3E%40TVXZ%5C%15%60bvxz%FC%F0%E0%14%D4%C1%06%14wes%15%13+FORMTEXT+%01%14wess%15

%01 と %14 の間の大きなギャップと、%14 と %15 の間のテキストに注目してください。通常、%01%14 は横に並んでいますが、この場合、それらの間にナンセンスがあります...多くの場合、これは例のために短縮されています。

乾杯、ウェス

score 0 · Accepted Answer

別のルートに進み、ドキュメントを docx/ooxml に変換し、XML で正規表現を使用しました。

1 に答える 1