タグの行を含む次のようなファイルがあります。私は持っている:
Pattern.compile("<(?:TIMEX TYPE|ENAMEX TYPE)=.+?>(.+?)</(?:TIMEX|ENAMEX)>");
両方のタグが 1 行にある場合、これで必要なデータが取得されます。私の問題は、次の行を処理することです:
<ENAMEX
TYPE="CITED">1</ENAMEX>
タグの途中で分割があると正しく動作しません。そのため、正規表現を改善するためのヘルプ、または非標準の xml タグで機能する代替手段を探しています。