2

そのようなコンテンツを含む RTF ファイルがあります。

long_text_description_1     number1a        number1b        number1c
long_text_description_2     number2a        number2b        number2c
long_text_description_3                                     number3c
long_text_description_4     number4a        number4b        number4c
…

色、フォント、その他の書式設定なしで、プレーンな生のテキストを抽出する必要があります。保持する必要があるのは、最も基本的な行/列の情報だけです。理想的には、CSV ファイルが必要です。

私が取得したファイルには、すべてのフォーマットが含まれています。

{\cs18\lang1033\langfe1033\f0\b\i0\ul0\strike0\scaps0\fs15\afs15\charscalex100\expndtw0\cf1\dn0 number1a}

行情報のみを保持しながら、すべての rtf 情報を削除する最良の方法は何ですか? RTF形式を完全に理解していない限り、多くの正規表現を理解しようとするのは危険に思えます。

私がインターネットで見つけたものは、主に iOS では利用できない Windows 言語とライブラリの使用に焦点を当てていました。

4

1 に答える 1

0

すべての rtf タグの形式は\xxx. 「\\S+」などの正規表現を使用して、すべての一致を削除するか、何も置き換えないでください。あなたの例では、{ number1a}これにより、バックスラッシュとそれに続く文字が削除されます。

于 2013-10-29T10:11:08.797 に答える