regex - Yahoo-Pipesで、印刷できない文字やhtmlタグが表示されない場合に正規表現を使用するにはどうすればよいですか？

Question

正規表現を使用してデータを抽出しようとすると問題が発生し続けますが、文字列に改行、スペース、htmlタグなどが含まれている可能性があるため、結果は希望どおりではありませんが、文字列に何が含まれているかを実際に確認することはできますか？デバッガーは実際のテキストのみを表示しているようです。これにどのように対処しますか？

score 0 · Accepted Answer

文字列の内容がHTMLの場合、デバッガーは「HTML」または「ソース」の表示を選択できます。ソースには、そこにあるHTMLタグが表示されます。

ただし、空白が懸念される場合は、これでは不十分な場合があります。唯一のオプションは、元のページで「ソースを表示」することです。

最善の行動は、正規表現でこれらの可能性を明示的に処理することです。たとえば、ターゲット文字列に空白が含まれている可能性があると思われる場合は\s*、重要な位置でパターンを使用してください。これは、0個以上のスペース、タブ、および新しい行に一致します（新しい行については、正規表現パネルで[s]オプションもオンにする必要があります）。

ただし、使用しているソーステキストと正規表現の具体例がなければ、アドバイスは一般的なものにすぎません。

score 0 · Accepted Answer

私がしているのは、正規表現テスター（使用しているのと同じ正規表現エンジンを使用している方）を使用して、その上でパターンをテストすることです。非表示の文字を表示するテキストエディタを使用してみましたが、混乱を招くだけです。

だから私は試行錯誤を繰り返します。たとえば、行が次のように終わる場合：

</a>

次に、機能するパターンが見つかるまで、正規表現テスターで次のパターンを試します。

</a>.
</a>..
</a>\s
</a>\s*
</a>\n
</a>\r
</a>\r\n

等。

regex - Yahoo-Pipesで、印刷できない文字やhtmlタグが表示されない場合に正規表現を使用するにはどうすればよいですか？

2 に答える 2

Related

Reference