java - Java StringTokenizer、スプリット、またはスキャナーを使用して文字列を抽出します

Question

<a: href>次の間と次の間の文字列を抽出したい</a: href>：

<a: href> https://0.0.0.1/abcd/openthis.pdf </a: href>

StringTokenizer、スプリット、またはスキャナーを使用します。および区切り文字として
StringTokenizer を使用しようとしていますが、機能しません。、およびをエスケープしようとしましたが、これは問題ではないようです。私の推測では、単語やフレーズを区切り文字として受け入れないでしょう。<a: href></a: href><>:

score 0 · Accepted Answer

Regexを試すことができます。

この正規表現を試してください >\s+(.*?)\s+<'。

この文字列を抽出した場合にのみ、正規表現ソリューションが機能することに注意してください。

< a: href > https://0.0.0.1/abcd/openthis.pdf < /a: href>

html parsers通常、対応する html コードからテキストを抽出するために使用します。

HTML を regex で解析してはならない理由は次のとおりです。

htmlcleanerを試してみます。

HTMLCleaner は、Web で見つかった HTML を安全に解析し、整形式の XML に変換するために使用される Java ライブラリです。小さく、高速で、柔軟性があり、独立しているように設計されています。HtmlCleaner は、コマンドラインツールまたは Ant タスクとして Java コードで使用できます。解析の結果は軽量のドキュメントオブジェクトモデルであり、DOM や JDom などの標準に簡単に変換したり、さまざまな方法 (コンパクト、きれいに印刷など) で XML 出力にシリアル化したりできます。

xml/html タグ内のコンテンツを取得するためXPathに htmlcleaner を使用できます。

java - Java StringTokenizer、スプリット、またはスキャナーを使用して文字列を抽出します

1 に答える 1

Related

Reference