Regexを試すことができます。
この正規表現を試してください >\s+(.*?)\s+<'
。
この文字列を抽出した場合にのみ、正規表現ソリューションが機能することに注意してください。
< a: href > https://0.0.0.1/abcd/openthis.pdf < /a: href>
html parsers
通常、対応する html コードからテキストを抽出するために使用します。
HTML を regex で解析してはならない理由は次のとおりです。
htmlcleanerを試してみます。
HTMLCleaner は、Web で見つかった HTML を安全に解析し、整形式の XML に変換するために使用される Java ライブラリです。小さく、高速で、柔軟性があり、独立しているように設計されています。HtmlCleaner は、コマンド ライン ツールまたは Ant タスクとして Java コードで使用できます。解析の結果は軽量のドキュメント オブジェクト モデルであり、DOM や JDom などの標準に簡単に変換したり、さまざまな方法 (コンパクト、きれいに印刷など) で XML 出力にシリアル化したりできます。
xml/html タグ内のコンテンツを取得するためXPath
に htmlcleaner を使用できます。