問題タブ [html-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
3065 参照

regex - Freemarkerで正規表現文字列をエスケープするにはどうすればよいですか

組み込みのmatches文字列を使用しており、正規表現パターンを実行する必要があります

(Views:).*?(span>)(.*?)(<\/div)

ただし、Freemarkerの特殊文字である「>」文字のためにFreemarkerはおかしくなります。これを回避する方法はありますか?

0 投票する
2 に答える
396 参照

html - Rubyでページ上のすべてのhrefコンテンツをフェッチする最も簡単な方法は?

Rubyで単純なWebクローラーを作成していhrefて、ページ上のすべてのコンテンツをフェッチする必要があります。一部のページは有効でない可能性があるため、これまたは他のWebページのソース解析を行うための最良の方法は何ですか。それでも、それらを解析できるようにしたいです。

妥当性にとらわれない構文解析を可能にする優れたRubyHTMLパーサーはありますか、それとも正規表現を使用して手動で行うのが最善の方法ですか?

XHTML以外のページでXPathを使用することは可能ですか?

0 投票する
4 に答える
1671 参照

javascript - JavaScript で特定のタグ内にないテキストを置き換える方法

:-)文字列を bbcodeに置き換えたい文字列 (部分的に HTML) があります:wink:。ただし、この置換は 内<pre>ではなく、他のタグ内で (またはタグ内でなくても) 行う必要があります。

たとえば、私は交換したい

に:

すでに次の正規表現で試しましたが、機能しません (何も置き換えられません)。

誰か助けてくれませんか?:-)

0 投票する
7 に答える
14521 参照

java - Java: HTML の大きな文字列があり、href="..." テキストを抽出する必要があります。

この文字列には大量の html が含まれており、文字列の href="..." 部分からリンクを抽出しようとしています。href は、次のいずれかの形式になります。

正規表現に問題はありませんが、何らかの理由で次のコードを使用すると:

誰かが私のコードの何が問題なのか教えてもらえますか? 私はphpでこのようなことをしましたが、Javaではどういうわけか間違ったことをしています...何が起こっているのかは、印刷しようとするたびにhtml文字列全体を印刷することです...

編集:私が扱っている文字列の種類を誰もが知っているように:

コードを実行するたびに、文字列全体が出力されます...それが問題です...

そしてjTidyの使用について...私はそれに取り組んでいますが、この場合にも何がうまくいかなかったのかを知ることは興味深いでしょう...

0 投票する
3 に答える
2270 参照

html - Perl を使用して正規表現でリンクの HTML ページを解析する

重複の可能性:
Perl を使用して HTML から外部リンクを削除するにはどうすればよいですか?

よし、私は今、言語選択を Perl に切り替えたばかりのクライアントの仕事に取り組んでいます。私は Perl が得意というわけではありませんが、少し前のことですが、このような作業を以前に行ったことがあります。

次のようなリンクがたくさんあります。

パス "/en/subtitles/3586224/death-becomes-her-en" を一致させ、それらを配列またはリストに入れたい (Perl でどちらが優れているかは不明)。私はperlのドキュメントを検索したり、正規表現のチュートリアルを見たりしてきましたが、ほとんどの場合、一致をキャプチャするのではなく、 ~= を使用して何かを一致させることを目的としているように見えました。

ありがとう、

コーディ

0 投票する
5 に答える
9400 参照

html - 内部にタグがあることを知っている場合、Perl の HTML モジュールを使用して div の内容を見つけるにはどうすればよいですか?

html を regex で解析する方法を尋ねて、少しバッシングされて以来 (当然のことですが)、私はHTML::TreeBuilderHTML::ParserHTML::TokeParser、およびHTML::Elements Perl モジュールを研究してきました。

次のような HTML があります。

を解析したいのです/45/subtitles-67624.aspが、さらに重要なのは、 div の内容を解析する方法を知りたいということです

以前の質問でこの例が与えられました:

これは完全に機能しましたが、少し編集して「div」で使用しようとすると機能しませんでした。これが私が試したコードです:

私はこのコードを使用してみました:

0 投票する
3 に答える
1006 参照

java - 不正な形式のHTMLでタイプ別に要素を取得する

不正な形式のHTMLページで特定のタイプのすべての要素を取得するJavaで最も簡単な方法は何ですか?だから私はこのようなことをしたい:

0 投票する
2 に答える
1241 参照

xml - 「Reader」と Nokogiri を使用して XML ドキュメントを解析すると、LibXML エラーが返される

Nokogiri リーダーを使用して XML ファイルを解析することに関しては、私は初心者です。解析する XML ファイルとサンプル コードは次のとおりです。

以下は私が得るエラーメッセージです:

どんな助けでも大歓迎です。

0 投票する
3 に答える
1776 参照

python - BeautifulSoup が script タグ内のコンテンツを無視するようにする

私は BeautifulSoup (3.1.0.1) を取得して、タグ内で html を生成する JavaScript を多く含む html ページを解析しようとしています。フラグメントの例は次のようになります。

BeautifulSoup はこれに対処できないようで、onMouseOver=**\"**menuOver_3821();\" の周りの「不正な開始タグ」について不満を言っています。スクリプトブロック内でjavascriptによって生成されたxmlを解析しようとしているようです?!?

BeautifulSoup がスクリプト タグの内容を無視するようにする方法はありますか?

lxml を使用する他の提案を見たことがありますが、Google AppEngine で実行する必要があるため使用できません。