問題タブ [html-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
5862 参照

php - ループスルー
PHPを使用する要素

基本的にdivのリストである文字列にhtmlのブロックがあります...各divには、個別に解析したいhtmlが含まれています。

最初のdivをループする方法を正確に理解するのに問題があります。

誰か助けてもらえますか?

htmlの例:

この例では、最終的なコードが4回ループし、各divの内容を提供することを期待しています。

0 投票する
4 に答える
885 参照

c# - xml タグを html 値に置き換える

私はc#.Netで作業しています

質問があります、

で Xml ファイルを読み込んXDocument.xDoc.Load(file)でいますが、コンテンツに xml タグもあるために失敗します。

例:<root><abc><deg></abc></root>

私の問題は、関数が一致する " " なしで Xml タグとしてLoad扱うことです...<deg></deg>

私の質問は、「deg」の「<」と「>」を一致する「&lt;" " &gt;」に最も簡単な方法で置き換えるにはどうすればよいですか?

注意: 私のファイルは非常に大きく、タグがたくさんあります...

ありがとう!

0 投票する
4 に答える
2613 参照

regex - Google 検索から URL を抽出するために使用できる正規表現は何ですか?

JCLRegEx で Delphi を使用しており、Google 検索からすべての結果 URL を取得したいと考えています。HackingSearch.com を見たところ、正しく見える RegEx の例がありますが、試してみると結果が得られません。

私はそれを次のように使用しています:

正規表現はhackingsearch.comで入手できます。

TPerlRegEx をインストールするたびに 2 つの競合が発生するため、Delphi Jedi バージョンを使用しています...

0 投票する
2 に答える
97 参照

whitespace - ウェブページのソースに空白を追加して読めるようにする

  1. 表示している Web ページに興味があります。
  2. 「view--page source」を使用して、html を含むウィンドウを取得します。
  3. これを切り取ってメモ帳++に貼り付けます。

  4. 空白を追加して手動で解析し、読みやすくします。

最後のステップを実行するためのより良い方法はありますか? このプロセスを自動化し、ユーザーにソース ファイルの読み取り可能なバージョンを提供する何かが書かれていることを願っています。

助けてくれてありがとう。

-明細書

0 投票する
4 に答える
1900 参照

java - HTML分析用のJavaライブラリ

(私は同様の質問を見ましたが、それらのどれも私の特定のニーズに応えていないと思います、それ故に...)

実世界の(不完全な、形式の悪い)HTMLを分析するためのJavaライブラリーがあるかどうか知りたいのですが。分析とは、次のようなことを意味します。

  • HTMLチャンクで最も目立つ色を見つけ出す
  • その色を他の色に変更する(したがって、HTMLの変更もサポートする必要があります)
  • 不要なタグの削除
  • HTMLを修正して、整形式のHTMLスニペットを作成します

最後の2つの部分は、JerichoやjTidyなどのライブラリによって実行されます。これらの上にある「プラグイン」は素晴らしいでしょう。

前もって感謝します!

0 投票する
2 に答える
802 参照

html - PHP正規表現:HTMLタグのグループ間の情報を取得しますか?

私はワードアンスクランブラーをプログラミングしてきました。タグのグループと別のグループの間の情報を解析し、すべての一致を配列に入れる必要があります。開始タグは次のとおりです。

終了タグは次のとおりです。

私はいくつかの正規表現を知っていますが、PHPに慣れていません。

0 投票する
1 に答える
220 参照

c++ - html のテキスト コンテンツのインデックス作成

索引付けの目的で HTML ファイルからテキストを引き出し、できるだけ早くそれを行いたいと考えています。ゼロから作るのではなく、自分がどれだけできているかを知りたいです。

現在、動作する html2text の出力をパイプ処理しているだけですが、Python であることとテキストをきれいにしようとすることの間で、速度が改善される可能性があると確信しています。

では、Linux/unix が優先される場合、この種のタスクに最適な (c/c++) ライブラリはどれでしょうか?

0 投票する
2 に答える
2964 参照

python - GAE の HTML パーサー

通常、HTML 解析のニーズにlxmlを使用しますが、Google App Engine では利用できません。明らかな代替手段はBeautifulSoupですが、不正な形式の HTML では簡単に詰まることがわかりました。現在、 libxml2domをテストしており、より良い結果が得られています。

最高のパフォーマンスを発揮する純粋な Python HTML パーサーはどれですか? 私の優先事項は、速度よりも悪い HTML を処理できることです。

0 投票する
3 に答える
195763 参照

java - JavaでHTMLを効率的に解析するにはどうすればよいですか?

私は自分の仕事で多くの HTML 解析を行っています。これまでは、解析とブラウザーの自動化に HtmlUnit ヘッドレス ブラウザーを使用していました。

ここで、両方のタスクを分離したいと思います。

HtmlUnit では最初にページをロードし、次にソースを取得して解析するのに時間がかかるため、軽い HTML パーサーを使用したいと考えています。

どの HTML パーサーが HTML を効率的に解析できるか知りたいです。私は欲しい

  1. スピード
  2. 「id」、「name」、または「tag type」によって HtmlElement を簡単に見つけることができます。

汚れた HTML コードをきれいにしなくても、私にとっては問題ありません。HTML ソースをきれいにする必要はありません。HtmlElements 間を移動し、そこからデータを収集する最も簡単な方法が必要なだけです。

0 投票する
1 に答える
1788 参照

html-parsing - HtmlAgility Pack を使用して特定のフォームから入力を取得するにはどうすればよいですか? 言語: C#.net

コードは、この問題を私よりもはるかにうまく説明できます。これを行うために試みた別の方法も含めました。可能であれば、これらの他の方法も機能しなかった理由を説明してください。残念ながら、HtmlAgilityPack の例はあまりありません。私は現在、より多くのアイデアを探してドキュメントを調べています。

私が気づいたことの 1 つは .nextSibling プロパティで、次の兄弟またはフォームの終わりが見つからなくなるまで、while ループを使用してフォームを処理できると考えていました。

とにかく、ここにコードがあります: