問題タブ [html-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - ループスルーPHPを使用する要素
基本的にdivのリストである文字列にhtmlのブロックがあります...各divには、個別に解析したいhtmlが含まれています。
最初のdivをループする方法を正確に理解するのに問題があります。
誰か助けてもらえますか?
htmlの例:
この例では、最終的なコードが4回ループし、各divの内容を提供することを期待しています。
c# - xml タグを html 値に置き換える
私はc#.Netで作業しています
質問があります、
で Xml ファイルを読み込んXDocument.xDoc.Load(file)
でいますが、コンテンツに xml タグもあるために失敗します。
例:<root><abc><deg></abc></root>
私の問題は、関数が一致する " " なしで Xml タグとしてLoad
扱うことです...<deg>
</deg>
私の質問は、「deg」の「<」と「>」を一致する「<
" " >
」に最も簡単な方法で置き換えるにはどうすればよいですか?
注意: 私のファイルは非常に大きく、タグがたくさんあります...
ありがとう!
regex - Google 検索から URL を抽出するために使用できる正規表現は何ですか?
JCLRegEx で Delphi を使用しており、Google 検索からすべての結果 URL を取得したいと考えています。HackingSearch.com を見たところ、正しく見える RegEx の例がありますが、試してみると結果が得られません。
私はそれを次のように使用しています:
正規表現はhackingsearch.comで入手できます。
TPerlRegEx をインストールするたびに 2 つの競合が発生するため、Delphi Jedi バージョンを使用しています...
whitespace - ウェブページのソースに空白を追加して読めるようにする
- 表示している Web ページに興味があります。
- 「view--page source」を使用して、html を含むウィンドウを取得します。
これを切り取ってメモ帳++に貼り付けます。
空白を追加して手動で解析し、読みやすくします。
最後のステップを実行するためのより良い方法はありますか? このプロセスを自動化し、ユーザーにソース ファイルの読み取り可能なバージョンを提供する何かが書かれていることを願っています。
助けてくれてありがとう。
-明細書
java - HTML分析用のJavaライブラリ
(私は同様の質問を見ましたが、それらのどれも私の特定のニーズに応えていないと思います、それ故に...)
実世界の(不完全な、形式の悪い)HTMLを分析するためのJavaライブラリーがあるかどうか知りたいのですが。分析とは、次のようなことを意味します。
- HTMLチャンクで最も目立つ色を見つけ出す
- その色を他の色に変更する(したがって、HTMLの変更もサポートする必要があります)
- 不要なタグの削除
- HTMLを修正して、整形式のHTMLスニペットを作成します
最後の2つの部分は、JerichoやjTidyなどのライブラリによって実行されます。これらの上にある「プラグイン」は素晴らしいでしょう。
前もって感謝します!
html - PHP正規表現:HTMLタグのグループ間の情報を取得しますか?
私はワードアンスクランブラーをプログラミングしてきました。タグのグループと別のグループの間の情報を解析し、すべての一致を配列に入れる必要があります。開始タグは次のとおりです。
終了タグは次のとおりです。
私はいくつかの正規表現を知っていますが、PHPに慣れていません。
c++ - html のテキスト コンテンツのインデックス作成
索引付けの目的で HTML ファイルからテキストを引き出し、できるだけ早くそれを行いたいと考えています。ゼロから作るのではなく、自分がどれだけできているかを知りたいです。
現在、動作する html2text の出力をパイプ処理しているだけですが、Python であることとテキストをきれいにしようとすることの間で、速度が改善される可能性があると確信しています。
では、Linux/unix が優先される場合、この種のタスクに最適な (c/c++) ライブラリはどれでしょうか?
python - GAE の HTML パーサー
通常、HTML 解析のニーズにlxmlを使用しますが、Google App Engine では利用できません。明らかな代替手段はBeautifulSoupですが、不正な形式の HTML では簡単に詰まることがわかりました。現在、 libxml2domをテストしており、より良い結果が得られています。
最高のパフォーマンスを発揮する純粋な Python HTML パーサーはどれですか? 私の優先事項は、速度よりも悪い HTML を処理できることです。
java - JavaでHTMLを効率的に解析するにはどうすればよいですか?
私は自分の仕事で多くの HTML 解析を行っています。これまでは、解析とブラウザーの自動化に HtmlUnit ヘッドレス ブラウザーを使用していました。
ここで、両方のタスクを分離したいと思います。
HtmlUnit では最初にページをロードし、次にソースを取得して解析するのに時間がかかるため、軽い HTML パーサーを使用したいと考えています。
どの HTML パーサーが HTML を効率的に解析できるか知りたいです。私は欲しい
- スピード
- 「id」、「name」、または「tag type」によって HtmlElement を簡単に見つけることができます。
汚れた HTML コードをきれいにしなくても、私にとっては問題ありません。HTML ソースをきれいにする必要はありません。HtmlElements 間を移動し、そこからデータを収集する最も簡単な方法が必要なだけです。
html-parsing - HtmlAgility Pack を使用して特定のフォームから入力を取得するにはどうすればよいですか? 言語: C#.net
コードは、この問題を私よりもはるかにうまく説明できます。これを行うために試みた別の方法も含めました。可能であれば、これらの他の方法も機能しなかった理由を説明してください。残念ながら、HtmlAgilityPack の例はあまりありません。私は現在、より多くのアイデアを探してドキュメントを調べています。
私が気づいたことの 1 つは .nextSibling プロパティで、次の兄弟またはフォームの終わりが見つからなくなるまで、while ループを使用してフォームを処理できると考えていました。
とにかく、ここにコードがあります: