問題タブ [html-agility-pack]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
4052 参照

c# - HTMLAgilityPack AppendNode はどのように使用すればよいですか?

金曜日のこの段階で本当に頭が痛くなりました!InsertAfter() を使用して HtmlNode を別のノードに追加しようとしています。コンソールに rpint すると、breadcrumbs の ID を持つ refChild ノードが表示されますが、次のエラーが発生し続けます。

私のコードは次のとおりです。

前述のように、HtmlWrapper と HtmlWrapper.SelectSingleNode("//div[@id='breadcrumb']") の両方をコンソールに出力し、画面にノードを表示できます。ここでどこが間違っているのかについてのアイデアはありますか?

ありがとう、デニス

0 投票する
1 に答える
1191 参照

.net - HtmlAgilityPackを使用してMSWordタグを削除する

MS Wordからいくつかのテキストフィールドが貼り付けられたDBがあり、タグとタグだけを削除するのに問題がありますが、明らかにそれらのinnerTextは保持されています。

HAPを使用してみましたが、正しい方向に進んでいません。

このコードは、必要な要素を選択して削除するだけですが、内部テキストは保持しません。

前もって感謝します

0 投票する
1 に答える
1788 参照

html-parsing - HtmlAgility Pack を使用して特定のフォームから入力を取得するにはどうすればよいですか? 言語: C#.net

コードは、この問題を私よりもはるかにうまく説明できます。これを行うために試みた別の方法も含めました。可能であれば、これらの他の方法も機能しなかった理由を説明してください。残念ながら、HtmlAgilityPack の例はあまりありません。私は現在、より多くのアイデアを探してドキュメントを調べています。

私が気づいたことの 1 つは .nextSibling プロパティで、次の兄弟またはフォームの終わりが見つからなくなるまで、while ループを使用してフォームを処理できると考えていました。

とにかく、ここにコードがあります:

0 投票する
1 に答える
266 参照

html - perl用モジュールライクな「htmlアジリティパック」

"html agility pack"(.net) や perl 用の "Beautiful Soup" のような優れたモジュールを推奨できる人はいますか?

前もって感謝します!

0 投票する
1 に答える
1059 参照

regex - HTML アジリティ パックと正規表現

単純な Web スクレイパー (ルート URL からすべてのリンクを取得し、それらのリンクからすべてのメールを取得) を作成している場合、HTML Agility Pack を使用する価値はありますか? 私は実際に HTML タグを調べているわけではありません。ドキュメント全体から電子メールを探しているだけです。

HTML アジリティ パックを使用する方が効率的でしょうか?

私はこれらの電子メールを持っている必要があり、約 100 のリンクがあるので、それらを厳密に取り除きます。約 500 通の電子メールのみがスクレイピングされます。心配はいりません。ここでは倫理を念頭に置いています。

0 投票する
1 に答える
1762 参照

c# - C#、HTML ページの解析、HTML Agility Pack の使用

この例に従って、LI セクションを見つけることができます。

Html アジリティ パック - 解析 <li>

ただし、「res」の id を持つ div 内に存在する LI アイテムのみが必要です。

それ、どうやったら出来るの?

0 投票する
2 に答える
2720 参照

xpath - XPath「前の兄弟をたどる」

特定の要素 (b) の兄弟に続いているが、別の b 要素の前にある要素 (a) を XPath 1.0 (または Regex を使用している可能性があります) で選択しようとしています。

サンプルをできるだけ現実世界に近づけようとしました。したがって、このシナリオでは、要素にいるとき

選択する必要があります

そして私がいるとき

選択する必要があります

それを達成する方法はありますか?ありがとうございました!

0 投票する
1 に答える
3979 参照

c# - HTML Agility Pack を使用してメタタグとコメントを取得する

HTML Agility Pack の使用に関するチュートリアルを探しましたが、やりたいことはすべて実行できるようですが、このような強力なツールについては、インターネット上でほとんどノイズがないようです。

名前に基づいて特定のタグを取得する簡単なメソッドを作成しています。

これは正規表現を使用して簡単に実行できますが、HTML の解析に正規表現を使用するのは正しくないことは誰もが知っています。これまでのところ、次のコードがあります。

最初に HTML からすべてのコメントを取り除き、次にその名前に基づいて正しいタグを返すことができるようにしたいと考えています。可能であれば、ロボットなどの属性に基づいて特定のメタタグも返したいと思います。私は xpath が得意ではないので、それについて何か助けていただければ幸いです。

どんな助けでも大歓迎です。

0 投票する
2 に答える
378 参照

c# - 組み込みの正規表現クラスまたはパーサー。html ファイルからタグ間のテキストを抽出するには?

c#.net アプリケーションにテーブル コンテンツとその他の情報が含まれる html ファイルがあります。

一部の列のみテーブルの内容を解析したいのですが、html のパーサーまたは.netのRegexのReplaceメソッドを使用する必要がありますか?

パーサーを使用する場合、パーサーの使用方法は? パーサーはタグ間の情報を抽出しますか? はいの場合、どのように使用しますか? 私はパーサーが初めてなので、可能であれば例を示してください。

RegexクラスのReplaceメソッドを使用する場合、そのメソッドで情報を抽出するファイル名を渡す方法は?

編集:htmlファイルのテーブルから情報を抽出したい。そのために、html agility parser をどのように使用できますか? そのパーサーを使用するには、どのタイプのコードを作成する必要がありますか?

0 投票する
2 に答える
24918 参照

c# - null 参照エラーを発生させずに HtmlAgilityPack を使用してフォーム内のすべての入力要素を取得する方法

HTML の例:

テストコード:

このステートメントdoc.GetElementbyId("form2").SelectNodes(".//input")は、null 参照を提供します。

私が間違ったことはありますか?ありがとう。