問題タブ [html-agility-pack]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
2250 参照

xss - HTMLアジリティパックを使用してどのようにHTMLエンコードしますか?

誰かがこれをしましたか?基本的に、h1、h2、emなどの基本的なタグを保持してhtmlを使用したい; img および a タグ内のすべての非 http アドレスを消去します。他のすべてのタグを HTMLEncode します。

HTML エンコーディングの部分で行き詰まっています。「node.ParentNode.RemoveChild(node);」を実行するノードを削除することを知っています。node はクラス HtmlNode のオブジェクトです。ただし、ノードを削除する代わりに、HTMLEncode を使用したいと考えています。

0 投票する
1 に答える
1952 参照

ant - TeamCity からアーティファクトをプルするにはどうすればよいですか?

teamcity からアーティファクトを取得したいと思います。

私は c# と HtmlAgilityPack を使用して Web サイトにアクセスし、最新バージョンとその成果物を見つけようとしています。私は現在、ログインで立ち往生しています。セッション Cookie を送信する必要があると思います。

私は正しい方向に進んでいますか、他の誰かがこれを試しましたか?

ビルド スクリプトを使用してファイルをプッシュするのは簡単ですが、これを 100 個のアプリにスケーリングすることを検討しているため、Ant、NAnt ファイルへの変更を最小限に抑えたいと考えています。

編集:この質問は有望に見えます ログインの背後にあるページから HTML を取得する

編集:これは今すぐ機能します。解析するコードを書くだけです

0 投票する
2 に答える
8679 参照

html - HtmlAgilityPack はオプションの終了タグを削除します

HtmlAgilityPack を使用しています。次の文字列を使用して HtmlDocument と LoadHtml を作成します。

これにより、いくつかの予期しないことが行われます。まず、EndTagNotRequired という 2 つのパーサー エラーが発生します。次に、選択ノードには 4 つの子があります。2 つはオプション タグ用で、もう 2 つはオプション タグの内部テキスト用です。最後に、OuterHtml は次のようになります。

したがって、基本的には、オプションの終了タグを削除することを決定しています。そうすることが適切で望ましいかどうかは、しばらく脇に置いておきます。HtmlAgilityPack を使用して HTML 生成コードをテストしているため、HTML が本当に不正な形式でない限り、判断を下したり、エラーを発生させたりしたくありません。私が望むように動作させる方法はありますか?具体的には、HtmlDocument のいくつかのオプションを設定してみました。

これは機能していません。HtmlAgilityPack が私が望むことを実行できない場合、できることをお勧めできますか?

0 投票する
7 に答える
23541 参照

c# - HTML Agility Pack を使用した属性値の選択

HTMLアジリティパックとこのxpathを使用して、HTMLドキュメントから特定の画像を取得しようとしています:

私が見る限り、それは src-attribute を見つけますが、img-tag を返します。何故ですか?

InnerHtml/InnerText または何かが設定されていることを期待しますが、どちらも空の文字列です。OuterHtml は完全な img タグに設定されます。

Html Agility Pack のドキュメントはありますか?

0 投票する
2 に答える
1077 参照

c# - HtmlAgility HtmlDocument で一致する Raw Html のノードを見つける

私は現在、一致する ID を持つタグの検索に基づいて HTML ファイルを検索および編集するプログラムを持っています。

InnerHtml に一致するタグを見つけるように拡張したいと思います (大文字と小文字は無視されます)。

これを行うために Html Agility を使用する良い方法は何ですか? プログラムの残りの部分で使用されているため、Html Agility を使用して実行したいと思います。

ありがとう。

0 投票する
5 に答える
109808 参照

c# - HTML Agility パック - テーブルの解析

HTML アジリティ パックを使用して、複雑な Web ページからテーブルを解析したいのですが、どうにかしてオブジェクト モデルに迷っています。

リンクの例を見ましたが、このようにテーブル データが見つかりませんでした。XPath を使用してテーブルを取得できますか? テーブルを取得する方法について、データをロードした後、私は基本的に迷っています。以前に Perl でこれを行ったことがあり、少し不器用でしたが、うまくいきました。( HTML::TableParser)。

また、解析のための正しいオブジェクトの順序に光を当てることができれば幸いです。

0 投票する
1 に答える
1444 参照

.net - HTMLタグスープから.NET XmlDocumentを生成するライブラリ

無効な HTML コードからクリーンな Xml ツリー (理想的には System.Xml.XmlDocument) を生成できる .NET ライブラリを探しています。IE では、このような状況に直面したときにブラウザーが行うような最善の努力の推測、修復、および置換を行い、偽の XmlDocument を生成する必要があります。また、ライブラリは適切に管理されている必要があります。:)

これは多くの (多すぎる?) 質問であることを認識しており、有益なリードをいただければ幸いです。Java にはかなりの数の実装があるようですが、私はむしろ独自のバインディングを生成したくありません。これまでのところ、.NET については、 http://www.majestic12.co.uk/projects/html_parser.phphttp://users.rcn.com/creitzel/tidy.html#dotnet、およびhttp://sourceforgeを見つけました。 .net/projects/tidyfornet .

私はまだこれらのいずれも構築またはテストしていませんが、(まばらな) ドキュメントとまれな更新から、私が探しているものがあるようには見えません。では、これらの選択肢の中から、または過去の経験から、どのような推奨事項がありますか?

0 投票する
4 に答える
7412 参照

html-agility-pack - HTMLAgilityPack で画像タグが閉じない

HTMLAgilityPack を使用して新しいイメージ ノードを書き出すと、イメージの終了タグが削除されているように見えます。

これはxhtmlを壊します。

0 投票する
2 に答える
125 参照

c# - Web ページの大規模なグループを変換する最良の方法は?

非常によく似た大量の Web ページをプログラムで新しい CSS ベースのレイアウトに変換する最良の方法は何ですか?

古い W​​eb サイトのすべてのコンテンツを新しい CSS ベースのレイアウトに変更しています。多くのページは非常に似ているため、プロセスを自動化できるようにしたいと考えています。

私が現在考えているのは、HtmlAgilityPack を使用してページを読み取り、出力テキストを作成する同様のページのグループごとにメソッドを作成することです。

これを行うための最良の方法は何だと思いますか? ページは主に、画像に使用されている .jpg ファイルや、特定のページにある見出し画像テキストのグループの数などによって異なります。

編集: .html 以外のファイル タイプを使用することはできません。それが許可されているためです。助言がありますか?

EDIT2: 理想的には、いくつかの可動部分を切り替えるだけで、HTML ファイルのさまざまなグループに使用できるように、これを十分に一般的なものにすることもできます。

0 投票する
7 に答える
379958 参照

c# - HTMLアジリティパックの使い方

HTML Agility Packの使用方法を教えてください。

XHTML ドキュメントが完全に有効ではありません。だからこそ使いたかった。プロジェクトでどのように使用するのですか? 私のプロジェクトは C# です。