問題タブ [html-agility-pack]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
xss - HTMLアジリティパックを使用してどのようにHTMLエンコードしますか?
誰かがこれをしましたか?基本的に、h1、h2、emなどの基本的なタグを保持してhtmlを使用したい; img および a タグ内のすべての非 http アドレスを消去します。他のすべてのタグを HTMLEncode します。
HTML エンコーディングの部分で行き詰まっています。「node.ParentNode.RemoveChild(node);」を実行するノードを削除することを知っています。node はクラス HtmlNode のオブジェクトです。ただし、ノードを削除する代わりに、HTMLEncode を使用したいと考えています。
ant - TeamCity からアーティファクトをプルするにはどうすればよいですか?
teamcity からアーティファクトを取得したいと思います。
私は c# と HtmlAgilityPack を使用して Web サイトにアクセスし、最新バージョンとその成果物を見つけようとしています。私は現在、ログインで立ち往生しています。セッション Cookie を送信する必要があると思います。
私は正しい方向に進んでいますか、他の誰かがこれを試しましたか?
ビルド スクリプトを使用してファイルをプッシュするのは簡単ですが、これを 100 個のアプリにスケーリングすることを検討しているため、Ant、NAnt ファイルへの変更を最小限に抑えたいと考えています。
編集:この質問は有望に見えます ログインの背後にあるページから HTML を取得する
編集:これは今すぐ機能します。解析するコードを書くだけです
html - HtmlAgilityPack はオプションの終了タグを削除します
HtmlAgilityPack を使用しています。次の文字列を使用して HtmlDocument と LoadHtml を作成します。
これにより、いくつかの予期しないことが行われます。まず、EndTagNotRequired という 2 つのパーサー エラーが発生します。次に、選択ノードには 4 つの子があります。2 つはオプション タグ用で、もう 2 つはオプション タグの内部テキスト用です。最後に、OuterHtml は次のようになります。
したがって、基本的には、オプションの終了タグを削除することを決定しています。そうすることが適切で望ましいかどうかは、しばらく脇に置いておきます。HtmlAgilityPack を使用して HTML 生成コードをテストしているため、HTML が本当に不正な形式でない限り、判断を下したり、エラーを発生させたりしたくありません。私が望むように動作させる方法はありますか?具体的には、HtmlDocument のいくつかのオプションを設定してみました。
これは機能していません。HtmlAgilityPack が私が望むことを実行できない場合、できることをお勧めできますか?
c# - HTML Agility Pack を使用した属性値の選択
HTMLアジリティパックとこのxpathを使用して、HTMLドキュメントから特定の画像を取得しようとしています:
私が見る限り、それは src-attribute を見つけますが、img-tag を返します。何故ですか?
InnerHtml/InnerText または何かが設定されていることを期待しますが、どちらも空の文字列です。OuterHtml は完全な img タグに設定されます。
Html Agility Pack のドキュメントはありますか?
c# - HtmlAgility HtmlDocument で一致する Raw Html のノードを見つける
私は現在、一致する ID を持つタグの検索に基づいて HTML ファイルを検索および編集するプログラムを持っています。
InnerHtml に一致するタグを見つけるように拡張したいと思います (大文字と小文字は無視されます)。
これを行うために Html Agility を使用する良い方法は何ですか? プログラムの残りの部分で使用されているため、Html Agility を使用して実行したいと思います。
ありがとう。
c# - HTML Agility パック - テーブルの解析
HTML アジリティ パックを使用して、複雑な Web ページからテーブルを解析したいのですが、どうにかしてオブジェクト モデルに迷っています。
リンクの例を見ましたが、このようにテーブル データが見つかりませんでした。XPath を使用してテーブルを取得できますか? テーブルを取得する方法について、データをロードした後、私は基本的に迷っています。以前に Perl でこれを行ったことがあり、少し不器用でしたが、うまくいきました。( HTML::TableParser
)。
また、解析のための正しいオブジェクトの順序に光を当てることができれば幸いです。
.net - HTMLタグスープから.NET XmlDocumentを生成するライブラリ
無効な HTML コードからクリーンな Xml ツリー (理想的には System.Xml.XmlDocument) を生成できる .NET ライブラリを探しています。IE では、このような状況に直面したときにブラウザーが行うような最善の努力の推測、修復、および置換を行い、偽の XmlDocument を生成する必要があります。また、ライブラリは適切に管理されている必要があります。:)
これは多くの (多すぎる?) 質問であることを認識しており、有益なリードをいただければ幸いです。Java にはかなりの数の実装があるようですが、私はむしろ独自のバインディングを生成したくありません。これまでのところ、.NET については、 http://www.majestic12.co.uk/projects/html_parser.phpとhttp://users.rcn.com/creitzel/tidy.html#dotnet、およびhttp://sourceforgeを見つけました。 .net/projects/tidyfornet .
私はまだこれらのいずれも構築またはテストしていませんが、(まばらな) ドキュメントとまれな更新から、私が探しているものがあるようには見えません。では、これらの選択肢の中から、または過去の経験から、どのような推奨事項がありますか?
html-agility-pack - HTMLAgilityPack で画像タグが閉じない
HTMLAgilityPack を使用して新しいイメージ ノードを書き出すと、イメージの終了タグが削除されているように見えます。
これはxhtmlを壊します。
c# - Web ページの大規模なグループを変換する最良の方法は?
非常によく似た大量の Web ページをプログラムで新しい CSS ベースのレイアウトに変換する最良の方法は何ですか?
古い Web サイトのすべてのコンテンツを新しい CSS ベースのレイアウトに変更しています。多くのページは非常に似ているため、プロセスを自動化できるようにしたいと考えています。
私が現在考えているのは、HtmlAgilityPack を使用してページを読み取り、出力テキストを作成する同様のページのグループごとにメソッドを作成することです。
これを行うための最良の方法は何だと思いますか? ページは主に、画像に使用されている .jpg ファイルや、特定のページにある見出し画像テキストのグループの数などによって異なります。
編集: .html 以外のファイル タイプを使用することはできません。それが許可されているためです。助言がありますか?
EDIT2: 理想的には、いくつかの可動部分を切り替えるだけで、HTML ファイルのさまざまなグループに使用できるように、これを十分に一般的なものにすることもできます。
c# - HTMLアジリティパックの使い方
HTML Agility Packの使用方法を教えてください。
XHTML ドキュメントが完全に有効ではありません。だからこそ使いたかった。プロジェクトでどのように使用するのですか? 私のプロジェクトは C# です。