問題タブ [html-agility-pack]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - 不正な形式のhtmlで問題を引き起こすHtmlAgilityPack
htmlドキュメントから意味のあるテキストを抽出したいのですが、同じようにhtml-agility-packを使用していました。これが私のコードです:
ConvertHtml:
に変換:
これで、htmlページの形式が正しくない場合があります(たとえば、次のページ-http ://rareseeds.com/cart/products/Purple_of_Romagna_Artichoke-646-72.htmlには次のような形式の悪いメタタグがあります<meta content="text/html; charset=uft-8" http-equiv="Content-Type">
)[代わりに「uft」に注意してくださいof utf] htmlドキュメントを読み込もうとしているときに、コードが壊れています。
誰かが私にこれらの不正な形式のhtmlページを克服し、それでもhtmlドキュメントから関連するテキストを抽出する方法を提案できますか?
ありがとう、カピル
c# - HTMLAgility Pack を使用してリンクを抽出する
次の最も単純なコードを考えてみましょう。
これは事実上何もせず、このような他のさまざまな StackOverflow の質問からコピー/インスピレーションを受けています。これをコンパイルすると、「オブジェクト参照がオブジェクトのインスタンスに設定されていません」という実行時エラーが発生します。foreach 行を強調表示します。
この謙虚で無邪気で役に立たないコードに対して、なぜ環境がいらいらするようになったのか、私には理解できません。
また、HTMLAgilityPack は HTML クラスをノードとして受け入れますか?
c# - HTMLAGILITY パックを使用して、特定の属性を持つテーブル行を抽出する
次のコードを検討してください。
最初の行でリンクを抽出する HTMLAgility パックを使用してコードを書きたいと思います。
foreach(var link in links)
try ブロック内にステートメント/ループを挿入しようとすると、実行時エラーがスローされます。
c# - XPATH クエリ、HtmlAgilityPack、およびテキストの抽出
「tim_new」というクラスからリンクを抽出しようとしていました。私も解決策を与えられました。
ソリューション、スニペット、および必要な情報の両方がここに記載されています
上記の XPATH クエリは でした"//a[@class='tim_new']
。私の質問は、このクエリがスニペットの最初の行 (上記のリンクとスニペットの 2 行目) をどのように区別したかです。
より具体的には、この XPATH クエリの直訳 (英語) は何ですか。
さらに、書かれたテキストを抽出するための数行のコードを書きたいNSE:
必要な選択クエリを作成する際に助けていただければ幸いです。
私のコードは次のように書かれています:
しかし、これは正しく見えません。助けていただければ幸いです。
c# - Html アジリティ パックの使用方法
Html Agility Pack を使用してすべての HTML タグを選択し、それをリストに配置して、Web ページで使用可能なすべてのタグを表示するにはどうすればよいですか。
ありがとう、
ジェペ
c# - HTML AGILity パックのノード内で innerText を取得する方法..?
「コンテンツ」のみが必要です。つまり、との間<a>
に存在します<strong>
c# - この XPATH クエリはどのように区別されますか?
主に私自身の無知のために、内部を完全に理解できなかったため、この質問を繰り返しています。
この HTML スニペットを考えると
//a[@class='tim_new']
この XPATHは、行 1 と行 2 をどのように区別しますか。
c# - タイプ 'string' を 'HtmlAgilityPack.HtmlDocument' に変換できませんか?
ダウンロードした文字列を有効な HtmlDocument に変換して、HTMLAgilityPack を使用して解析できるようにするにはどうすればよいですか?
c# - HTMLAgilityPack を使用して Div から抽出するにはどうすればよいですか?
初めてライブラリの使い方を学んでいるので、助けてほしい。
HTMLDocument のどこかにこれがあるとします。
スパン div ではなく、カサブランカのテキストだけを抽出するにはどうすればよいですか?
また、HtmlNode.InnerText は Div 内のテキストであると考えるのは正しいですか?
c# - HTML Agility Packを使用してタグ内のすべてのコンテンツを取得するにはどうすればよいですか?
だから私は少し画面スクレイピングを行うアプリケーションを書いています。HTML Agility Packを使用して、HTMLページ全体をHtmlDocoument
呼び出されたのインスタンスにロードしていますdoc
。今、私はこれを探して、そのドキュメントを解析したいと思います:
したがって、2行目のデータを取得する必要があります。これどうやってするの?正規表現などを使用する必要がありますか?
更新:これが私のロード方法ですdoc