問題タブ [html-agility-pack]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
xml - 他のノードの後にノードを取得する XPath クエリ
「HtmlAgilityPack」を使用して HTML コンテンツを解析しています。私の目標は、数値を取得することです。
c# - HTMLAgilityPack、HTML重複ID
こんにちは:これはここに似ています。ただし、クライアントレベルではなく、サーバーレベルで実行する必要があります。現在、HTMLAgilityPackを使用していますが、重複するIDを検出できますか?前もって感謝します。
iphone - C/Objective-c/iPhone 向けのソリューションのような「html アジリティ パック」
HTML Agility Pack のような、Objective-C/C 用の強力な HTML パーサーとマニピュレーターが必要です。
誰かが最適な解決策を教えてもらえますか? 1 つの解決策は libxml2 ですが、これは最適とは言えません。
前もって感謝します!
c# - HTML文字列をN個の部分に分割します
(小さなmceエディターからの)html文字列を分割し、C#を使用してN個の部分に分割する例はありますか?
単語を分割せずに文字列を均等に分割する必要があります。
HTMLを分割し、HtmlAgilityPackを使用して壊れたタグを修正することを考えていました。分割点を見つける方法はわかりませんが、理想的には、htmlではなくテキストに基づいたものにする必要があります。
誰かがこれについてどうやって行くかについて何かアイデアを持っていますか?
アップデート
要求に応じて、ここに入力と目的の出力の例を示します。
入力:
出力(3列に分割した場合):
更新2:
Tidy HTMLを試してみたところ、壊れたタグを修正するのにうまくいくようです。分割されたパイントを見つける方法を見つけることができれば、これは良いオプションかもしれません。
更新3
.NET C#の単語全体でこの文字列を切り捨てるのと同様の方法を使用して、各部分を構成するプレーンテキストの単語のリストを取得することができました。つまり、Tidy HTMLを使用すると、htmlの有効なXML構造があり、この単語のリストが与えられた場合、それを分割するための最良の方法が何であるかについて誰かが考えました。
更新4
正規表現を使用してHTMLのインデックスを次のように検索する際の問題を誰かが確認できますか?
プレーンテキストの文字列"sitamet、consectetur"が与えられた場合、すべてのスペースを正規表現 "(\ s | <(。| \ n)+?>)*"に置き換え、理論的にはスペースやスペースの任意の組み合わせでその文字列を見つけます。タグ
次に、Tidy HTMLを使用して壊れたhtmlタグを修正できますか?
どうもありがとう
マット
c# - HTML Agility Pack にはアンマネージ コードが含まれていますか? その場合、アプリケーションで問題が発生しますか?
HTML Agility Pack にはアンマネージ コードが含まれていますか? その場合、アプリケーションでアンマネージ コードを使用すると問題が発生しますか?
c# - HTML敏捷性パックを使用してクラスでリンクを取得する
クラスaltにはたくさんのtrがあります。すべてのリンク(または最後の最初のリンク)を取得したいのですが、htmlアジリティパックを使用する方法がわかりません。
のバリアントを試しましたが、すべてのリンクのみを取得するか、まったく取得しません。私がn.SelectNodesを書いているので、それは意味をなさないノードで1つだけを取得するようには見えません
.net - HTML アジリティ パックを使用した直接の子孫
特定の html ノードがあり、2 番目の別名最後の直系の子孫を取得したいと考えています。だから書いた後、.Descendants("div")
私は書いls.Last()
た。私は実際に2番目の子孫の最後のdivを取得しました。私が期待しているものではありません。直系の子孫だけを取得するにはどうすればよいですか? または、特定のクラス名を持つ子孫を取得するにはどうすればよいですか? 「div.postBody」が適切な代替手段になるためです。
c# - HtmlAgilityPack を使用して特定の DIV 内のアイテムのみを選択する
HtmlAgilityPack を使用して、次のように宣言された div 内に含まれるページからすべてのリンクを取得しようとしていますが、<div class='content'>
以下のコードを使用すると、ページ全体のすべてのリンクを取得するだけです。以前に選択したサブノードから SelectNodes を呼び出しているため、これはあまり意味がありません (デバッガーで表示すると、その特定の div の HTML のみが表示されます)。つまり、SelectNodes を呼び出すたびに、まさにルート ノードに戻るようなものです。私が使用するコードは以下のとおりです。
これは予想される動作ですか?もしそうなら、どうすれば私が期待していることをすることができますか?
c# - アプリケーションでnotepad++exeを使用できますか?
htmlファイルからテーブルデータを抽出するために、htmlアジリティパックを使用してhtmlファイルを解析しています。ただし、オプションの終了タグがない、またはオプションの開始タグがないhtmlファイルがいくつかあるため、htmlアジリティパックはそのhtmlページを適切に解析しません。そのhtmlファイルのコンテンツをメモ帳++で開くと次に、オプションTestFX-->TestFX HTML Tidy-->TiDy clean document
を使用して、コンテンツをこのように整理します。そして今、このファイルhtmlアジリティパックで解析すると、適切に解析されます。
notepad++でhtmlページを整理するのが最良のオプションです。
だから私にはわかりませんが、ユーザーは最初にメモ帳++でページを整理してから先に進むようにこれを行うことはできません。それではどうすればよいですか?
編集私はhtmltidypackを使用しましたが、場合によっては解析されないファイルがありますが、このページをnotepad++で整頓すると解析されます。
.net - HTMLファイルを解析するための.netに組み込みのサポートまたはネイティブライブラリはありますか?
html ファイルからの情報を解析するために html アジリティ パックが使用されるのはなぜですか? html ファイルからの情報を解析するための組み込みまたはネイティブ ライブラリが .net にありませんか? ある場合、組み込みサポートの問題は何ですか? html ファイルからの情報を解析するための組み込みサポートと比較して、html アジリティ パックを使用する利点は何ですか?