“html-agility-pack”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

521 参照

xml - 他のノードの後にノードを取得する XPath クエリ

「HtmlAgilityPack」を使用して HTML コンテンツを解析しています。私の目標は、数値を取得することです。

2010-04-20T13:07:50.197

0 投票する

1 に答える

522 参照

c# - HTMLAgilityPack、HTML重複ID

こんにちは：これはここに似ています。ただし、クライアントレベルではなく、サーバーレベルで実行する必要があります。現在、HTMLAgilityPackを使用していますが、重複するIDを検出できますか？前もって感謝します。

c#html html-agility-pack

2010-04-22T18:20:31.000

0 投票する

1 に答える

3110 参照

iphone - C/Objective-c/iPhone 向けのソリューションのような「html アジリティパック」

HTML Agility Pack のような、Objective-C/C 用の強力な HTML パーサーとマニピュレーターが必要です。

誰かが最適な解決策を教えてもらえますか? 1 つの解決策は libxml2 ですが、これは最適とは言えません。

前もって感謝します！

iphone c objective-c html-agility-pack html-parser

2010-04-26T09:06:34.317

0 投票する

2 に答える

5252 参照

c# - HTML文字列をN個の部分に分割します

（小さなmceエディターからの）html文字列を分割し、C＃を使用してN個の部分に分割する例はありますか？

単語を分割せずに文字列を均等に分割する必要があります。

HTMLを分割し、HtmlAgilityPackを使用して壊れたタグを修正することを考えていました。分割点を見つける方法はわかりませんが、理想的には、htmlではなくテキストに基づいたものにする必要があります。

誰かがこれについてどうやって行くかについて何かアイデアを持っていますか？

アップデート

要求に応じて、ここに入力と目的の出力の例を示します。

入力：

出力（3列に分割した場合）：

更新2：

Tidy HTMLを試してみたところ、壊れたタグを修正するのにうまくいくようです。分割されたパイントを見つける方法を見つけることができれば、これは良いオプションかもしれません。

更新3

.NET C＃の単語全体でこの文字列を切り捨てるのと同様の方法を使用して、各部分を構成するプレーンテキストの単語のリストを取得することができました。つまり、Tidy HTMLを使用すると、htmlの有効なXML構造があり、この単語のリストが与えられた場合、それを分割するための最良の方法が何であるかについて誰かが考えました。

更新4

正規表現を使用してHTMLのインデックスを次のように検索する際の問題を誰かが確認できますか？

プレーンテキストの文字列"sitamet、consectetur"が与えられた場合、すべてのスペースを正規表現 "（\ s | <（。| \ n）+？>）*"に置き換え、理論的にはスペースやスペースの任意の組み合わせでその文字列を見つけます。タグ

次に、Tidy HTMLを使用して壊れたhtmlタグを修正できますか？

どうもありがとう

マット

c#regex html-agility-pack htmltidy

2010-05-01T13:41:11.873

0 投票する

3 に答える

197 参照

c# - HTML Agility Pack にはアンマネージコードが含まれていますか? その場合、アプリケーションで問題が発生しますか?

HTML Agility Pack にはアンマネージコードが含まれていますか? その場合、アプリケーションでアンマネージコードを使用すると問題が発生しますか?

c#html-agility-pack

2010-05-10T05:18:42.897

0 投票する

2 に答える

14743 参照

c# - HTML敏捷性パックを使用してクラスでリンクを取得する

クラスaltにはたくさんのtrがあります。すべてのリンク（または最後の最初のリンク）を取得したいのですが、htmlアジリティパックを使用する方法がわかりません。

のバリアントを試しましたが、すべてのリンクのみを取得するか、まったく取得しません。私がn.SelectNodesを書いているので、それは意味をなさないノードで1つだけを取得するようには見えません

c#html-agility-pack

user34537

2010-05-18T13:55:44.380

0 投票する

1 に答える

2210 参照

.net - HTML アジリティパックを使用した直接の子孫

特定の html ノードがあり、2 番目の別名最後の直系の子孫を取得したいと考えています。だから書いた後、.Descendants("div")私は書いls.Last()た。私は実際に2番目の子孫の最後のdivを取得しました。私が期待しているものではありません。直系の子孫だけを取得するにはどうすればよいですか? または、特定のクラス名を持つ子孫を取得するにはどうすればよいですか? 「div.postBody」が適切な代替手段になるためです。

.net html-agility-pack

user34537

2010-05-18T16:24:43.470

0 投票する

1 に答える

18868 参照

c# - HtmlAgilityPack を使用して特定の DIV 内のアイテムのみを選択する

HtmlAgilityPack を使用して、次のように宣言された div 内に含まれるページからすべてのリンクを取得しようとしていますが、<div class='content'>以下のコードを使用すると、ページ全体のすべてのリンクを取得するだけです。以前に選択したサブノードから SelectNodes を呼び出しているため、これはあまり意味がありません (デバッガーで表示すると、その特定の div の HTML のみが表示されます)。つまり、SelectNodes を呼び出すたびに、まさにルートノードに戻るようなものです。私が使用するコードは以下のとおりです。

これは予想される動作ですか？もしそうなら、どうすれば私が期待していることをすることができますか？

c#html-agility-pack

2010-05-20T15:38:42.190

0 投票する

3 に答える

1962 参照

c# - アプリケーションでnotepad++exeを使用できますか？

htmlファイルからテーブルデータを抽出するために、htmlアジリティパックを使用してhtmlファイルを解析しています。ただし、オプションの終了タグがない、またはオプションの開始タグがないhtmlファイルがいくつかあるため、htmlアジリティパックはそのhtmlページを適切に解析しません。そのhtmlファイルのコンテンツをメモ帳++で開くと次に、オプションTestFX-->TestFX HTML Tidy-->TiDy clean documentを使用して、コンテンツをこのように整理します。そして今、このファイルhtmlアジリティパックで解析すると、適切に解析されます。

notepad++でhtmlページを整理するのが最良のオプションです。

だから私にはわかりませんが、ユーザーは最初にメモ帳++でページを整理してから先に進むようにこれを行うことはできません。それではどうすればよいですか？

編集私はhtmltidypackを使用しましたが、場合によっては解析されないファイルがありますが、このページをnotepad++で整頓すると解析されます。

c#winforms notepad++html-agility-pack htmltidy

2010-05-21T12:09:58.000

0 投票する

2 に答える

155 参照

.net - HTMLファイルを解析するための.netに組み込みのサポートまたはネイティブライブラリはありますか?

html ファイルからの情報を解析するために html アジリティパックが使用されるのはなぜですか? html ファイルからの情報を解析するための組み込みまたはネイティブライブラリが .net にありませんか? ある場合、組み込みサポートの問題は何ですか? html ファイルからの情報を解析するための組み込みサポートと比較して、html アジリティパックを使用する利点は何ですか?

.net winforms html-parsing html-agility-pack

2010-05-27T10:13:54.363

問題タブ [html-agility-pack]

Reference