問題タブ [html-parsing]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

5774 問題

0 投票する

5 に答える

109808 参照

c# - HTML Agility パック - テーブルの解析

HTML アジリティパックを使用して、複雑な Web ページからテーブルを解析したいのですが、どうにかしてオブジェクトモデルに迷っています。

リンクの例を見ましたが、このようにテーブルデータが見つかりませんでした。XPath を使用してテーブルを取得できますか? テーブルを取得する方法について、データをロードした後、私は基本的に迷っています。以前に Perl でこれを行ったことがあり、少し不器用でしたが、うまくいきました。( HTML::TableParser)。

また、解析のための正しいオブジェクトの順序に光を当てることができれば幸いです。

c#html html-parsing html-agility-pack

weismat

2009-03-17T19:00:18.700

0 投票する

7 に答える

4128 参照

java - HTML ファイルでいくつかのタグを検索する方法は?

Javaで少し問題があります。これを行う方法: HTML ファイルでタグ href と src を検索し、そのタグに関連付けられた URL を取得したいと考えています。

それを行う最良の方法は何ですか？

助けてくれてありがとう。よろしくお願いします。

java html html-parsing

arpf

2009-03-23T10:01:47.337

0 投票する

1 に答える

1444 参照

.net - HTMLタグスープから.NET XmlDocumentを生成するライブラリ

無効な HTML コードからクリーンな Xml ツリー (理想的には System.Xml.XmlDocument) を生成できる .NET ライブラリを探しています。IE では、このような状況に直面したときにブラウザーが行うような最善の努力の推測、修復、および置換を行い、偽の XmlDocument を生成する必要があります。また、ライブラリは適切に管理されている必要があります。:)

これは多くの (多すぎる?) 質問であることを認識しており、有益なリードをいただければ幸いです。Java にはかなりの数の実装があるようですが、私はむしろ独自のバインディングを生成したくありません。これまでのところ、.NET については、 http://www.majestic12.co.uk/projects/html_parser.phpとhttp://users.rcn.com/creitzel/tidy.html#dotnet、およびhttp://sourceforgeを見つけました。 .net/projects/tidyfornet .

私はまだこれらのいずれも構築またはテストしていませんが、(まばらな) ドキュメントとまれな更新から、私が探しているものがあるようには見えません。では、これらの選択肢の中から、または過去の経験から、どのような推奨事項がありますか?

.net clr html-parsing xmldocument html-agility-pack

Matthew Flaschen

2009-04-01T09:53:21.670

0 投票する

6 に答える

49012 参照

python - Python での HTML の解析

BeautifulSoup や lxml を使用できない場合、HTML を解析するにはどうすればよいですか? SGMLlib を使用するコードがいくつかありますが、それは少し低レベルであり、現在は推奨されていません。

ほとんどの入力がかなりきれいになると確信していますが、不正な形式の HTML を少しでも食い止めることができれば幸いです。

python html-parsing

andybak

2009-04-04T18:11:13.737

0 投票する

6 に答える

20502 参照

php - HTMLタグから属性を削除するにはどうすればよいですか？

phpを使用して、段落タグなどのタグからすべて/すべての属性を削除するにはどうすればよいですか？

<p class="one" otherrandomattribute="two">に<p>

php html-parsing

2009-04-20T21:40:10.310

0 投票する

1 に答える

2173 参照

html-parsing - nutch1.0とカスタムプラグインを使用したHTMLデータの解析

私は現在、nutch1.0用のカスタムプラグインを作成しようとしています。このプラグインは、htmlデータを解析し、ドキュメントから関連情報を除外することになっています。基本的なプラグインが機能しています。これはHtmlParserResultオブジェクトを拡張し、解析を実行するたびに実行されます。

私の問題は現在2つの問題に直面しています。

ナッチ構文解析のワークフロー/パイプラインが十分に理解されていません。これに関する情報は、nutchサイトにはありません。
DOM解析がどのように行われるのかわかりません。また、NutchにDOMオブジェクトのセットがあり、HtmlParserプラグインがいくつかのDOM解析を行うことがわかります。それでも、これがどのように最適に行われるのかわかりません。

html-parsing nutch

2009-04-28T22:13:25.597

0 投票する

1 に答える

7341 参照

c# - Html アジリティパック - 解析

シンプルなウェブサイトから事実のリストをスクレイピングしたい. それぞれの事実は<li>タグで囲まれています。Html Agility Pack を使用してこれを行うにはどうすればよいですか? より良いアプローチはありますか？

<li>タグで囲まれているのは事実だけで、それ以外は何もありません。

c#.net html-parsing html-agility-pack

2009-05-19T07:39:09.130

0 投票する

4 に答える

21233 参照

php - dom php パーサーの使い方

PHP での DOM 解析は初めて
です。解析しようとしている HTML ファイルがあります。次のような DIV がたくさんあります。

PHPを使用して、多くのdivボックスの内容を取得しようとしています。DOM パーサーを使用してこれを行うにはどうすればよいですか?

ありがとう！

php dom html-parsing

2009-06-06T23:55:16.700

1 2 3 4 5 6 7 8 9 10

問題タブ [html-parsing]

Reference