問題タブ [html-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
5 に答える
109808 参照

c# - HTML Agility パック - テーブルの解析

HTML アジリティ パックを使用して、複雑な Web ページからテーブルを解析したいのですが、どうにかしてオブジェクト モデルに迷っています。

リンクの例を見ましたが、このようにテーブル データが見つかりませんでした。XPath を使用してテーブルを取得できますか? テーブルを取得する方法について、データをロードした後、私は基本的に迷っています。以前に Perl でこれを行ったことがあり、少し不器用でしたが、うまくいきました。( HTML::TableParser)。

また、解析のための正しいオブジェクトの順序に光を当てることができれば幸いです。

0 投票する
7 に答える
4128 参照

java - HTML ファイルでいくつかのタグを検索する方法は?

Javaで少し問題があります。これを行う方法: HTML ファイルでタグ href と src を検索し、そのタグに関連付けられた URL を取得したいと考えています。

それを行う最良の方法は何ですか?

助けてくれてありがとう。よろしくお願いします。

0 投票する
1 に答える
1444 参照

.net - HTMLタグスープから.NET XmlDocumentを生成するライブラリ

無効な HTML コードからクリーンな Xml ツリー (理想的には System.Xml.XmlDocument) を生成できる .NET ライブラリを探しています。IE では、このような状況に直面したときにブラウザーが行うような最善の努力の推測、修復、および置換を行い、偽の XmlDocument を生成する必要があります。また、ライブラリは適切に管理されている必要があります。:)

これは多くの (多すぎる?) 質問であることを認識しており、有益なリードをいただければ幸いです。Java にはかなりの数の実装があるようですが、私はむしろ独自のバインディングを生成したくありません。これまでのところ、.NET については、 http://www.majestic12.co.uk/projects/html_parser.phphttp://users.rcn.com/creitzel/tidy.html#dotnet、およびhttp://sourceforgeを見つけました。 .net/projects/tidyfornet .

私はまだこれらのいずれも構築またはテストしていませんが、(まばらな) ドキュメントとまれな更新から、私が探しているものがあるようには見えません。では、これらの選択肢の中から、または過去の経験から、どのような推奨事項がありますか?

0 投票する
6 に答える
49012 参照

python - Python での HTML の解析

BeautifulSoup や lxml を使用できない場合、HTML を解析するにはどうすればよいですか? SGMLlib を使用するコードがいくつかありますが、それは少し低レベルであり、現在は推奨されていません。

ほとんどの入力がかなりきれいになると確信していますが、不正な形式の HTML を少しでも食い止めることができれば幸いです。

0 投票する
6 に答える
20502 参照

php - HTMLタグから属性を削除するにはどうすればよいですか?

phpを使用して、段落タグなどのタグからすべて/すべての属性を削除するにはどうすればよいですか?

<p class="one" otherrandomattribute="two"><p>

0 投票する
1 に答える
2173 参照

html-parsing - nutch1.0とカスタムプラグインを使用したHTMLデータの解析

私は現在、nutch1.0用のカスタムプラグインを作成しようとしています。このプラグインは、htmlデータを解析し、ドキュメントから関連情報を除外することになっています。基本的なプラグインが機能しています。これはHtmlParserResultオブジェクトを拡張し、解析を実行するたびに実行されます。

私の問題は現在2つの問題に直面しています。

  1. ナッチ構文解析のワークフロー/パイプラインが十分に理解されていません。これに関する情報は、nutchサイトにはありません。

  2. DOM解析がどのように行われるのかわかりません。また、NutchにDOMオブジェクトのセットがあり、HtmlParserプラグインがいくつかのDOM解析を行うことがわかります。それでも、これがどのように最適に行われるのかわかりません。

0 投票する
1 に答える
7341 参照

c# - Html アジリティ パック - 解析
  • シンプルなウェブサイトから事実のリストをスクレイピングしたい. それぞれの事実は<li>タグで囲まれています。Html Agility Pack を使用してこれを行うにはどうすればよいですか? より良いアプローチはありますか?

    <li>タグで囲まれているのは事実だけで、それ以外は何もありません。

    0 投票する
    4 に答える
    21233 参照

    php - dom php パーサーの使い方

    PHP での DOM 解析は初めて
    です。解析しようとしている HTML ファイルがあります。次のような DIV がたくさんあります。

    PHPを使用して、多くのdivボックスの内容を取得しようとしています。DOM パーサーを使用してこれを行うにはどうすればよいですか?

    ありがとう!