問題タブ [html-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
13023 参照

php - PHPを使用してhtmlタグ間のすべてを照合する

$contentという変数で次を返すスクリプトがあります

ただし、matchesと呼ばれる配列内のbodyタグの間にすべてを配置する必要があります

bodyタグ間の内容を一致させるために次のことを行います

しかし、$ mathces配列は空です。どうすれば、bodyタグ内のすべてを返すことができますか?

0 投票する
1 に答える
986 参照

xml - XPath を使用して次のリンクを選択する

「現在のページ」としてマークされているもの (例では #notimportant/2) の直後にある html ベローのアンカー タグの href 属性を取得するには、XPath 式を記述する必要があります。

//a[@class='current-page']/../next-sibling-of-first-node/@href のようなものから始めることを考えましたが、ここで立ち往生しています...

誰でもこれで私を助けることができますか?私はグーグルで検索しましたが、XPath は私のお気に入りのスキルではありません (いや、jQuery は使用できません。これは Web アプリケーションではありません)。

0 投票する
1 に答える
351 参照

html - ローカルの.htmlファイルの文字列をテーブルビューセルにロードします

iPhoneOS開発

UITableViewセルの名前を、ローカルの「file.html」ファイルから取得した文字列に設定する必要があります。HTMLを解析する必要があることはわかっていますが、現時点では心配していません。

誰かがhtmlファイルのテキストの最初の行を設定してNSString変数に設定する簡単なコードを見せてくれれば、残りの部分を理解できると思います。

助けてくれて本当に感謝しています。ありがとう。

0 投票する
6 に答える
4536 参照

php - CodeIgniter:Webページからメタタグを取得するのに役立つクラス/ライブラリ?

私はcodeigniterを使用しています。使用しているphpフレームワークは関係ないと思います。

しかし、私が自分のクラスを書く前に、ユーザーが任意の場所のページタイトルとメタタグ(キーワード、説明)を取得できるようにする、すでに作成されている別のクラスがあります...もしあれば。

それを行うあらゆる種類のPHPクラスは素晴らしいでしょう。

皆さんありがとう

0 投票する
3 に答える
427 参照

php - JavaのようなPHP用のHTMLパーサー

私は、Jericho、NekoHtmlなどのさまざまなhtmlパーサーを使用してWebページのhtmlソースコードを解析するJavaプログラムを開発してきました...

今度はPHP言語でパーサーを開発したいと思います。したがって、始める前に、PHPでhtmlコードを解析するために使用できるhtmlパーサーがあることを知りたいと思います。

0 投票する
2 に答える
1698 参照

php - PHP DOMDocument、特定の要素を見つける

PHP DOMDocument を使用して、HTML ドキュメント内の特定の要素の特定の属性を探しています。

具体的には、一意のクラスが設定された div があり、その中にスパンが 1 つだけあります。そのスパン要素のスタイル属性を取得する必要があります。

例:

この例では、uniqueClass がドキュメント内のそのクラスの唯一のインスタンスであるため、文字列を取得する必要があります。

テキスト整列: 中央;

0 投票する
1 に答える
596 参照

html - j2mereadinghtmlはWTKとデバイスで異なります

J2MEでモバイルアプリケーションを構築しましたが、Webサイトからデータを読み取ります。WTK(ワイヤレスツールキット)ではすべてが機能するようになりましたが、モバイル(nokia)デバイスでsamenアプリをテストすると、動作が異なります。別の種類のhtmlが返されます。タグは表示されません<hr>が、<hr/>タグが表示されます。

私が読み込もうとしているリモートWebサイトは、クライアントごとに動作が異なる可能性がありますが、そうではないと思います。

これは何でしょうか?クライアントごとに異なるエンコーディングタイプなど?私はこれに精通していません。

0 投票する
1 に答える
1244 参照

c# - HTML Agility Packを使用して一部(またはすべて)のHTML要素や属性を削除するにはどうすればよいですか?

HTML Agility Packを使用して、 HTMLのblobからすべてのHTML属性、要素などを削除し、メモ帳に貼り付けたかのようにするにはどうすればよいですか?

さらに、すべてのフォーマットを削除する必要がありますが、UL/LIタグとBタグを保持する必要があります。

0 投票する
1 に答える
3979 参照

c# - HTML Agility Pack を使用してメタタグとコメントを取得する

HTML Agility Pack の使用に関するチュートリアルを探しましたが、やりたいことはすべて実行できるようですが、このような強力なツールについては、インターネット上でほとんどノイズがないようです。

名前に基づいて特定のタグを取得する簡単なメソッドを作成しています。

これは正規表現を使用して簡単に実行できますが、HTML の解析に正規表現を使用するのは正しくないことは誰もが知っています。これまでのところ、次のコードがあります。

最初に HTML からすべてのコメントを取り除き、次にその名前に基づいて正しいタグを返すことができるようにしたいと考えています。可能であれば、ロボットなどの属性に基づいて特定のメタタグも返したいと思います。私は xpath が得意ではないので、それについて何か助けていただければ幸いです。

どんな助けでも大歓迎です。

0 投票する
1 に答える
3363 参照

.net - HTML ページを XML としてロード中

これを使用して、XML で HTML ページを読み込みます

または

しかし、次のようなエラーが発生しました:

  • Expecting an internal subset or the end of the DOCTYPE declaration. Line 2, position 14;
  • '>' is an unexpected token. The expected token is '"' or '''. Line 1, position 62;
  • Expecting an internal subset or the end of the DOCTYPE declaration. Line 5, position 20.

これらのエラーはすべて、1 つを解決したときに発生し、別のエラーが表示されます。

このファイルをロードするのに最適な方法を使用していますか、それとも別の方法がありますか?