問題タブ [html-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - ColdFusion 文字列から HTML タグを削除するにはどうすればよいですか?
ColdFusion 文字列から HTML タグを解析する簡単な方法を探しています。RSS フィードを取り込みますが、そこには何かが含まれている可能性があります。次に、情報の操作を行ってから、別の場所に吐き出します。現在、正規表現でこれを行っています。これを行うより良い方法はありますか?
ColdFusion 8 を使用しています。
java - ページのレイアウトを理解するためにhtmlとcssを解析する方法(java)
htmlとcssのレイアウトを解析して、各html要素にインラインcssを含む単純なhtmlを理解するプロパティ言語に変換できるようにする必要があります。そのようなタスクにどのようにアプローチしますか?
javascript - このデータに一致する正規表現は?
XHTMLドキュメント内に次のものがあります:
2 つのスクリプト タグの間のすべてを選択しようとしています。それid
が役立つ場合は、常に JSBALLOONS になります。スクリプトタグを含めて選択する方法は知っていますが、スクリプトタグを除くコンテンツを選択する方法がわかりません。正規表現の結果は次のようになります。
jquery - jQueryを使用してリモートコンテンツを解析するためのベストプラクティスは何ですか?
XHTMLドキュメント全体を取得するためのjQueryajax呼び出しに続いて、結果の文字列から特定の要素を選択するための最良の方法は何ですか?おそらく、この問題を解決するライブラリまたはプラグインがありますか?
jQueryは、W3C仕様のdivで通常許可されている場合にのみ、文字列に存在するXHTML要素を選択できます。したがって、、、、などを選択することに興味が<title>
あり<script>
ます<style>
。
jQueryのドキュメントによると:
http://docs.jquery.com/Core/jQuery#htmlownerDocument
HTML文字列には、html、head、body、title要素などのdiv内で無効な要素を含めることはできません。
したがって、jQueryはこれを行う方法を提供しないことを確認したので、これらの要素をどのように選択しますか?例として、リモートページのタイトルを選択する方法を教えていただければ、それは完璧です。
ありがとう、ピート
java - Javaはhtml + cssを解析し、出力を別の言語に変換します
私はhtml + cssファイルを理解し、それをJavaのrtf layotのようなものに変換する必要があります.htmlパーサーが必要であることは理解していますが、そこから何をする必要がありますか? どうすれば html-css コンバーターを実装できますか? そのような仕事のためのある種のパターンまたは方法はありますか?
c# - XSLT または Linq to XML の利点
C# での HTML 解析に XSLT または Linq to XML を使用する利点は何ですか? これは、html がクリーンアップされているため、有効な xhtml であることを前提としています。これらの値は最終的に ac# オブジェクトに入り、検証および処理されます。
これらが有効かどうか、また他に考慮すべき点があるかどうかをお知らせください。
XSLT の利点:
- 迅速な変更と導入が容易
- かなり有名
XSLT の欠点:
- コンパイルされていないため、処理が遅くなります
- 文字列操作が面倒
- 最後に C# オブジェクトに入るのがより難しくなります
Linq から XML への利点:
- コンパイルされているため、より高速に実行されます
- より良い文字列操作を可能にします
Linq から XML への欠点:
- 更新のためにコンパイルする必要があります
編集:明確にする必要があります。これらを長期的に実行して、Webサイトがレイアウトを時々更新する可能性があることを望んでいます。それが、コンパイルを必要としないものを使おうと思った大きな理由の 1 つです。
php - HTMLテーブルからデータを抽出するphp正規表現
テーブルからデータを取り出すための正規表現を作成しようとしています。
私が今持っているコードは次のとおりです。
これを次のものに置き換えたい:
quote1:何度も何度も試してみましたか?
引用65:警官のヘルメットを盗むことはない
私がすでに書いたコードはこれです:
しかし今、私は立ち往生しています。
python - cssselectorで奇妙なアイテムを取得するlxml
私のテストドキュメントには、「item」というラベルの付いたクラスがいくつかあります。現在、次を使用して、このクラスでhtmlファイル内のすべてを解析しています
JQueryを使用したjavascriptでこのように、すべての奇妙なアイテムを選択したいと思います
逐語的に試してみると、次のエラーが表示されます
lxml.cssselect.ExpressionError: 疑似クラス Symbol(u'odd', 6) が不明です
これを自分で実装するのは簡単なことだと思いますが、これが lxml でネイティブにサポートされているかどうか疑問に思っていました。
php - PHPを使用してHTMLページのHTMLタグの一部を削除する方法
状況があります。このコードを使用してphpを使用してhtmlページを読みました$body = file_get_contents('index.htm');
index.htmファイルには、以下のようなhtmlコードが含まれています。これは、条件によって削除/依存する必要がある場合があるため、削除する必要がある場合とそうでない場合があります。
PHPを使用してtdタグ間のテーブルセクション全体を削除するにはどうすればよいですか。
perl - 他の HTML ページから抽出された DIV から HTML ページを構築するスクリプト
それぞれが特定の ID を持つ 2 つの DIV 要素を含む一連の HTML レポートを持っています。これらの要素を取り除き、全体的な概要レポート (再び HTML ファイル) にコンパイルする必要があります。
私の最初の考えでは、これは Perl スクリプトにとって理想的な仕事ですが、社内には最新の Perl スキルがありません (私たちは .NET C# ショップです)。
推奨されるアプローチに関する考えや提案は大歓迎です...