問題タブ [html-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
302 参照

c++ - C++ での HTML 要素の非破壊的な解析と変更

libxml2 や MSHTML を使用するとどうなるかなど、できれば HTML を完全に書き直すことなく、C++ で HTML に簡単な変更を加える必要があります。

特に、すべての「img」要素の「src」属性を読み取り、(潜在的に) 変更できる必要があります。有効な HTML でこれを実行できるように十分に堅牢である必要がありますが、できればプロセス中に他の HTML を変更する必要はありません。

これを処理できるライブラリはありますか?それとも、これは正規表現でできることですか? 私は正規表現にあまり精通していません。ここで、正規表現を使用して HTML を解析するべきではないという多くの質問を読みましたが、それがこのようなものに当てはまるのか、それともその原則が当てはまるのかはわかりません主に、HTML からツリーを構築するコンテキストでの解析に使用されます。

0 投票する
5 に答える
5844 参照

php - HTMLのリンクタグの正規表現

正規表現のサポートが必要です。私が探しているのは、次のようなリンクタグを探す正規表現です。

href = ""の位置に関係なく、link-tagで検索し、$urlという名前の変数をstyle.cssの前に/を付けて配置します。style.cssの前にhttp://またはhttps://が見つかった場合、その前に変数を配置したくありません。

すべてのリンクタグを置き換えてほしい。

0 投票する
1 に答える
572 参照

php - htmlタグ内、またはurlの一部(html外)を除いてstring1をstring2に置き換える正規表現

HTMLの大きなブロックに対して検索および置換操作を実行する必要があります。htmlタグの一部であるもの(urlなど)を変更したくない-htmlタグ以外のurlも変更したくない。html( src )内にない単語を照合するための部分的な解決策があります:

regexバディもこれは同じように一致すると言います:

したがって、あとは、単語がURLのような文字列の一部ではないことを確認するだけです。次のようになります。

これが可能かどうかはわかりません。私の意図は、テキストに存在し、コンテンツのhtmlの一部であるURLを保持しながら、他のものに対する検索と置換の操作を許可することです。

以下に示すように、理想的なソリューションはDOGと一致し、CATに置き換えられます。

効率のためのボーナスポイント、私はほとんど私の知恵の終わりにいます。

0 投票する
3 に答える
3795 参照

regex - HTML スタイル プロパティに一致する正規表現

ここで正規表現マスターが必要です!

上記の HTML を考えると、"float:right" または "float:left" に一致する正規表現パターンが必要ですが、img タグのみです。

前もって感謝します!

0 投票する
12 に答える
20783 参照

php - PHP用のjQueryのようなインターフェース?

HTML/XML ファイルを処理するための PHP 用の jQuery スタイル インターフェイス/ライブラリが存在するかどうか、特に jQuery スタイルセレクターを使用するかどうかについて興味がありました。

私はこのようなことをしたいと思います(すべて仮説です):

これらはほんの一例です。

私はできる限り多くのグーグルをしましたが、探しているものを見つけることができませんでした. これらの線に沿ったものが存在するかどうかを誰かが知っていますか、それともdomxmlを使用して自分でゼロから作成する必要がありますか?

0 投票する
8 に答える
40725 参照

php - HTMLドキュメントのタグを削除するPHP正規表現

次のテキストがあるとします

リンクを削除したいのですが、タグを削除したいです (間にテキストを入れたまま)。正規表現でこれを行うにはどうすればよいですか (URL がすべて異なるため)

どうもありがとう

0 投票する
2 に答える
640 参照

iphone - Web ページを UITableView に変換する

私は持っていて、UITableViewこのページからのデータを入力したい: http://tvgids.mobi/gids/ned1.php

私のコード:

その部分は機能しますが、問題は次のとおりです。テレビ番組のリストを取得するにはどうすればよいUITableViewですか?
ページが有効な XML ではないため、XML 解析を使用できません。そのページのすべてのテレビ番組は、次のように記述されています (html):

v2-tijd (例: 13:30)、およびaの href (例: http://tvgids.mobi/vanavond-op-tv/8428198-NOS_Sportjournaal.xhtml ) およびコンテンツ (例: NOS Sportjournaal) を取得する必要があります。

どうすればいいですか?

0 投票する
2 に答える
2432 参照

ruby-on-rails - Rails で解析するために Web ページをロードする

Web からアプリケーションにページを取得し、そのページで何らかの解析を行いたいとします。それ、どうやったら出来るの?どこから始めればよいですか?いくつかのプラグイン/宝石が必要ですか? そのようなタイプのタスクを解決する際に、あなたは通常どのような方法をとっていますか?

0 投票する
3 に答える
4020 参照

regex - テーブル セル内の識別可能なテキストを含むネストされたテーブルに一致する正規表現はどれですか?

テーブル セル内の識別可能なテキストを含むネストされたテーブルに一致する正規表現はどれですか? 試してみましたが、例の両方のテーブルの最初と最後を取得せずに、必要な特定のテーブルを抽出するための正規表現を思いつくことができませんでした。ここから始めましょう: " <table>.*?</table>"

「Code2」を含むテーブルを抽出したいとします。どの正規表現が具体的に一致し、そのテーブルのみに一致しますか?

0 投票する
2 に答える
2159 参照

php - 改行を BR タグに置き換えますが、PRE タグ内のみです

ストック PHP5 では、preg_replaceこの変換を行うための適切な表現は次のとおりです。

改行を に置き換えますが、ブロック<br />内のみです<pre>

(単純化する仮定を自由に作成し、コーナー ケースを無視してください。たとえば、タグは 1 行であり、 のような病理学的なものではないと仮定できます)

入力テキスト:

出力:

(動機付けのコンテキスト: ウィキメディアの SyntaxHighlight_GeSHI 拡張機能のバグ 20760 を閉じようとしていて、自分の PHP スキル (私は主に Python を使用しています) を見つけるのがうまくいきません)。

私はregexen以外の他のソリューションにもオープンですが、小さい方が好まれます(例として、html解析機構の構築はやり過ぎです)。