問題タブ [html-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - C++ での HTML 要素の非破壊的な解析と変更
libxml2 や MSHTML を使用するとどうなるかなど、できれば HTML を完全に書き直すことなく、C++ で HTML に簡単な変更を加える必要があります。
特に、すべての「img」要素の「src」属性を読み取り、(潜在的に) 変更できる必要があります。有効な HTML でこれを実行できるように十分に堅牢である必要がありますが、できればプロセス中に他の HTML を変更する必要はありません。
これを処理できるライブラリはありますか?それとも、これは正規表現でできることですか? 私は正規表現にあまり精通していません。ここで、正規表現を使用して HTML を解析するべきではないという多くの質問を読みましたが、それがこのようなものに当てはまるのか、それともその原則が当てはまるのかはわかりません主に、HTML からツリーを構築するコンテキストでの解析に使用されます。
php - HTMLのリンクタグの正規表現
正規表現のサポートが必要です。私が探しているのは、次のようなリンクタグを探す正規表現です。
href = ""の位置に関係なく、link-tagで検索し、$urlという名前の変数をstyle.cssの前に/を付けて配置します。style.cssの前にhttp://またはhttps://が見つかった場合、その前に変数を配置したくありません。
すべてのリンクタグを置き換えてほしい。
php - htmlタグ内、またはurlの一部(html外)を除いてstring1をstring2に置き換える正規表現
HTMLの大きなブロックに対して検索および置換操作を実行する必要があります。htmlタグの一部であるもの(urlなど)を変更したくない-htmlタグ以外のurlも変更したくない。html( src )内にない単語を照合するための部分的な解決策があります:
regexバディもこれは同じように一致すると言います:
したがって、あとは、単語がURLのような文字列の一部ではないことを確認するだけです。次のようになります。
これが可能かどうかはわかりません。私の意図は、テキストに存在し、コンテンツのhtmlの一部であるURLを保持しながら、他のものに対する検索と置換の操作を許可することです。
以下に示すように、理想的なソリューションはDOGと一致し、CATに置き換えられます。
効率のためのボーナスポイント、私はほとんど私の知恵の終わりにいます。
regex - HTML スタイル プロパティに一致する正規表現
ここで正規表現マスターが必要です!
上記の HTML を考えると、"float:right" または "float:left" に一致する正規表現パターンが必要ですが、img タグのみです。
前もって感謝します!
php - PHP用のjQueryのようなインターフェース?
HTML/XML ファイルを処理するための PHP 用の jQuery スタイル インターフェイス/ライブラリが存在するかどうか、特に jQuery スタイルセレクターを使用するかどうかについて興味がありました。
私はこのようなことをしたいと思います(すべて仮説です):
これらはほんの一例です。
私はできる限り多くのグーグルをしましたが、探しているものを見つけることができませんでした. これらの線に沿ったものが存在するかどうかを誰かが知っていますか、それともdomxmlを使用して自分でゼロから作成する必要がありますか?
php - HTMLドキュメントのタグを削除するPHP正規表現
次のテキストがあるとします
リンクを削除したいのですが、タグを削除したいです (間にテキストを入れたまま)。正規表現でこれを行うにはどうすればよいですか (URL がすべて異なるため)
どうもありがとう
iphone - Web ページを UITableView に変換する
私は持っていて、UITableViewこのページからのデータを入力したい: http://tvgids.mobi/gids/ned1.php
私のコード:
その部分は機能しますが、問題は次のとおりです。テレビ番組のリストを取得するにはどうすればよいUITableViewですか?
ページが有効な XML ではないため、XML 解析を使用できません。そのページのすべてのテレビ番組は、次のように記述されています (html):
v2-tijd (例: 13:30)、およびaの href (例: http://tvgids.mobi/vanavond-op-tv/8428198-NOS_Sportjournaal.xhtml ) およびコンテンツ (例: NOS Sportjournaal) を取得する必要があります。
どうすればいいですか?
ruby-on-rails - Rails で解析するために Web ページをロードする
Web からアプリケーションにページを取得し、そのページで何らかの解析を行いたいとします。それ、どうやったら出来るの?どこから始めればよいですか?いくつかのプラグイン/宝石が必要ですか? そのようなタイプのタスクを解決する際に、あなたは通常どのような方法をとっていますか?
regex - テーブル セル内の識別可能なテキストを含むネストされたテーブルに一致する正規表現はどれですか?
テーブル セル内の識別可能なテキストを含むネストされたテーブルに一致する正規表現はどれですか? 試してみましたが、例の両方のテーブルの最初と最後を取得せずに、必要な特定のテーブルを抽出するための正規表現を思いつくことができませんでした。ここから始めましょう: " <table>.*?</table>"
「Code2」を含むテーブルを抽出したいとします。どの正規表現が具体的に一致し、そのテーブルのみに一致しますか?
php - 改行を BR タグに置き換えますが、PRE タグ内のみです
ストック PHP5 では、preg_replaceこの変換を行うための適切な表現は次のとおりです。
改行を に置き換えますが、ブロック<br />内のみです<pre>
(単純化する仮定を自由に作成し、コーナー ケースを無視してください。たとえば、タグは 1 行であり、 のような病理学的なものではないと仮定できます)
入力テキスト:
出力:
(動機付けのコンテキスト: ウィキメディアの SyntaxHighlight_GeSHI 拡張機能のバグ 20760 を閉じようとしていて、自分の PHP スキル (私は主に Python を使用しています) を見つけるのがうまくいきません)。
私はregexen以外の他のソリューションにもオープンですが、小さい方が好まれます(例として、html解析機構の構築はやり過ぎです)。