問題タブ [html-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Web サイトのホームページの HTML しか取得できないのはなぜですか?
Web サイトに接続して HTML を返す Java プログラムを作成していますが、何らかの理由で問題が発生しています。現在、私はそうしている場合にのみウェブサイトにアクセスできます
しかし、もっと複雑な URL にアクセスしようとすると、UnknownHostException が発生します。最初は、URL の特定の文字が認識されないことに関係があるのではないかと考えましたが、よくわかりません。たとえば、これは私がアクセスしようとしている URL の 1 つです。
....等
UnknownHostException 以外は何も返さない。
誰か助けてください!!!
java - HTML コンテンツから空白を削除しますか?
カスタム リッチ テキスト エディター コントロール (実際には FCKEditor) を含む CRUD メンテナンス画面があり、プログラムは書式設定されたテキストをコントロールから HTML として抽出し、データベースに保存します。ただし、私たちの標準の一部は、保存する前に先頭と末尾の空白をコンテンツから削除する必要があるため、余分な を削除する必要があります。HTML文字列の最初と最後から <br> など。
クライアント側 (Javascript を使用) またはサーバー側 (Java を使用) のいずれかで実行することを選択できます。正規表現などを使用してこれを行う簡単な方法はありますか? どれだけ複雑にする必要があるのか わかりません。次のようなものを削除できる必要があります。
その間に何らかの意味のあるテキストがある場合は、それを保持します。(上記のスニペットは、テスターによって保存された実際の HTML データからのものです)
php - 解析の問題
私は、いくつかのフィールドを持つ小さなフォームを持っている、abc.html などのページを持っています。
フォームを送信すると、いくつかのデータが投稿された abc.html に再び返され、投稿されたデータを処理した後のページに結果の名前が表示されます。
手順全体で、ページの URL は同じままです。フォームの送信後にデータを含むこの abc.html を解析したいと思います。元の URL にすべてのデータが含まれる解析を行いましたが、送信後にページにデータが表示されます。そのようなページを解析する方法を教えてください??
python - BeautifulSoupで特定の子要素を選択します
私はBeautifulSoupを読んで、かなり重いhtmlページをスクリーンスクレイピングしています。BeautifulSoupのドキュメントを調べてみると、子要素を選択する簡単な方法が見つからないようです。
与えられたhtml:
オブジェクトが一番上にあるので、「欲しいコンテンツ」を簡単に取得できる方法が必要です。BeautifulSoupに来るのは簡単だと思いました。topobj.nodes[1].nodes[0].stringのようなものです。代わりに、テキストノードやコメントなどとともに要素を返す変数と関数のみが表示されます。
私は何かが足りないのですか?または、.find()を使用して長い形式に頼る必要がありますか、さらに悪いことに、.contents変数のリスト補完を使用する必要がありますか。
その理由は、Webページの空白が同じであるとは思わないので、それを無視して要素のみをトラバースしたいからです。
java - Swing Parser の handleText がネストされたタグを処理しないのはなぜですか?
ネストされたタグを持つ HTML テキストを変換して、「一致」を強調表示する css 属性で装飾する必要があります (Firefox 検索など)。単純な置換を行うことはできません (たとえば、ユーザーが「img」を検索した場合を考えてください)。そのため、(タグ属性ではなく) 本文内で置換を実行しようとしています。
私はこれを行うべきだと思う非常に簡単なHTMLパーサーを持っています:
私の問題は、これをデバッグすると、タグを含むテキストで handleText が呼び出されることです! 1 レベルだけ深くなっているようなものです。理由を知っている人はいますか?ネストされたタグの「適切な」動作を有効にするために、HTMLParser (あまり使用していない) に対して行う必要がある簡単なことはありますか?
PS - 私は自分でそれを理解しました - 以下の答えを見てください。簡単な答えは、事前にエスケープされた HTML ではなく、HTML を渡せば問題なく動作するということです。どっ!これが他の誰かに役立つことを願っています。
php - の内容から配列を作成しますPHPのタグ
Webページのコンテンツを変数に割り当てています$html
内容の例を次に示します$html
。
どのように、PHPを使用して、このような領域のコンテンツを見つける配列を作成できますか<div class="content"></div>
(上記の例の場合)、次のようになります。
出力
python - 最初の数文字をスキップするPython RegEx?
正規表現についてかなり基本的な質問があります。body タグ内 (および body タグを含む) のテキストを返したいだけですが、開始 body タグの前のすべての文字にも一致するため、次は正しくないことがわかっています。どうやってそれらをスキップするのだろうと思っていましたか?
ありがとう!
php - Web ページの vCard を MySQL DB に解析する
別のページで別の vCard を使用しているクライアントがいます。これらはワードプレスのテキスト フィールドに貼り付けられています。(人々のリストを維持する最も効率的な方法ではありませんが、後で編集するつもりはありません。) 私の使命は、vCard 内のすべてのアドレスを解析し、情報を中央データベースにダンプするものを作成することです。これにより、すべての異なるページが、Google からの緯度と経度の座標でいっぱいのアドレスになり、ピンがたくさんある素敵なフロント ページを表示することができます。
このページには、サイトの残りのページからのすべての vcard が表示されます。
ああ、これはサイト上の vcard のサニタイズされた例ですが、実際には多くの疑わしい HTML コードに囲まれています。
現在、各ページにはこれらのいずれかがあり、サイト全体をくまなく調べてそれらを配列に収集することは、私のリーグから少し外れています. PHP と mySQL を使用して、それらをデータベースにダンプすることができます。
どんなアドバイスでも大歓迎です!
編集:これがどれほど重要かはわかりませんが、別のサーバーからデータを取得しています。
php - TinyMCE でコンテンツを公開するときに、PHP でマークアップ内の画像を移動する正規表現
TinyMCE を使用して自分のサイトにコンテンツを公開しています。コンテンツの最後にカーソルを置いても、段落などの別の要素内にしか画像を挿入できないという問題があります。
したがって、コンテンツを公開すると、現在、次のようなマークアップになります。
WordPress と TinyMCE サンプル サイトの両方が、上記の方法で画像を挿入していることに気付きました。
TinyMCE の他の要素の外側に画像を挿入する方法についての解決策を見つけることができませんでした。そのため、次のステップは、コンテンツ サーバー側を変更して、コンテンツを公開するときに修正できるようにすることです。私のデータベースに保存する前のマークアップ。最終的には次のようになります。
これを達成するために私が何をする必要があるかを知っている人はいますか?正規表現が機能することは知っていますが、その効果のために何をどのように使用すればよいかわかりません。さらに良いことに、TinyMCE の問題を解決できる人がいれば、それはさらに良いことです。
私は明らかに JS を使用してこのクライアント側をその場で実現できることを知っていますが、そのソリューションは理想的ではありません。
どうもありがとう、
D
php - 正規表現PHP、すべてのリンクを特定のテキストと一致させる
アンカーと特定のテキストを一致させるPHPの正規表現を探しています。たとえば、次のようなテキストmylinkを含むアンカーを取得したいと思います。
したがって、すべてのアンカーと一致する必要がありますが、特定のテキストが含まれている場合に限ります。したがって、これらの文字列と一致する必要があります。
しかし、これではありません:
これはmylinkという単語が含まれていないためです。
また、これは一致しないはず"mylink is string"
です。アンカーではないためです。
誰かアイデアはありますか?
Thanx Granit