問題タブ [html-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - PHP で preg_replace を使用する場合、どうすれば一致するようになりますか?
いくつかの単語の大文字を取得して、スパンタグでラップしようとしています。抽出とラッピングの目的でpreg_replaceを使用していますが、何も出力されません。
php - HTMLタグの内容を取得するには?
ねえ、私がやりたいのは、最初の段落のコンテンツを引っ掛けることです。文字列$blog_post
には、次の形式の多数の段落が含まれています。
私が直面している問題は、最初の<p>
タグと最初の終了</p>
タグの間のすべてを取得する正規表現を書いていることです。ただし、最初の<p>
タグと最後の終了</p>
タグを取得しているため、すべてを取得しています。
これが私の現在のコードです:
php - PHPを使用してhtmlからimg src、title、およびaltを抽出するには?
私のウェブサイトにあるすべての画像がタイトルと代替表現とともにリストされているページを作成したいと思います。
すべての HTML ファイルを検索してロードするための小さなプログラムを既に作成しましたが、この HTML から を抽出する方法に行き詰まってsrc
いますtitle
。alt
これはいくつかの正規表現で行う必要があると思いますが、タグの順序が異なる可能性があり、すべてのタグが必要なため、これをエレガントな方法で解析する方法がよくわかりません (ハード文字で実行できますチャーウェイですが、それは痛いです)。
php - PHP用の堅牢で成熟したHTMLパーサー
PHPで利用できる堅牢で成熟したHTMLパーサーはありますか?PEARをざっと見ただけでは何も起こりませんでした(HTMLを生成するためのクラスがたくさんあり、消費するためのクラスはそれほど多くありません)。Googleは、多くの人がさまざまなパーサープロジェクトを開始して放棄したことを教えてくれました。
XMLパーサーに興味がない(整形式でないHTMLを消費できる場合を除く)、または正規表現を使用して自分でハッキングすることはありません。
意図の明確化: HTMLコンテンツのフィルタリングには興味がなく、HTMLドキュメントから情報を抽出することに興味があります。
javascript - IE の HTML パーサーの問題
選択したブラウザーが IE (任意のバージョン) の場合にのみ表示されるダイアログ ボックスを作成しようとしていますが、次のエラーが発生します。
メッセージ: HTML 解析エラー: 子要素が閉じられる前に親コンテナー要素を変更できません (KB927917)
それはすべて「Line/Char/Code」0にあるため、エラーがどこにあるのかわかりません。私が使用しているコードは次のとおりです。
「BrowserDetect.browser」と .version を削除するとエラーが削除されることに気付きましたが、チェックするためにそれらが必要です =/...どんなアイデアでも大歓迎です =)。
c# - > を HTML 文字列内の同等の HTML エンティティに変換する
HTMLタグを含むHTMLの文字列内で、>文字のすべてのインスタンスをHTMLエンティティに相当する>に変換しようとしています。これに対する解決策を得ることができた最も遠いのは、正規表現を使用することです。
これが私がこれまでに持っているものです:
私が抱えている主な問題は、HTML タグの一部ではない単一の > 文字を分離することです。レンダリング用に HTML を保持する必要があるため、既存のタグを変換したくありません。> 文字を変換しないと、不正な形式の HTML が生成され、ブラウザーでレンダリングの問題が発生します。
これは、解析するテスト文字列の例です。
上記の文字列では、HTML タグの一部である > 文字を > に変換する必要はありません。したがって、この:
これになるはずです:
もう 1 つの問題は、上記の式が非キャプチャ グループを使用していることです。これは、一致がグループ 1 にあるという事実を除いては問題ありません。マッチ。MatchEvaluator は実際にはそのトリックを実行していないように見えます。または、今のところ想像できないだけかもしれません。
私の正規表現は、愛情を込めて行うことができると思います。
誰にも明るいアイデアはありますか?
html-parsing - Webページから意味のある完全なコンテンツを抽出する
クローラーを使用してWebコンテンツをマイニングして分析を行っています。多くの場合、Webページには、実際のコンテンツからユーザーの注意をそらす記事の本文の周りに雑然としたもの(広告、不要な画像、無関係なリンクなど)が含まれています。
ウェブページのニュース記事/ブログ投稿/フォーラムコメント/記事の実際の位置を定義する基準がないという事実を考えると、私が理解しているように、賢明なコンテンツを抽出することは難しい問題です。
私はこのようないくつかのオープンソースソリューションを見つけることができました:https ://metacpan.org/pod/HTML :: ContentExtractor
しかし、誰かがこれに対処し、妥当な成功率を得ているかどうか私は興味があります。それはかなり一般的な問題のようであり、多くの専門家がそこにいると信じたいと思います。私はJAVAベースのソリューションを好みますが、それは難しいルールではありません。いくつか入力してください。深く感謝します。
html - HTML 解析にはどの言語/ツールを使用すればよいですか?
以前の経験に基づいてデータを抽出したい Web サイトがいくつかありますが、これは思ったほど簡単ではありません。なんで?単純に、解析する必要がある HTML ページが適切にフォーマットされていないためです (終了タグがないなど)。
使用できる技術、言語、またはツールに関して制約がないことを考慮して、HTML ページからデータを簡単に解析および抽出するための提案は何ですか? 私は HTML Agility Pack や BeautifulSoup を試しましたが、これらのツールでさえ完璧ではありません (HTML Agility Pack にはバグがあり、BeautifulSoup 解析エンジンは私が渡したページでは機能しません)。
python - HTMLを解析するためのpython lxml構文のヘルプが必要です
私はPythonが初めてで、lxmlを使用してhtmlタグを見つけて反復するための構文について助けが必要です。私が扱っているユースケースは次のとおりです。
HTML ファイルの形式はかなり整っています (完全ではありません)。画面上に複数のテーブルがあり、1 つは一連の検索結果を含み、1 つはヘッダーとフッター用です。各結果行には、検索結果の詳細へのリンクが含まれています。
検索結果の行を含む中央のテーブルを見つける必要があります (これは私が把握できたものです)。
/li>この表に含まれるリンクを見つける必要があります (ここで行き詰まっています)。
リンク要素を実際に見つけていないようです。
リンクのプレーンテキストが必要です。
searchLink.text
そもそもリンク要素を実際に取得した場合のようなものになると思います。
最後に、lxml の実際の API リファレンスでは、find および findall 呼び出しに関する情報を見つけることができませんでした。これらは、Google で見つけたコードの一部から収集しました。lxml を使用して HTML タグを効果的に見つけて反復処理する方法について何か不足していますか?