問題タブ [html-content-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - このサンプルで htmlagilitypack を使用して HTML からテキストを抽出する方法は?
HTML ソースからテキストを抽出したい。私はc#とhtmlagilitypack dllを試しています。
ソースは次のとおりです。
テーブルからテキスト Here 1 と Here 2 を取得するにはどうすればよいですか?
ajax - 遅れてウェブページの内容を読む
完全に読み込まれたWebページのコンテンツを読み取る方法はありますか?サイトから価格を読み取り、データベースに保存する必要があります。しかし、サイトの価格はajaxを介して読み込まれます。その結果、値の代わりに「読み込み中」が表示されます。ファイルが完全にロードされたら、コンテンツを抽出する方法はありますか?
返事を待っています...
regex - 幅または高さが指定された値より高い HTML からすべての画像を抽出する - 正規表現
LinkedIn や Facebook などの Classic ASP で小さなリンク共有機能を作ろうとしています。
私がする必要があるのは、リモート URL の HTML を取得し、たとえば幅が 50px を超えるすべての画像を抽出することです。
クロールして HTML を取得できます。また、この正規表現で画像を見つけることもできます。
<img([^<>+]*)>
一致します。<img src="/images/icon.jpg" width="60" height="90" style="display:none"/>
その後、パスを抽出できますが<img src="/track.php" style="display:none" width="1" height="1"/>
、実際の画像ではないパスが一致することがあります。
とにかくクラシックASPのせいで怒られそうな気がするけどうちの会社は…。
この問題について多くのトピックがあることは知っていますが、ほとんどの場合、正規表現を使用しないことを推奨していますが、従来の ASP でこれを行う方法を見つけることができませんでした。これにはコンポーネントか何かがありますか?
よろしく
php - php、間取り機能改善 - 配列サポート追加
2 つの文字列の間のコンテンツを抽出する関数があります。html タグ間の特定の情報を抽出するために使用します。ただし、現在は最初の一致のみを抽出するように機能しているため、すべての一致を抽出して配列で提供するように改善できるかどうかを知りたい.. preg_match_all 関数と同様.
html-content-extraction - HTTPBuilder - Web ページの HTML コンテンツを取得するにはどうすればよいですか?
groovy で HTTPuilder を使用している Web ページの HTML を抽出して、次のようにする必要があります。
取得した応答には、www.google.com/search の HTML ソースを調べたときに表示されるものと同じ HTML が含まれていません。実際、これは html ではなく、ページの html ソースで確認できる情報と同じものは含まれていません。さまざまなヘッダーを設定してみました (たとえば、headers.Accept = 'text/html,application/xhtml+xml,application/xml;q=0.9, / ;q=0.8', headers.Accept = 'text/html') 、ユーザーエージェントの設定など)、結果は同じです。http ビルダーを使用して www.google.com/search (または任意の Web ページ) の html を取得するにはどうすればよいですか?
rss - 特定のニュース ソースのフィードまたは XML を見つける方法
特定のニュース ソースの xml ファイルを取得したいのですが、html ニュースを xml に変換し、ページを解析し、日付、著者名、タイトル、コンテンツなどのさまざまな特徴を単一の xml または同様のものにトークン化するプロジェクトがある場合ファイルの種類。たとえば、次のリンクを参照して ください。などはこちらのページから。または、この Web ページのフィードを見つけることができれば、簡単に行うことができます。しかし、どうすればそれを検索できますか。
c# - 非mshtml c# htmlとjavascriptの解析
javascript が埋め込まれた html ドキュメントを解析する方法を探しています。これは MSHTML とコード DOM で実行できることはわかっていますが、この場合はオプションではありません。プログラムを Mono でも実行できるようにする必要があります。助言がありますか?
java - java/jsp を使用して、Web フォームの特定のドロップダウン ボックスから値のリストを抽出する方法
Web フォームの特定のドロップダウン リスト ボックスのすべての値を抽出したいと考えています。
この Web フォームのソース コードで、この特定のドロップ ダウンに関連するコードを以下に示します。
実際の値 (つまり option ... value="" ) と画面に表示される値 (つまり option label="" ) の両方を抽出したいのですが、これは JSP/Java で実行できますか? 理想的には、Google App Engine でサポートされているクラスのみを使用して実行できますか? (これを行う方法を提案できても、その方法が Google App Engine for Java でサポートされているかどうかわからない場合でも、その方法を親切に提案してください...)
regex - 正規表現はタグ間のテキストを変更します
次のレイアウトのコードがあります。textcrawlerを使用して検索と置換を行います
..。
ここで問題となるのは、2番目のコードブロックを削除するために使用する必要のある正規表現です。<a> and </a>