問題タブ [html-content-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - ニュース Web サイトからニュース リンクを抽出する
詳細ニュースページに誘導されるリンクのコレクションを見つけるための信頼できる方法はありますか. 言い換えれば、ウェブサイトの最初のページにアクセスした後、ニュース項目を参照するリンクが欲しいだけです。解決策はありますか?
php - Facebookはどのようにしてリンクの正しいサムネイルを抽出しますか?
Facebookがリンクから記事の正しい写真をどのように抽出するのか疑問に思っていますか?アイコン、広告画像、またはその他の関連のない画像を無視し、適切な画像を提供しますか?
彼らはどのような技術/方法を使用していますか?php正規表現を使用してすべての画像を抽出しようとしましたが、正しい画像を見つける方法は?
ありがとう
php - PHP で正規表現を使用して HTML コンテンツを抽出する方法
わかっています、わかっています... 正規表現は HTML テキストを抽出する最良の方法ではありません。しかし、多くのページから記事のテキストを抽出する必要があるため、各 Web サイトのデータベースに正規表現を保存できます。XML パーサーが複数の Web サイトでどのように機能するかはわかりません。Web サイトごとに個別の関数が必要です。
いずれにせよ、私は正規表現についてあまり知らないので、ご容赦ください。
これに似た形式のHTMLページがあります
body クラス コンテナーの内容を抽出する必要があります。
私はこれを試しました。
私は何を間違っていますか?私のテキストは別の城で終わります。
*編集: うーん...気にしないで、読みやすさのコードを見つけました
javascript - readability.js のような Python 用のものはありますか?
Arc90 の readability.js にほぼ相当する Python のパッケージ/モジュール/関数などを探しています
http://lab.arc90.com/experiments/readability
http://lab.arc90.com/experiments/readability/js/readability.js
input.html を与えると、結果はその html ページの「メインテキスト」のクリーンアップされたバージョンになります。サーバー側で使用できるようにこれが必要です (ブラウザー側でのみ実行される JS バージョンとは異なります)。
何か案は?
PS:Rhino + env.jsを試してみましたが、その組み合わせは機能しますが、パフォーマンスは受け入れられず、ほとんどのhtmlコンテンツをクリーンアップするのに数分かかります:((なぜこのような大きなパフォーマンスの違いがあるのか まだわかりませんでした)。
html - HTML からレンダリングされたテキストを取得する (Delphi)
HTML があり、ページから実際に書かれたテキストを抽出する必要があります。
これまでのところ、Web ブラウザーを使用してページをレンダリングしてから、ドキュメント プロパティに移動してテキストを取得しようとしました。これは機能しますが、ブラウザーがサポートされている場合 (IE com オブジェクト) に限られます。問題は、これをワインでも実行できるようにしたいので、IE COM を使用しないソリューションが必要です。
これを行うには、合理的なプログラムによる方法が必要です。
xml - 2つのタグ間のXQuery抽出
現在、からデータを抽出する作業を行っていますHTML
。<p class="xfHeading">
2つのタグの間のテキストを抽出したいと思います。
出力は次のようになります。
asdfghjk
sdsdsd
asdvcvcfghjk
これを行う1つの方法は次のとおりです。
また
ただし、その間のコンテンツは常に変化し続けるため、2つのタグ間のコンテンツを<p class="xfHeading">
抽出するソリューションが必要です。
php - html を含む変数から要素のコンテンツを取得する
DOM パーサーを使用して、変数内の html 要素のコンテンツを抽出するにはどうすればよいですか。
より正確には、ユーザーがテキスト領域に html を入力するフォームがあります。最初の段落の内容を抽出したい。
これには多くのチュートリアルがあることは知っていますが、ファイル(ページ)ではなく変数からの抽出に関するものは見つかりませんでした
ありがとう
html - iframe と Silverlight を使用して Web サイトの HTML コードを抽出する方法
サイトに複数の画像があるサイトから特定の Web ページを読み込む必要があります。これらの画像を抽出する必要がありますが、各画像の名前にはパターンがなく、何百ものサイトが存在するため、これを手動で行うことはできません。iframe に Web ページを読み込むための Silverlight アプリケーションがあり、この Web ページの html を抽出し、抽出したコードから各画像の画像ソースを取得して、リストボックスに入力するつもりでした。
問題なく iframe に Web ページを読み込むことができますが、Web ページの HTML コードを取得する方法がわかりません。
jquery - jQuery:さまざまなサイトからコンテンツを取得/解析する
次のことを行いたいと思います。複数のサイトからニュースを取得し、jQueryセレクターを使用してコンテンツを解析し、1つのページに表示します。
これはjQueryでどのように行うことができますか?
ありがとう。