問題タブ [html-content-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
713 参照

c# - ニュース Web サイトからニュース リンクを抽出する

詳細ニュースページに誘導されるリンクのコレクションを見つけるための信頼できる方法はありますか. 言い換えれば、ウェブサイトの最初のページにアクセスした後、ニュース項目を参照するリンクが欲しいだけです。解決策はありますか?

0 投票する
2 に答える
516 参照

php - Facebookはどのようにしてリンクの正しいサムネイルを抽出しますか?

Facebookがリンクから記事の正しい写真をどのように抽出するのか疑問に思っていますか?アイコン、広告画像、またはその他の関連のない画像を無視し、適切な画像を提供しますか?

彼らはどのような技術/方法を使用していますか?php正規表現を使用してすべての画像を抽出しようとしましたが、正しい画像を見つける方法は?

ありがとう

0 投票する
1 に答える
1906 参照

php - PHP で正規表現を使用して HTML コンテンツを抽出する方法

わかっています、わかっています... 正規表現は HTML テキストを抽出する最良の方法ではありません。しかし、多くのページから記事のテキストを抽出する必要があるため、各 Web サイトのデータベースに正規表現を保存できます。XML パーサーが複数の Web サイトでどのように機能するかはわかりません。Web サイトごとに個別の関数が必要です。

いずれにせよ、私は正規表現についてあまり知らないので、ご容赦ください。

これに似た形式のHTMLページがあります

body クラス コンテナーの内容を抽出する必要があります。

私はこれを試しました。

私は何を間違っていますか?私のテキストは別の城で終わります。

*編集: うーん...気にしないで、読みやすさのコードを見つけました

0 投票する
6 に答える
4895 参照

javascript - readability.js のような Python 用のものはありますか?

Arc90 の readability.js にほぼ相当する Python のパッケージ/モジュール/関数などを探しています

http://lab.arc90.com/experiments/readability

http://lab.arc90.com/experiments/readability/js/readability.js

input.html を与えると、結果はその html ページの「メインテキスト」のクリーンアップされたバージョンになります。サーバー側で使用できるようにこれが必要です (ブラウザー側でのみ実行される JS バージョンとは異なります)。

何か案は?

PS:Rhino + env.jsを試してみましたが、その組み合わせは機能しますが、パフォーマンスは受け入れられず、ほとんどのhtmlコンテンツをクリーンアップするのに数分かかります:((なぜこのような大きなパフォーマンスの違いがあるのか​​ まだわかりませんでした)。

0 投票する
3 に答える
4564 参照

html - HTML からレンダリングされたテキストを取得する (Delphi)

HTML があり、ページから実際に書かれたテキストを抽出する必要があります。

これまでのところ、Web ブラウザーを使用してページをレンダリングしてから、ドキュメント プロパティに移動してテキストを取得しようとしました。これは機能しますが、ブラウザーがサポートされている場合 (IE com オブジェクト) に限られます。問題は、これをワインでも実行できるようにしたいので、IE COM を使用しないソリューションが必要です。

これを行うには、合理的なプログラムによる方法が必要です。

0 投票する
1 に答える
858 参照

html - タグ付きのテキストを解析するXquery

0 投票する
2 に答える
979 参照

xml - 2つのタグ間のXQuery抽出

現在、からデータを抽出する作業を行っていますHTML<p class="xfHeading">2つのタグの間のテキストを抽出したいと思います。

出力は次のようになります。

asdfghjk

sdsdsd

asdvcvcfghjk

これを行う1つの方法は次のとおりです。

また

ただし、その間のコンテンツは常に変化し続けるため、2つのタグ間のコンテンツを<p class="xfHeading">抽出するソリューションが必要です。

0 投票する
1 に答える
615 参照

php - html を含む変数から要素のコンテンツを取得する

DOM パーサーを使用して、変数内の html 要素のコンテンツを抽出するにはどうすればよいですか。

より正確には、ユーザーがテキスト領域に html を入力するフォームがあります。最初の段落の内容を抽出したい。

これには多くのチュートリアルがあることは知っていますが、ファイル(ページ)ではなく変数からの抽出に関するものは見つかりませんでした

ありがとう

0 投票する
1 に答える
1834 参照

html - iframe と Silverlight を使用して Web サイトの HTML コードを抽出する方法

サイトに複数の画像があるサイトから特定の Web ページを読み込む必要があります。これらの画像を抽出する必要がありますが、各画像の名前にはパターンがなく、何百ものサイトが存在するため、これを手動で行うことはできません。iframe に Web ページを読み込むための Silverlight アプリケーションがあり、この Web ページの html を抽出し、抽出したコードから各画像の画像ソースを取得して、リストボックスに入力するつもりでした。

問題なく iframe に Web ページを読み込むことができますが、Web ページの HTML コードを取得する方法がわかりません。

0 投票する
6 に答える
1820 参照

jquery - jQuery:さまざまなサイトからコンテンツを取得/解析する

次のことを行いたいと思います。複数のサイトからニュースを取得し、jQueryセレクターを使用してコンテンツを解析し、1つのページに表示します。

これはjQueryでどのように行うことができますか?

ありがとう。