問題タブ [html-content-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Beautifulsoupはテーブルで価値を得る
http://www.co.jefferson.co.us/ats/displaygeneral.do?sch=000104をスクレイプ して、「所有者名」を取得しようとしています。私が持っているものは機能しますが、本当に醜く、最高ではありません。確かに、もっと良い方法を探しています。これが私が持っているものです:
関連するHTMLは
うわー、美しいスープについてたくさんの質問があります、私はそれらを調べましたが、私を助ける答えを見つけられませんでした、うまくいけばこれは重複した質問ではありません
php - 生の HTML ファイルからデータを抽出する方法は?
noIDs
と で無意味に書かれた生の html から目的のデータを抽出する方法はありclasses
ますか? つまり、保存された Web ページ (プロファイル) の html ファイルがあり、(たとえば)「趣味」などのデータを抽出したいとします。PHPを使用してこれを行うことは可能ですか?
html - 特定の地域のhtml要素を抽出しますか?
長方形とURLで定義された領域が与えられた場合、指定されたURLでページ上の指定された長方形内にある要素を判別する方法はありますか?
編集:画面解像度、フォントサイズなどはすべて適切なデフォルトに設定できます。
html - RでWebページのコンテンツを読み取って解析するにはどうすればよいですか
RでURL(eq、 http://www.haaretz.com/ )の内容を読みたいのですが、どうすればできるのだろうと思っています
c# - C# を使用したスクリーン スクレイピング HTTPS
C#を使用してスクレイプHTTPSをスクリーニングするには?
information-retrieval - Googleページを取得する方法
親愛なる皆様、私は今webtoolを使用しています
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=
ウェブページを解析します。
たとえば、newyorktimes のホームページを解析するには、次のようにします。
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html
ブラウザのアドレスバーで、物事をうまく解析してくれます。
ただし、Googleページでは失敗します。たとえば、次のように Google ニュースのヘッドページを解析したい場合:
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn
常に 500 内部サーバー エラーが発生します。
私はそれがグーグルのウェブサイトと関係があると確信しています.おそらくグーグル用のAPIが必要だと思います.グーグルページのためにこれを整理する方法を知っている人はいますか? どうもありがとう。
screen-scraping - YQLはウェブサイト/ドメイン全体をスクレイプします
ドメインから一連のリンクとコンテンツをスケープバックしようとしています。
グーグルのクエリは
これを機能させるのに近いものを見てきましたが、Webサイト全体で検索を機能させてから、検索語でフィルタリングすることはできないようです。
これはカスタムデータテーブルなしで可能ですか?
jquery - READABILITY コードに相当する jQuery に関するアイデアはありますか? (または: jQuery を使用して本文を見つけるための最適なヒューリスティックを構築する)
http://lab.arc90.com/experiments/readability/は、雑然とした新聞、雑誌、ブログのページを非常に読みやすい方法で表示するための非常に便利なツールです。これは、いくつかのヒューリスティックを使用して、Web ページの関連するメイン テキストを見つけることによって行われます。そのソース コードは、http://lab.arc90.com/experiments/readability/js/readability.jsでも入手できます。
jQuery を使用して新聞の「本文」を取得するのに苦労していたとき、私の同僚の何人かがこれに注意を向けました。ジャーナル | ブログ | 等のウェブサイト。私の現在のヒューリスティック (および jQuery での実装) は、次のようなものを使用します (これは Firefox Jetpack パッケージ内で行われます)。
つまり、「DIV 内の段落を取得して、'script' などの無関係な文字列をチェックする」のようなものです。私はこれを試してみましたが、ほとんどの場合、Web 記事の本文を取得できますが、より優れたヒューリスティックまたはより優れた jQuery 選択メカニズム (およびさらに短い?) が必要です。
より良い提案はありますか?
PS: たぶん、「最も内側の DIV (つまり、DIV タイプの子要素がない) を見つけて、その DIV を取得します。
s only" は、現在の目的にはより良いヒューリスティックですが、jQuery でこれを表現する方法を見つけることができませんでした。