問題タブ [html-content-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
4445 参照

python - Beautifulsoupはテーブルで価値を得る

http://www.co.jefferson.co.us/ats/displaygeneral.do?sch=000104をスクレイプ して、「所有者名」を取得しようとしています。私が持っているものは機能しますが、本当に醜く、最高ではありません。確かに、もっと良い方法を探しています。これが私が持っているものです:

関連するHTMLは

うわー、美しいスープについてたくさんの質問があります、私はそれらを調べましたが、私を助ける答えを見つけられませんでした、うまくいけばこれは重複した質問ではありません

0 投票する
4 に答える
9988 参照

php - 生の HTML ファイルからデータを抽出する方法は?

noIDsと で無意味に書かれた生の html から目的のデータを抽出する方法はありclassesますか? つまり、保存された Web ページ (プロファイル) の html ファイルがあり、(たとえば)「趣味」などのデータを抽出したいとします。PHPを使用してこれを行うことは可能ですか?

0 投票する
2 に答える
133 参照

html - 特定の地域のhtml要素を抽出しますか?

長方形とURLで定義された領域が与えられた場合、指定されたURLでページ上の指定された長方形内にある要素を判別する方法はありますか?

編集:画面解像度、フォントサイズなどはすべて適切なデフォルトに設定できます。

0 投票する
3 に答える
31738 参照

html - RでWebページのコンテンツを読み取って解析するにはどうすればよいですか

RでURL(eq、 http://www.haaretz.com/ )の内容を読みたいのですが、どうすればできるのだろうと思っています

0 投票する
5 に答える
4267 参照

c# - C# を使用したスクリーン スクレイピング HTTPS

C#を使用してスクレイプHTTPSをスクリーニングするには?

0 投票する
1 に答える
124 参照

information-retrieval - Googleページを取得する方法

親愛なる皆様、私は今webtoolを使用しています

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=

ウェブページを解析します。

たとえば、newyorktimes のホームページを解析するには、次のようにします。

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html

ブラウザのアドレスバーで、物事をうまく解析してくれます。

ただし、Googleページでは失敗します。たとえば、次のように Google ニュースのヘッドページを解析したい場合:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn

常に 500 内部サーバー エラーが発生します。

私はそれがグーグルのウェブサイトと関係があると確信しています.おそらくグーグル用のAPIが必要だと思います.グーグルページのためにこれを整理する方法を知っている人はいますか? どうもありがとう。

0 投票する
10 に答える
140110 参照

python - BeautifulSoup Grab Visible Webpage Text

基本的に、BeautifulSoupを使用して、Webページに表示されるテキストを厳密に取得したいと思います。たとえば、このWebページは私のテストケースです。そして、私は主に本文(記事)と、たぶんいくつかのタブ名をあちこちで取得したいと思っています。私はこのSOの質問<script>で、私が望まない多くのタグとhtmlコメントを返す提案を試しました。findAll()Webページに表示されるテキストを取得するために、関数に必要な引数を理解できません。

では、スクリプト、コメント、CSSなどを除くすべての表示テキストをどのように見つける必要がありますか?

0 投票する
2 に答える
1681 参照

screen-scraping - YQLはウェブサイト/ドメイン全体をスクレイプします

ドメインから一連のリンクとコンテンツをスケープバックしようとしています。

グーグルのクエリは

これを機能させるのに近いものを見てきましたが、Webサイト全体で検索を機能させてから、検索語でフィルタリングすることはできないようです。

これはカスタムデータテーブルなしで可能ですか?

0 投票する
2 に答える
1016 参照

jquery - READABILITY コードに相当する jQuery に関するアイデアはありますか? (または: jQuery を使用して本文を見つけるための最適なヒューリスティックを構築する)

http://lab.arc90.com/experiments/readability/は、雑然とした新聞、雑誌、ブログのページを非常に読みやすい方法で表示するための非常に便利なツールです。これは、いくつかのヒューリスティックを使用して、Web ページの関連するメイン テキストを見つけることによって行われます。そのソース コードは、http://lab.arc90.com/experiments/readability/js/readability.jsでも入手できます。

jQuery を使用して新聞の「本文」を取得するのに苦労していたとき、私の同僚の何人かがこれに注意を向けました。ジャーナル | ブログ | 等のウェブサイト。私の現在のヒューリスティック (および jQuery での実装) は、次のようなものを使用します (これは Firefox Jetpack パッケージ内で行われます)。

つまり、「DIV 内の段落を取得して、'script' などの無関係な文字列をチェックする」のようなものです。私はこれを試してみましたが、ほとんどの場合、Web 記事の本文を取得できますが、より優れたヒューリスティックまたはより優れた jQuery 選択メカニズム (およびさらに短い?) が必要です。

より良い提案はありますか?

PS: たぶん、「最も内側の DIV (つまり、DIV タイプの子要素がない) を見つけて、その DIV を取得します。

s only" は、現在の目的にはより良いヒューリスティックですが、jQuery でこれを表現する方法を見つけることができませんでした。

0 投票する
1 に答える
1459 参照

.net - Webzinc .NET、スクリーン スクレイピング、.NET 用の Web 自動化ライブラリに代わる無料のツールを探している

私はこの.NETライブラリに出くわしました:

http://www.webzinc.com/online/faq.aspx

しかし、そこに無料の代替手段があるかどうか疑問に思っていましたか?