“html-content-extraction”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

4445 参照

python - Beautifulsoupはテーブルで価値を得る

http://www.co.jefferson.co.us/ats/displaygeneral.do?sch=000104をスクレイプして、「所有者名」を取得しようとしています。私が持っているものは機能しますが、本当に醜く、最高ではありません。確かに、もっと良い方法を探しています。これが私が持っているものです：

php - 生の HTML ファイルからデータを抽出する方法は?

noIDsとで無意味に書かれた生の html から目的のデータを抽出する方法はありclassesますか? つまり、保存された Web ページ (プロファイル) の html ファイルがあり、(たとえば)「趣味」などのデータを抽出したいとします。PHPを使用してこれを行うことは可能ですか?

php html parsing html-content-extraction

2009-11-30T17:13:41.107

0 投票する

2 に答える

133 参照

html - 特定の地域のhtml要素を抽出しますか？

長方形とURLで定義された領域が与えられた場合、指定されたURLでページ上の指定された長方形内にある要素を判別する方法はありますか？

編集：画面解像度、フォントサイズなどはすべて適切なデフォルトに設定できます。

html url screen-scraping html-content-extraction layout-extraction

2009-11-30T21:26:39.433

0 投票する

3 に答える

31738 参照

html - RでWebページのコンテンツを読み取って解析するにはどうすればよいですか

RでURL（eq、 http://www.haaretz.com/ ）の内容を読みたいのですが、どうすればできるのだろうと思っています

html r screen-scraping html-content-extraction

2009-12-04T04:18:46.247

0 投票する

5 に答える

4267 参照

c# - C# を使用したスクリーンスクレイピング HTTPS

C#を使用してスクレイプHTTPSをスクリーニングするには?

c#https screen-scraping html-content-extraction

2009-12-04T15:30:03.730

0 投票する

1 に答える

124 参照

information-retrieval - Googleページを取得する方法

親愛なる皆様、私は今webtoolを使用しています

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=

ウェブページを解析します。

たとえば、newyorktimes のホームページを解析するには、次のようにします。

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html

ブラウザのアドレスバーで、物事をうまく解析してくれます。

ただし、Googleページでは失敗します。たとえば、次のように Google ニュースのヘッドページを解析したい場合:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn

常に 500 内部サーバーエラーが発生します。

私はそれがグーグルのウェブサイトと関係があると確信しています.おそらくグーグル用のAPIが必要だと思います.グーグルページのためにこれを整理する方法を知っている人はいますか? どうもありがとう。

information-retrieval html-content-extraction

2009-12-11T03:57:26.183

0 投票する

10 に答える

140110 参照

python - BeautifulSoup Grab Visible Webpage Text

基本的に、BeautifulSoupを使用して、Webページに表示されるテキストを厳密に取得したいと思います。たとえば、このWebページは私のテストケースです。そして、私は主に本文（記事）と、たぶんいくつかのタブ名をあちこちで取得したいと思っています。私はこのSOの質問<script>で、私が望まない多くのタグとhtmlコメントを返す提案を試しました。findAll()Webページに表示されるテキストを取得するために、関数に必要な引数を理解できません。

では、スクリプト、コメント、CSSなどを除くすべての表示テキストをどのように見つける必要がありますか？

python text beautifulsoup html-content-extraction

2009-12-20T17:55:58.097

0 投票する

2 に答える

1681 参照

screen-scraping - YQLはウェブサイト/ドメイン全体をスクレイプします

ドメインから一連のリンクとコンテンツをスケープバックしようとしています。

グーグルのクエリは

これを機能させるのに近いものを見てきましたが、Webサイト全体で検索を機能させてから、検索語でフィルタリングすることはできないようです。

これはカスタムデータテーブルなしで可能ですか？

screen-scraping html-content-extraction yql

2009-12-21T14:18:18.053

0 投票する

2 に答える

1016 参照

jquery - READABILITY コードに相当する jQuery に関するアイデアはありますか? (または: jQuery を使用して本文を見つけるための最適なヒューリスティックを構築する)

http://lab.arc90.com/experiments/readability/は、雑然とした新聞、雑誌、ブログのページを非常に読みやすい方法で表示するための非常に便利なツールです。これは、いくつかのヒューリスティックを使用して、Web ページの関連するメインテキストを見つけることによって行われます。そのソースコードは、http://lab.arc90.com/experiments/readability/js/readability.jsでも入手できます。

jQuery を使用して新聞の「本文」を取得するのに苦労していたとき、私の同僚の何人かがこれに注意を向けました。ジャーナル | ブログ | 等のウェブサイト。私の現在のヒューリスティック (および jQuery での実装) は、次のようなものを使用します (これは Firefox Jetpack パッケージ内で行われます)。

つまり、「DIV 内の段落を取得して、'script' などの無関係な文字列をチェックする」のようなものです。私はこれを試してみましたが、ほとんどの場合、Web 記事の本文を取得できますが、より優れたヒューリスティックまたはより優れた jQuery 選択メカニズム (およびさらに短い?) が必要です。

より良い提案はありますか？

PS: たぶん、「最も内側の DIV (つまり、DIV タイプの子要素がない) を見つけて、その DIV を取得します。

s only" は、現在の目的にはより良いヒューリスティックですが、jQuery でこれを表現する方法を見つけることができませんでした。

jquery html-content-extraction heuristics

2009-12-22T15:45:40.983

0 投票する

1 に答える

1459 参照

.net - Webzinc .NET、スクリーンスクレイピング、.NET 用の Web 自動化ライブラリに代わる無料のツールを探している

私はこの.NETライブラリに出くわしました:

http://www.webzinc.com/online/faq.aspx

しかし、そこに無料の代替手段があるかどうか疑問に思っていましたか?

.net screen-scraping screen html-content-extraction

2009-12-23T09:52:41.600

問題タブ [html-content-extraction]

Reference