問題タブ [scraper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - サードパーティのライブラリを使用せずに HTML からテキストを抽出するにはどうすればよいですか?
html タグ付きのテキスト。HTMLタグなしでテキストを取得するにはどうすればよいですか?
facebook-opengraph - Facebook エンティティが FB クローラーによって正しく解析されていないことを示す OGP エンドポイント?
このアプリは、実際の Facebook ページを指す Like ボタンをレンダリングします。ただし、いいねボタンの href を FB の URL に直接ポイントする代わりに、opengraph エンドポイントを介してサーバーを介してプロキシします。これらのエンドポイントがいつ使用されるかについてより詳細な分析を行うことができるため、これは役に立ちます (とりわけ)。
og:url とリンク rel="canonical" の両方が実際の Facebook ページを指していることに注意してください。実際には、Facebook のデバッガーを介してリンクを実行しようとすると、うまく動作するように見えます: https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Fwww.bandpage-s .com%2Fogp%2F11601543111380992
ただし、一定の時間が経過すると、[いいね] ボタンがページに解決されないように見えるという問題があります。これにより、いいねカウントがオフになり、ページが既に気に入っている場合はボタンが「いいね」されなくなります。上記の OG デバッガーの URL に移動して手動で再スクレイプをトリガーすると、しばらくの間、問題が解決します。
明らかに、これらのスクレイピングを手動で再トリガーすることは、支持できる解決策ではありません。ここで複数のスクレーパーの動作が発生していますか? デバッガーでトリガーされるスクレイパーは、定期的に自動的に再スクレイピングするスクレイパーとは異なるようです。
なぜこれが起こるのですか?ここで ogp エンドポイントの「仲介者」を取り除く以外に、これを回避するためにできることはありますか? これは og:url の完璧な活用のようです。
python - BeautifulSoupを使用して、Webページで特定のリンクを検索する
トレントリンク、できれば最初のスポンサーなしリンクを取得しようとしています。ページからリンクを印刷してもらいます。私はこのコーディングにかなり慣れていないので、あなたが与えることができる限り多くの詳細が完璧になるでしょう!助けてくれてありがとう!
php - phpスクレイプですが、htmlからの改行はありません
HTMLでは、次のように表示されます。
phpを使用してそのコンテンツをスクレイプすると、mysqldbに次のように表示されます。
1行で表示され、文字列/nまたは/rがなく、mysqldbで適切な間隔/改行を表示する必要があります。すべてのステップで改行が存在することを確認し、htmlからstringに移動し、次にstringからmysqlに移動する方法を知っておくと便利です。
c# - Generics を使用して HTML スクレーパーを実現します。正しいか間違っているか?
私の要件は、さまざまな HTML ページをダウンロードしてスクレイピングし、そのページで探しているオブジェクトの種類に応じて、ページ上のコードからオブジェクトのリストを抽出することです。たとえば、あるページには医師の手術の埋め込みリストが含まれ、別のページには主要な信頼のリストが含まれる場合があります。ページを 1 つずつ表示し、最終的に適切なオブジェクト タイプのリストを表示する必要があります。
これを行うために私が選択した方法は、ジェネリッククラスを呼び出すことですHTMLParser<T> where T : IEntity, new()
IEntity
は、スクレイピングできるすべてのオブジェクト タイプが実装するインターフェイスですが、インターフェイス メンバーがどうなるかはまだわかりません。
だからあなたは効果的に言うことができるでしょう
Parse()
URL からダウンロードされた HTML 文字列に、提供された XSD ドキュメントに準拠するブロックが含まれていることを検証し、このテンプレートを何らかの形で使用List<Surgery>
して、HTML 文字列の XML ブロックに対応する Surgery オブジェクトを抽出します。
私が抱えている問題は
各オブジェクト タイプのテンプレートを適切な方法で指定する方法がわかりません。それ以外
HTMLParser<Surgery> parser = new HTMLParser<Surgery>(new URI("...."), Surgery.Template);
は、少し不格好です。.NET 3.0/4.0 を使用してより良い方法を提案できる人はいますか?ジェネリックな方法で、HTML 文字列を取得し、XSD または XML テンプレート ドキュメントを取得して、ジェネリック タイプの構築されたオブジェクトのジェネリック リストを返す方法がわかりません。誰でもこれを行う方法を提案できますか?
最後に、非常に複雑に見え始めているため、ジェネリックがこの問題の正しい解決策であるとは確信していません。ここでの私の解決策の選択に同意しますか、それとも非難しますか? そうでない場合、代わりに何をしますか?
python - Python3HTMLパーサー
誰もがうめき声を上げて、(私が持っている)ドキュメントを見るように私に言うと確信していますが、私は次のように同じことを達成する方法を理解していません:
これまでのところ、python3にあるのは次のとおりです。
真剣に、どんな提案でも(私は1日間Pythonを学んでいるので、http://docs.python.org/release/3.0.1/library/html.parser.htmlを読むように言わないでください、そして簡単に混乱します)簡単な例は素晴らしいでしょう!!!
python - スクレイピングされた Web ページから値を抽出する
Python を使用する最初の試みであり、Google で 1 日を過ごした後、私の古い脳はさらに困惑しています。
pycurl を使用して ntlm プロキシを介してログを記録し、ページをスクレイプしてから、beautifulsoup を使用して結果をきれいにしました。
prettify 出力から 3 つの値を抽出し、それらを変数として保存したいと考えています。ページは動的に生成されるため、ページ上の位置は常に変化します。3 つのラベルはページに 1 回だけ表示され、それぞれの値と比較した位置は一定です。
prettify 出力から Value1、Value2、および Value3 を抽出し、それらを変数として保存するにはどうすればよいですか。
これらの 3 つのワンライナーは、私が Python で行う必要があるものです。
grep -A 3 "Label1" prettify.txt | tail -n 1 |awk '{print $1}'
grep "Label2" prettify.txt | awk '{print $3}'
grep -B 4 "Label3" prettify.txt | awk '{print $1}' RS=[ FS=] | テール -n 1
抜粋 1
抽出 2
php - ウェブサイトスクレイピング後の奇妙なシンボル
私はサイトをうまくスクレイプして、私が望まないコンテンツを取得することができますが、それらのほとんどについて、私はこのようなものを取得します
しかし、Fitgeekでは、Keh、または彼女のフィアンセとビジネスパートナーのWing Liangだけでなく、ランナーとウォーカーのコミュニティを構築することも重要です。
と
「私は、共通のサークルの人々を助けることがポイントとなる店を始めたかったのです」と彼女は言います。
これらを取り除くにはどうすればよいですか?
php - スクレイピング-文字エンコード
データベースにデータを入力するために、Web上の大きなテーブルからいくつかのデータを取得しています。一部のキャラクターは画面にうまく表示されますが、こすったときに次のようなことをします。!¬†√Öland Islands
file_get_contentsを使用して生データを取得しています。スクレイプした後は問題ないように見えます(つまり、生の結果をvar_dumpするだけの場合)。Åland Islands
次に、データを配列に変換し、テキストファイルまたはSQLファイルに書き込みます。文字のフォーマットを保持するにはどうすればよいですか?
python - BeautifulSoup:指定された属性を削除しますが、タグとその内容は保持します
私はMSFrontPageで生成されたWebサイトのhtmlを「defrontpagify」しようとしています。それを行うためにBeautifulSoupスクリプトを作成しています。
ただし、特定の属性(またはリスト属性)を含むドキュメント内のすべてのタグから特定の属性(またはリスト属性)を削除しようとする部分に行き詰まりました。コードスニペット:
エラーなしで実行されますが、実際にはどの属性も削除されません。外側のループなしで実行すると、単一の属性(soup.findAll('style' = True)をハードコーディングするだけで機能します。
ここで問題を知っている人はいますか?
PS-ネストされたループもあまり好きではありません。もっと機能的なマップ/フィルターっぽいスタイルを知っている人がいたら、ぜひ見てみたいです。