問題タブ [portia]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-2.7 - Windows での portia (scrapy/slybot) エラー
私はportiaをインストールして動作させました。いくつかのWebサイトに注釈を付けました(本当に良さそうです)が、スパイダーを実行しようとするとエラーが発生し
、win 7でpython 2.7.6を実行しているときに何もクロールされません
python - Mac OSX 10.9.2 に Scrapy をインストールする際のエラー
Scrapy-backed python プロジェクトに必要なパッケージをインストールしようとすると、次のエラーが発生します。
sudo を使用してインストールしようとしましたが、うまくいきませんでした。何が問題なのか教えてください。問題を解決するために試みた他のpythonベースのインストールから同様のエラーが発生しているのが助けになる場合。
python - Scrapyd でスパイダーをスケジュールし、スパイダー設定オプションを渡します
私は slyd で作成されたスパイダーを scrapy - elasticsearch を使用するように構成しようとしているので、構成するために送信-d parameter=valueしています:
これは、settings.py に入れる必要があるデフォルトの構成です。
新しいスパイダーごとにこれらの設定を自動的に生成するように slyd を構成する方法が見つからないため、オプションを-d引数として渡そうとしています。Scrapyd は引き続きスパイダーを実行しますが、elasticsearch には何も保存されません。エラー ログには次のように表示されます。
scrapy - Portia/Scrapy Spider を使用して 1 つのページから複数のアイテムを抽出するにはどうすればよいですか
クロールしたいウェブサイトがあります。各ページで抽出したい複数のアイテムが含まれています。
これは、オンラインのイエロー ページに非常によく似ています。各アイテムのタイトル、電話番号、カテゴリが含まれています...これだけではページ全体を表示するには明らかに不十分なため、アイテムはリストになっています。3 つのアイテムを含むページもあれば、10 程度のアイテムを含むページもあります。
--編集 1-- 多くの Web サイトのスクレイピングに成功しましたが、1 つのアイテムしか含まれていないページに到達できました。これはここでは不可能であり、異なるテンプレートが必要なため、複数のアイテムを 1 つのアイテムとして返すか、ランダムなビットを少しずつ返します。
scrapy - Portia / Scrapy で複数のテンプレートを使用する方法
次のチュートリアルに基づいて Portia を正常にインストールしました。
http://www.akashjaindxb.com/2014/05/12/install-setup-and-use-portia-webcrawler/
すべてが完璧に機能しています。ただし、スパイダーしたいサイトには特定のアイテムのレイアウトが異なるため、複数のテンプレートが必要です。
上記のチュートリアルでは、複数のテンプレートを使用できると述べていますが、クロール時に複数のテンプレートを実際に使用する方法については説明していません。
複数のテンプレートを使用するように PORTIACRAWL に指示する方法を誰かが知っていますか。事前にどうもありがとうございました。
python - portia (scrapy) を使用して Web サイトからメタタグを抽出する
portia (scrapy) を使用して Web サイトからメタタグを抽出する
一部の Web サイトからメタ タグを抽出するために portia を使用したいのですが、head タグが表示されず、body タグのみから開始されています。
body タグからしかデータを抽出できません
python - Scrapy を使用して Web サイト全体を再帰的にクロールする方法
Scrapy を使用して Web サイト全体をクロールしたいのですが、現在は 1 つのページしかクロールしていません
portia を使用してメタタグを抽出する方法はありますか?
python - Scrapyd-Deploy でポーシャ スパイダーをデプロイできない
私が間違っていることを理解するのを手伝ってもらえますか? 手順は次のとおりです。
- https://github.com/scrapinghub/portiaにあるportiaのインストールマニュアルに従いました-すべて問題ありません
- 新しいプロジェクトを作成し、URL を入力し、アイテムにタグを付けました - すべて OK
- [閲覧を続ける] をクリックし、サイトを閲覧し、期待どおりにアイテムが抽出されました - すべて問題ありません
次に、スパイダーをデプロイしたいと思いました。
1回目の試行:ドキュメントが指定したように実行しようとしましたscrapyd-deploy your_scrapyd_target -p project_name-エラーが発生しました-scrapydがインストールされていませんでした修正:pip install scrapyd
2回目の試行:scrapydサーバーを起動し、アクセスしましたhttp://localhost:6800/-all ok
Scrapyd ドキュメントを簡単に読んだ後、プロジェクトからファイル Scrapy.cfg を編集する必要があることがわかりましslyd/data/projects/new_project/scrapy.cfg
た。以下を追加しました。
コンソールに戻り、すべて問題ないことを確認しました:
大丈夫そうに見えたので、もう一度試してみました:
何が欠けていますか?