問題タブ [portia]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
634 参照

python-2.7 - Windows での portia (scrapy/slybot) エラー

私はportiaをインストールして動作させました。いくつかのWebサイトに注釈を付けました(本当に良さそうです)が、スパイダーを実行しようとするとエラーが発生し
、win 7でpython 2.7.6を実行しているときに何もクロールされません

0 投票する
1 に答える
692 参照

python - Mac OSX 10.9.2 に Scrapy をインストールする際のエラー

Scrapy-backed python プロジェクトに必要なパッケージをインストールしようとすると、次のエラーが発生します。

sudo を使用してインストールしようとしましたが、うまくいきませんでした。何が問題なのか教えてください。問題を解決するために試みた他のpythonベースのインストールから同様のエラーが発生しているのが助けになる場合。

0 投票する
1 に答える
982 参照

python - Scrapyd でスパイダーをスケジュールし、スパイダー設定オプションを渡します

私は slyd で作成されたスパイダーを scrapy - elasticsearch を使用するように構成しようとしているので、構成するために送信-d parameter=valueしています:

これは、settings.py に入れる必要があるデフォルトの構成です。

新しいスパイダーごとにこれらの設定を自動的に生成するように slyd を構成する方法が見つからないため、オプションを-d引数として渡そうとしています。Scrapyd は引き続きスパイダーを実行しますが、elasticsearch には何も保存されません。エラー ログには次のように表示されます。

0 投票する
1 に答える
1237 参照

scrapy - Portia/Scrapy Spider を使用して 1 つのページから複数のアイテムを抽出するにはどうすればよいですか

クロールしたいウェブサイトがあります。各ページで抽出したい複数のアイテムが含まれています。

これは、オンラインのイエロー ページに非常によく似ています。各アイテムのタイトル、電話番号、カテゴリが含まれています...これだけではページ全体を表示するには明らかに不十分なため、アイテムはリストになっています。3 つのアイテムを含むページもあれば、10 程度のアイテムを含むページもあります。

--編集 1-- 多くの Web サイトのスクレイピングに成功しましたが、1 つのアイテムしか含まれていないページに到達できました。これはここでは不可能であり、異なるテンプレートが必要なため、複数のアイテムを 1 つのアイテムとして返すか、ランダムなビットを少しずつ返します。

0 投票する
0 に答える
282 参照

scrapy - Portia / Scrapy で複数のテンプレートを使用する方法

次のチュートリアルに基づいて Portia を正常にインストールしました。

http://www.akashjaindxb.com/2014/05/12/install-setup-and-use-portia-webcrawler/

すべてが完璧に機能しています。ただし、スパイダーしたいサイトには特定のアイテムのレイアウトが異なるため、複数のテンプレートが必要です。

上記のチュートリアルでは、複数のテンプレートを使用できると述べていますが、クロール時に複数のテンプレートを実際に使用する方法については説明していません。

複数のテンプレートを使用するように PORTIACRAWL に指示する方法を誰かが知っていますか。事前にどうもありがとうございました。

0 投票する
2 に答える
1366 参照

python - portia (scrapy) を使用して Web サイトからメタタグを抽出する

portia (scrapy) を使用して Web サイトからメタタグを抽出する

一部の Web サイトからメタ タグを抽出するために portia を使用したいのですが、head タグが表示されず、body タグのみから開始されています。

body タグからしかデータを抽出できません

0 投票する
1 に答える
4002 参照

python - Scrapy を使用して Web サイト全体を再帰的にクロールする方法

Scrapy を使用して Web サイト全体をクロールしたいのですが、現在は 1 つのページしかクロールしていません

portia を使用してメタタグを抽出する方法はありますか?

0 投票する
1 に答える
841 参照

python - Scrapyd-Deploy でポーシャ スパイダーをデプロイできない

私が間違っていることを理解するのを手伝ってもらえますか? 手順は次のとおりです。

  • https://github.com/scrapinghub/portiaにあるportiaのインストールマニュアルに従いました-すべて問題ありません
  • 新しいプロジェクトを作成し、URL を入力し、アイテムにタグを付けました - すべて OK
  • [閲覧を続ける] をクリックし、サイトを閲覧し、期待どおりにアイテムが抽出されました - すべて問題ありません

次に、スパイダーをデプロイしたいと思いました。

1回目の試行:ドキュメントが指定したように実行しようとしましたscrapyd-deploy your_scrapyd_target -p project_name-エラーが発生しました-scrapydがインストールされていませんでした修正:pip install scrapyd

2回目の試行:scrapydサーバーを起動し、アクセスしましたhttp://localhost:6800/-all ok

Scrapyd ドキュメントを簡単に読んだ後、プロジェクトからファイル Scrapy.cfg を編集する必要があることがわかりましslyd/data/projects/new_project/scrapy.cfg た。以下を追加しました。

コンソールに戻り、すべて問題ないことを確認しました:

大丈夫そうに見えたので、もう一度試してみました:

何が欠けていますか?