“portia”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

634 参照

python-2.7 - Windows での portia (scrapy/slybot) エラー

私はportiaをインストールして動作させました。いくつかのWebサイトに注釈を付けました（本当に良さそうです）が、スパイダーを実行しようとするとエラーが発生し
、win 7でpython 2.7.6を実行しているときに何もクロールされません

2014-04-05T13:15:13.613

0 投票する

1 に答える

692 参照

python - Mac OSX 10.9.2 に Scrapy をインストールする際のエラー

Scrapy-backed python プロジェクトに必要なパッケージをインストールしようとすると、次のエラーが発生します。

sudo を使用してインストールしようとしましたが、うまくいきませんでした。何が問題なのか教えてください。問題を解決するために試みた他のpythonベースのインストールから同様のエラーが発生しているのが助けになる場合。

python scrapy pip portia

2014-05-09T02:53:24.947

0 投票する

1 に答える

982 参照

python - Scrapyd でスパイダーをスケジュールし、スパイダー設定オプションを渡します

私は slyd で作成されたスパイダーを scrapy - elasticsearch を使用するように構成しようとしているので、構成するために送信-d parameter=valueしています:

これは、settings.py に入れる必要があるデフォルトの構成です。

新しいスパイダーごとにこれらの設定を自動的に生成するように slyd を構成する方法が見つからないため、オプションを-d引数として渡そうとしています。Scrapyd は引き続きスパイダーを実行しますが、elasticsearch には何も保存されません。エラーログには次のように表示されます。

python scrapy scrapyd portia

2014-09-11T13:23:15.473

0 投票する

1 に答える

1237 参照

scrapy - Portia/Scrapy Spider を使用して 1 つのページから複数のアイテムを抽出するにはどうすればよいですか

クロールしたいウェブサイトがあります。各ページで抽出したい複数のアイテムが含まれています。

これは、オンラインのイエローページに非常によく似ています。各アイテムのタイトル、電話番号、カテゴリが含まれています...これだけではページ全体を表示するには明らかに不十分なため、アイテムはリストになっています。3 つのアイテムを含むページもあれば、10 程度のアイテムを含むページもあります。

--編集 1-- 多くの Web サイトのスクレイピングに成功しましたが、1 つのアイテムしか含まれていないページに到達できました。これはここでは不可能であり、異なるテンプレートが必要なため、複数のアイテムを 1 つのアイテムとして返すか、ランダムなビットを少しずつ返します。

scrapy web-crawler portia

2014-09-24T09:43:57.243

0 投票する

0 に答える

282 参照

scrapy - Portia / Scrapy で複数のテンプレートを使用する方法

次のチュートリアルに基づいて Portia を正常にインストールしました。

http://www.akashjaindxb.com/2014/05/12/install-setup-and-use-portia-webcrawler/

すべてが完璧に機能しています。ただし、スパイダーしたいサイトには特定のアイテムのレイアウトが異なるため、複数のテンプレートが必要です。

上記のチュートリアルでは、複数のテンプレートを使用できると述べていますが、クロール時に複数のテンプレートを実際に使用する方法については説明していません。

複数のテンプレートを使用するように PORTIACRAWL に指示する方法を誰かが知っていますか。事前にどうもありがとうございました。

scrapy web-crawler portia

2014-11-24T16:35:10.020

0 投票する

2 に答える

1366 参照

python - portia (scrapy) を使用して Web サイトからメタタグを抽出する

portia (scrapy) を使用して Web サイトからメタタグを抽出する

一部の Web サイトからメタタグを抽出するために portia を使用したいのですが、head タグが表示されず、body タグのみから開始されています。

body タグからしかデータを抽出できません

python scrapy web-crawler portia

2014-11-27T07:55:34.253

0 投票する

1 に答える

4002 参照

python - Scrapy を使用して Web サイト全体を再帰的にクロールする方法

Scrapy を使用して Web サイト全体をクロールしたいのですが、現在は 1 つのページしかクロールしていません

portia を使用してメタタグを抽出する方法はありますか?

python scrapy web-crawler portia

2014-11-27T11:41:30.950

0 投票する

1 に答える

841 参照

python - Scrapyd-Deploy でポーシャスパイダーをデプロイできない

私が間違っていることを理解するのを手伝ってもらえますか? 手順は次のとおりです。

https://github.com/scrapinghub/portiaにあるportiaのインストールマニュアルに従いました-すべて問題ありません
新しいプロジェクトを作成し、URL を入力し、アイテムにタグを付けました - すべて OK
[閲覧を続ける] をクリックし、サイトを閲覧し、期待どおりにアイテムが抽出されました - すべて問題ありません

次に、スパイダーをデプロイしたいと思いました。

1回目の試行：ドキュメントが指定したように実行しようとしましたscrapyd-deploy your_scrapyd_target -p project_name-エラーが発生しました-scrapydがインストールされていませんでした修正：pip install scrapyd

2回目の試行：scrapydサーバーを起動し、アクセスしましたhttp://localhost:6800/-all ok

Scrapyd ドキュメントを簡単に読んだ後、プロジェクトからファイル Scrapy.cfg を編集する必要があることがわかりましslyd/data/projects/new_project/scrapy.cfg た。以下を追加しました。

コンソールに戻り、すべて問題ないことを確認しました:

大丈夫そうに見えたので、もう一度試してみました：

何が欠けていますか？

python deployment scrapy scrapyd portia

2014-12-16T10:47:26.793

問題タブ [portia]

Reference