問題タブ [scrapy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - スパイダーと Scrapy-ctl.py を統合する方法
私はpythonとscrapyを初めて使用するため、いくつかの基本的な疑問が生じています(いくつかの基本事項についての私の無知を惜しまないでください。私は喜んで学びます:D)。
現在、いくつかのスパイダーを作成し、コマンドラインから次のように入力して、scrapy-ctl.py を使用してそれらを実装しています。
しかし、これを実装するために 2 つの別個の Python コードとコマンド ラインは必要ありません。何らかの方法でスパイダーを定義し、単一の Python コードを記述して実行することで URL をクロールさせたいと考えています。 、タイプ関数の「実行」がインポートされますが、スパイダーを含むコードでこの関数をどのように定義できるかについてはわかりません。
前もって感謝します!!
python - 別のスクリプトからスパイダーに文字列を解析する方法
私はpythonとscrapyが初めてです。サブプロセスモジュールを使用して別のpythonスクリプトからscrapy-ctl.pyを実行してい ます.しかし、このスクリプト自体からスパイダーへの「開始URL」を解析したい.start_urlsを解析することは可能ですか? Scrapy-ctl が実行されます) スパイダーに? これに関する提案やアイデアをお待ちしております.... :)
事前に感謝します....
java - javaからpythonスクリプト(nltkとscrapyを使用)を実行するにはどうすればよいですか
私のプロジェクトでは、scrapy、nltk、および simplejson を使用する Python スクリプトを作成しましたが、メンターがサーバーにデプロイしたいため、Java から実行する必要があり、これを行う時間が非常に少なくなりました。 exec() を Java と jython で使用しているため、言うまでもなく、Java からシステム コマンドを実行するのも簡単ではありません。
したがって、Java からシステム コマンド -'python example.py' として runtime.exec() を使用して、または代わりに jython を使用して Python スクリプトを実行する方が、より簡単で実際に実行可能かどうか、またはより簡単な回避策があるかどうかを知りたいと思います。また、Jython を使用して Java から nltk を使用する Python コードを実行したことがある人がいるかどうか、問題が発生したかどうかを知ることもできます。できるだけ早くこれを行う必要があるので、助けてください。
よろしくお願いします!
python - Scrapy で sqlite パイプラインのサンプル コードを持っている人はいますか?
Scrapy で SQLite パイプラインのサンプル コードを探しています。それに対するサポートが組み込まれていないことは知っていますが、それが行われていることは確かです。非常に限られたタスクを完了するのに十分なPythonとScrapyしか知らず、出発点としてコードが必要なので、実際のコードだけが私を助けることができます.
python - Web サイト全体をクロールするための Scrapy に基づく Python 関数
私は最近、非常に効率的なScrapyを発見しました。しかし、Python で書かれたより大きなプロジェクトにそれを埋め込む方法が本当にわかりません。通常の方法でスパイダーを作成したいのですが、関数を使用して特定の URL で起動できるようにします。
これにより、特定のドメインでクロール プロセスが開始され、すべてのページが表示されたときにのみ停止します。
python - Pythonの正規表現についてサポートが必要
次のような文字列から作成してください。
次のような文字列:
Pythonで正規表現を使用する
! testsite.comの変更に注意してください
python - Pythonスクリプトの結果からu ''を削除するには?
python/scrapy を使用して解析スクリプトを作成しようとしています。結果ファイルの文字列から [] と u' を削除するにはどうすればよいですか?
今、私はこのようなテキストを持っています:
実行後、このような結果が得られます
ファイル内のこのテキスト:
python - PythonフレームワークScrapyのページからRSSリンクを解析する(RSSへのulrを取得する)方法は?
Google検索をパースして、検索結果から各項目からRSSへのリンクを取得したい。スクレイピーを使用しています。この構築を試みたのですが、
しかし、「print qqq」は私に与えます
scrapy - 速度に最適な Web グラフ クローラー?
この 1 か月間、私は開始した Web クロール プロジェクトに Scrapy を使用してきました。
このプロジェクトでは、ホームページから到達可能な単一のドメイン名に含まれるすべての Web ページの完全なドキュメント コンテンツを取得します。Scrapy を使用してこれを記述するのは非常に簡単でしたが、単純に実行速度が遅すぎます。2 ~ 3 日で 100,000 ページしかプルダウンできません。
Scrapy はこの種のクロールには適していないという私の最初の考えが明らかになりつつあることに気付きました。
より良いパフォーマンスを期待して、Nutch とMetabotに照準を合わせ始めました。クロール中に保存する必要がある唯一のデータは、Web ページの完全なコンテンツと、できればページ上のすべてのリンクです (ただし、後処理で行うこともできます)。
高速で多くの並列リクエストを使用するクローラーを探しています。
python - MacOSXにlibxml2をインストールする際の問題
Mac(OS 10.6.4)にlibxml2をインストールしようとしています。私は実際にPythonでScrapyスクリプトを実行しようとしています。そのため、Twisted、Zope、そして今はlibxml2をインストールする必要があります。最新バージョン(2.7.7、xmlsoft.orgから)をダウンロードし、ここでこれらの手順に従ってみました。要約すると、私はこのコマンドを(pythonサブディレクトリで)試しました:
私はこのエラーで終わります:
何か案は?
また、次のコマンドを実行してみました。
そして、次のエラーが発生します。
それは状況に何か光を当てていますか?