問題タブ [node.io]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
node.js - Node.ioをプロキシ経由で動作させる
プロキシ経由でnode.io(ウェブスクレイピングモジュール)を使用しようとしています。プロキシのサポートがテストされていないことはわかっていますが、動作させることができません。誰かがそれを機能させる方法を知っていますか?
ありがとう、
node.js - node.io で async.parallel を実装する際の問題
ここにリストされているコードは、部分的な出力とエラー (self.htmlparser.parseChunk) を提供します。async.parallel の代わりに async.series を使用すると、この例は期待どおりに動作します
ping webservice は 2 秒間待ってから、webservice 呼び出しを模擬するために「pong」を出力します。
app.coffee
async.series で出力
async.parallel で出力
システム情報
node.js - node.io:ジョブが完了したら、もう一度実行します
node.ioでスクレーパーを作成しています。
スクレイプしたいページには、毎分新しいコンテンツがあります。毎分何度も仕事をやりたいです。(bashスクリプトでそれを行うことはできますが、javascriptにとどまりたいです)これは基本的な仕事です:
どうすればそれができますか?私はnode.jsの初心者です、私は仕事の周りにsetIntervalを試しました(:成功しませんでした。
jquery - NodeJS + Node.io を使用したセレクター内の jQuery セレクター
JQuery を使用して Web ページをスクレイピングしようとする NodeJS アプリがあります。Webページ内でスクレイピングしようとしています:
最初の jQuery セレクター内で jQuery セレクターを呼び出して、「someTextHere」を取得したいと思います。
残念ながら、'this' は私の Node.io ジョブ オブジェクトを指しているようです。また、'index' が機能していないようです ('each' によってフェッチされた現在のオブジェクトのインデックスを取得するにはどうすればよいですか?)。
何が起こっているのかよくわかりません。誰か助けて?:)
node.js - スクリプト化されたブラウザ スカッパー
次のことを実現するには、ブラウザのスクリプトを作成するか、サーバーにリクエストを送信し、ログインし、サイトを閲覧します。リンクを見つけて、それらのリンクに移動します。
とりあえずNodeJSにハマっているので、node.ioを見ていました。非常に簡単にサイトをスクレイピングできますが、問題は、(ログインするために) 投稿しようとすると、何も返されないことです!
しかし、私はただ得ます
ログインに失敗した場合でも、ログイン後に取得する必要がありますconsole.log
か?
次に、代わりにブラウザをスクリプト化してこれを実装する方がよいと考えていましたが、実際のリクエストをより厳密にシミュレートできますか?
node.js - Webサーバーでのnode.ioの使用
node.ioから始めて、このWebスクレイピングプロジェクトを逆方向に開始しました。私はそれが次のように機能しています:
結果をJSON形式で出力します。
私の目標は、これをWebサーバーで実行できるようにすることです。したがって、次のことを指します。
引数を指定してコマンドを実行しnode.io myjob arg1 arg2
、JSON出力を取得できるようになります。
node.jsを調べましたが、node.ioまたはその逆を使用してWebサーバーを作成した例が見つかりません。私は後ろ向きに働いていることを知っていますが、これは私が現在立ち往生しているところです。アドバイスをいただければ幸いです。
node.js - Node.ioスクレイプジョブが2回失敗する
私は本質的にその場でページをこすり取ろうとしています。このURLを押すと、スクレイプジョブの結果が出力されます。初めてすべてが素晴らしく機能します。2回目に(job.options.argsを介して渡されるさまざまなパラメーターを使用して)試してみると、node.ioジョブのrun()関数も実行されません。scrape_result
2回目は空を返します(私はオブジェクトを期待しています)。
何かご意見は?新しい結果が2回目に返されるようにするにはどうすればよいですか?私のスクレイピングジョブでは、ここから例3をほぼ正確に使用しています:https ://github.com/chriso/node.io/wiki/Scraping
scarper.jsからの抜粋(残りは例3のようなものです:https ://github.com/chriso/node.io/wiki/Scraping )
それから私のapp.js
node.js - カスタムasnycコードを呼び出してNode.ioジョブを1回初期化する方法(input()を連続して呼び出す前)?
Node.ioを発見したばかりで、ドキュメントやAPIなどを調べたところ、見栄えがしました。ただし、次の呼び出しが行われる前に、一度呼び出されるある種のメソッドが必要exports.job = new nodeio.Job(..)
なようなメソッドを使用して、最初のジョブを構築します。(ジョブが終了する直前に1回呼び出されるのと同様の方法)input, run,output, reduce, complete
initialize()
input()
complete
そのような方法はありますか?
完全を期すために:このコードimhoは、node.ioスコープの外部で非同期コードを初期化しても、node.ioジョブが実行される前にデータがすでに存在することを保証しないため、node.ioフローの一部である必要があります(専用の方法を使用)。実行されました。
node.js - Node.io、JSDOM、または PhantomJs ? または、YQL-data.html.cssselect?
特定の Web サイトをクロールして、関連情報を掘り出す必要があります。最初にサイトを検索して対応する URL を取得する必要があるようです。これをクロールすると詳細情報が得られます。
仮定しましょう、検索URLは
つまり、city2、city3 などがあります。category は、場所とページの category2、category3 などになります。
すべての都市、カテゴリ、場所、およびページを収集しましたが、結果が null でなくなるまでインクリメントできます。
すべての URL を取得したら、各 URL から詳細情報を掘り出す必要があります。特定の必要な情報が JavaScript の一部として利用できることを確認しました。
今、node.io、jsdom、phantomjs を見てきました。私もyqlを見てきました。私はこれに慣れていないので、あなたの経験から、このシナリオで理想的なものを教えてください。
例を挙げることができれば、それは素晴らしいことです。
node.js - Node.io はエラーをスローしませんか?
タイプミスがある場合、node.ioはnodejsと比較してエラーをスローしていないことに気付きました。理由がわからない。例えば:
このスクリプトを実行すると、ノードで「Util2」のタイプミスが含まれます。
次のエラーがスローされます:
ただし、まったく同じタイプミスを持つ node.io でこのスクリプトを実行しても、エラーは発生しません。
エラーメッセージがないとデバッグが難しいため、node.ioがエラーメッセージを抑制するかどうかはわかりません。解決策はありますか?