問題タブ [import.io]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
234 参照

import.io - XPath を使用して隠しデータを表示する

これはほとんどの人にとっては簡単なことかもしれませんが、私はここ数日間困惑しています。現在、クローラーを作成するために import.io を使用していますが、xpath オーバーライドの使用についてはまだ把握しています。

ボタンをクリックしたときにのみ表示されるデータを取得するための最良の方法を知りたいです。

ページの例を次に示します: http://www.timeout.com/newyork/restaurants/agave#tab_panel_2

xpath は次のとおりです: //*[@id="tab___content_2"]/table/tbody/tr[2]/td/div/a[2]/span[2]

xpath を使用すると、「Call Venue」が表示されますが、ボタンをクリックした場合にのみ表示される電話番号を探しています。

これは可能ですか?

0 投票する
1 に答える
45 参照

import.io - コネクタの作成 - 同じページで更新されるクエリ結果

コネクタを作成するときは、「クエリの記録」で次の 2 つの手順に従います。1- ユーザー契約に同意します。2-クエリを実行しました。

結果は (リロードせずに) 同じページに表示されるため、import.io はクエリが発生したことを認識しません。回避策はありますか?

どうもありがとう、レナート

0 投票する
1 に答える
55 参照

import.io - import.io マジック エクストラクタ: regionText の使用方法

API ドキュメントサポート記事では、regionText パラメーターの正確な使用法が少し不明確です。

単純な文字列または XPath である必要がありますか? たとえば、http://www.circlecount.com/community/114481059214254340537を見てください- 中央右のテーブルを抽出したいと思います。現在の API リクエストは次のようになります。

https://api.import.io/store/data/_magic?url=http://www.circlecount.com/community/114481059214254340537®ionText=// *[@id=follower_table_114481059214254340537]&_apikey=XXX&_user=YYY

0 投票する
2 に答える
328 参照

xpath - IO のインポート - XPath を使用して「より多くの」コンテンツを表示する

私はこれに完全に困惑しており、私たちに助けを求めています!

Import.io クローラーを使用して、トリップアドバイザーからレビューを抽出しています。ただし、クローラーをトレーニングしているときは、[詳細] ボタンが非アクティブになっています。

ページの例は次のとおりです

完全なレビューへの Xpath は次のとおりです: //*[@id="UR288083139"]/div[2]/div/div[3]

さらにボタンへ: //*[@id="review_288083139"]/div[1]/div[2]/div/div/div[3]/p/span

完全なレビューが Import.io に含まれるように Xpath を持つことは可能ですか?

0 投票する
2 に答える
154 参照

python - リスト内の URL が増えると、Import.io の一括抽出が遅くなる

たとえば、50 個の URL でうまく機能する Import.io 一括抽出をセットアップしました。文字通り、それらすべてを数秒で通過します。しかし、40,000 個の URL を抽出しようとすると、エクストラクタは最初の 1000 程度までは非常に高速に起動し、その後は URL が増えるたびに徐々に遅くなり続けます。5,000 までに、文字どおり URL ごとに約 4 ~ 5 秒かかります。

効果があると思われる解決策の 1 つは、一度に 1,000 個の URL のチャンクに分割し、それぞれを個別に一括抽出することです。ただし、これには非常に時間がかかり、最後にすべてのデータをつなぎ合わせる必要があります。

誰かがこれを経験したことがありますか? もしそうなら、より洗練された解決策がありますか?

ありがとう、マイク

0 投票する
1 に答える
178 参照

php - cURL 経由で import.io API にアクセスすると、JSON の結果で実際の html を取得できません

api-url をコピーしてブラウザーでインポート API に手動でアクセスすると、html フィールドにも html の結果がある適切な json の結果が得られます。ただし、PHP で cURL を介して同じ API URL にアクセスすると、次の json 結果でのみ取得されます: {"name":"my_html","type":"HTML"}..so 実際の html なし。

次の関数を使用して、php で API を cURL します。

私の質問は、実際のhtmlを取得するにはどうすればよいですか? ところで、テキスト、日付/時刻などの他のフィールドではすべて正常に機能します。

0 投票する
0 に答える
117 参照

import.io - 読み込み中のページをクロールできません... リンク

www.flipkart.comなどの一部の Web ページでは、何かを検索すると結果が表示されます。ページの下部には、「もっと見る」や「さらに読み込む」などのリンクがあります。クリックすると、リンクは同じページにリダイレクトされますが、より多くの結果が表示されます。ここでは、これらのページは無限ではありません。「もっと見る」または「もっと読み込む」をクリックすると、ページが終了します。

import.io デスクトップ アプリを使用してそのようなページを最後までクロールする方法は?

この問題で私を助けてください

0 投票する
1 に答える
78 参照

import.io - スクレイピングしたページのURLを集める

スクレイピングされているページの URL を収集する方法はありますか? リンク付きの列として、またはさらに良いことに、スクレイピングされた画像またはテキストに URL を添付する可能性はありますか?