問題タブ [import.io]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mysql - Import.io MySQL DB への JSON データのインポート
import.io エクストラクタに接続してデータを取得しようとしています。次に、データを MySQL データベースにインポートしようとしています。http://support.import.io/knowledgebase/articles/511605-extractor-to-sql-databaseの例に従っていますが、何らかの理由でデータベースにデータを取得できません。これを解決するための助けは非常に役に立ちます。以下に追加情報を示します。
以下は、チュートリアルにあるコマンドを実行したときの出力で、個人的な使用のために少し変更されています。
以下は、外に出て同じ抽出プログラムからデータを取得し、ファイルにダンプしたときに返されるデータのサンプルです。
json - import.io の New Extractor を使用してページから抽出した各列の data_type を取得するにはどうすればよいですか?
私はimport.ioに取り組んでおり、 New Extractorを使用してサイト ページからデータを取得しています。さまざまな種類の列を作成し、そこにコンテンツを挿入します。その後、そのデータを公開します。JSON形式のデータを取得しました。しかし、その JSON 形式のデータでは、列の data_type が得られません。つまり、この列がテキスト、画像、またはその他の形式のいずれかの形式であることを意味します。新しいエクストラクタを使用して列の data_type を取得する方法
xml - import.io のクローラーで Web ページ要素の適切な XPath を取得できません
私はプログラミングの知識が乏しく (現在生態学の博士号を取得中)、import.io の Crawler を使用して、研究プロジェクトのために Web サイト Allociné (フランス最大の映画データベース) からの映画データを使用して .csv ファイルを作成しようとしています。わかりやすいツールが最良のアイデアのように思えました。
私が必要とするすべての映画のために:
- 映画のタイトル
- リリース日 (FR では「Date de Sortie」)
- 映画のジャンル
以下は Allocine 映画ページの例です (Star Wars I): http://www.allocine.fr/film/fichefilm_gen_cfilm=20754.html
最初に import.io の選択ツールを使用してみましたが、一部の映画には 1 つではなく 2 つのリリース日があるため機能しませんでした (上記の SW1 - 1999 年のオリジナル リリースと 2012 年の 3D リリース (「リプライズ」) のように) - これは台無しになりましたクローラー。そのため、必要な要素を特定するために XPath を使用する必要がありました。タイトルは ( を使用して//title
) 正常に機能しますが、リリース日とジャンルに問題があります。
リリース日について、ページのソースから抽出した XPath は次のとおりです。
最後に追加/@content
して、yyyy-MM-dd 形式で日付を取得しました。これにより、次のようになりました。
しかし、import.io は、彼に見つけてもらいたい要素を認識しません。
ジャンルについても、同じように、最初のジャンル (サイエンス フィクション) の Chrome から次の XPath を取得しました。
すべてのジャンルを収集するには import.io が必要なので、[1]
fromを削除しa[1]
て全体を取得しましたa
。
どちらも機能しません。import.io は null 要素を返します。
したがって、なぜ機能しないのかについての説明は非常に高く評価されます! 私が言ったように、私はまったく専門家ではありません。
ブレーズ
import.io - import.io の Classic Extractor と New Extractor の違いは何ですか?
Classic ExtractorとNew Extractorの主な違いは何ですか? どちらを使用するのが最適ですか?
xpath - スクレイピングのために import.io で xpath を適切に設定する方法
Import.io でエクストラクターをセットアップしようとしていますが、API を公開するのに苦労しています。APIを公開できず、xpathを使用してみるように言われるたびに。そのため、さらに調査した結果、クレイグのリスト ページにあるタイトル リンクの xpath が span タグに保持されていることがわかりました。タグは以下の通りです。
フィールドの import.io の xpath 領域に次のように設定してみました
しかし、役に立たない。私が何をしようとしても、実際に API を公開することはできません。データをデータセットにエクスポートすることはできますが、公開する API を取得したいと考えています。
import.io を使用して craigs リストの小さなスクレイピングを行うことに成功した人がいるかどうか疑問に思っていますか? もしそうなら、API を適切に公開するための手順は何ですか?
また、補足として、Scrapy に関するいくつかの記事を読みましたが、この質問に直接関連する特定のコードを見つけたとしても、Python、インストール方法、および実行方法については何も知りません。Import.io で API を公開する方法について、何か洞察を持っている人はいますか?
xpath - 2 つのうちの 1 つが存在する場合に 1 つの要素を選択する XPath
これを2ページに使用しているときに、2つのうち1つが存在する場合は1つの要素を選択したい
1ページ目(割引価格)
または 2 ページ目 (1 つの価格のみ)
私は使用
//span[@class="originalRetailPrice"] | (//div[@class="priceBlock"])[1]
しましたが、価格が2倍になります
私が欲しいのは、それがclass="originalRetailPrice"
いつまたはいつの最初の価格を選択することです//div[@class="price"]/text()[1]
最後に、両方のページで機能するように選択したいと思います
xpath - 兄弟を返さないクロールの XPath フォロー兄弟
内部属性データベースに対して監査できるサプライヤ Web サイトからいくつかの属性データを抽出するクローラーを作成しようとしていますが、import.io は初めてです。たくさんのビデオを見ましたが、私の構文は正しいようですが、手動の xpath オーバーライドは属性値を返しません。次のサンプルhtmlコードがあります。
import.ioクローラーを介して「色」を取得するために、兄弟ステートメントに続くxpathを記述しようとしています。「色」を選択したときのxpathコードは次のとおりです。
私は使用しようとしました:
ただし、テーブルから color 属性値を取得していません。奇数および偶数行クラスと関係があるかどうかはわかりませんか? HTML を見ると、論理的に理にかなっているように見えます。color は「Color」で、属性値は次の td ブラケットにあります。
api - import.io URL が返されます
Import.io を使用して、クライアントのブログのアセットをカタログ化しています。
私はすべてうまく機能しており、いくつかの素晴らしい結果が得られていますが、一括抽出を行うと、入力した結果よりも少ない結果が得られます。入力した 150 に対して約 145 です。
これを追跡したところ、多くの URL が変更されていることがわかりました。呼び出しの別のステップでそれを並べ替えました。
正しい URL をテストしていることがわかりましたが、現在は 148 対 150 ですが、同じ結果が得られます。
import.io は 148 個の URL が返されたと言っているだけなので、返されていない URL を手動で追跡する必要があります。それらを追跡して個別にクエリを実行すると、常に正常に機能します。
他の誰かがこの問題を抱えていますか? 私はすぐにこれについていくつかのチームを訓練しなければならず、彼らはこのステップに苦戦するでしょう.
私は彼らのサポートチームに尋ねましたが、まだ誰も戻ってきていません. 誰か助けて?
import.io - import.io で一括抽出する際の URL スキップを防止する
そのため、かなり長い間 import.io デスクトップ アプリを使用して大量のデータを抽出してきました。しかし、常に私を悩ませていたのは、複数の URL を一括抽出しようとすると、常にそれらの約半分がスキップされることです。
これは URL の問題ではありません。同じように 15 個の URL を使用すると、たとえば 1 回目は 8、2 回目は 7、3 回目は 9 が返されます。一部のリンクは最初に抽出されますが、2 回目はスキップされます。
フィードしたすべての URL を処理する方法はあるのでしょうか?