問題タブ [import.io]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - Import.io - 「どこからデータを抽出するか」の最適化のための URL パターン
Import.io でクロールする場合、ページでデータを抽出する必要があるかどうかを判断するために URL パターンを設定する高度なオプションがあります。
私は正規表現を使い慣れているので、Import.io の URL パターンを使用するのに苦労しています。
正規表現のパターンは次のようになります
http://www.site.com/。[0-9]+.html。
Import.io パターンでそれを行う方法は?
私は次のことを試しましたが、うまくいきませんでした:
www.site.com/{any}{num}.html
抽出する必要があるいくつかの例:
- www.site.com/foo/bar/foo234.html
- www.site.com/bla890.html
- www.site.com/bar/bar/bar/bar/bar/bar/aaa123.html
これらは Import.io 記法です:
- {any} - なんでも (無を含む) {num} - 数字、例えば 8767
- {alpha} - az 文字、例 Dog {alpha-num} - alpha または num のいずれか、例 435h5k </li>
- {words-num} - -、_、または + で区切られた数字を含む単語。例: this-is_a+2nd example </li>
- {not-slash} - スラッシュ以外のもの </li>
- {uuid} - UUID、例: 439a110f-bba1-46a5-befd-1f32cfb63dc8 </li>
- {query-string} - クエリ文字列、たとえば ?a=1&b=2%c=3
- {query-params} - 部分的なクエリ文字列、たとえば a=1&b=2 </li>
- {ref} - アンカーとも呼ばれる参照。例: #foo $ - URL の末尾に一致
詳細: http://support.import.io/knowledgebase/articles/247574-advanced-crawler-options
ありがとう!
import.io - クローラーは最後からいくつかの URL をハングアップします
2000 個の URL、1000 個、500 個、またはクローラーが動作して一括 URL からデータを完全に返すものを貼り付けるかどうかに関係なく、最後からいくつかの URL を停止してハングします...キャンセル/停止ボタンがないため、終了する必要がありますプログラム。
例、250 個の URL を貼り付け - 247 で停止、2000 個の URL を貼り付け - 1986 で停止
import.io - 新しいバージョンの import.io は API を作成できません
以前のバージョンの import.io で作成された、認証された API と認証されていない API の両方があります。
新しい Windows アプリでは、API を作成することも、少なくとも 1 つ取得することもできません。チュートリアルにはたくさんのオプションが示されていますが、「CONFIGURE」と「EXPORT」しか得られません。「構成」では、単一の URL、一括抽出、および別の API からの URL のオプションのみが提供されます。しかし、API アドレスを提供するリンクはありません。
同様に、EXPORT は「USE IN DATA SET」のみを提供します。
私は彼らのサポートを求めましたが、これを得ました:
こんにちはグレン、
お問い合わせいただきありがとうございます。
お気づきかもしれませんが、インターフェースにいくつかの変更を加えました。
を [エクスポート] タブ (構成の隣) に移動し、単純な API 統合と名付けました。
ご不明な点がございましたら、お知らせください。
ありがとうございました、
しかし、その選択肢はないと答えたとき、返事はありませんでした。
私は何を間違っていますか?
グレン。
api - Authenticated Connector (import.io) による一括抽出
import.io とこのフォーラムは初めてです。
入力を使用してクエリを実行する必要があるターゲット データベースから情報を抽出しようとしています。サポートの助けを借りて、認証済みコネクタを正常に作成できました。UI に手動で入力する必要がある複数の入力を使用して、データを適切にフェッチします。
問題は、実行する入力が 10,000 を超えるため、一括抽出の形式にする必要があることです。import.io サポートは、UI 内にこの機能がないことを教えてくれ、http://api.docs.import.io/#!/Query_Methods/queryPost に掲載されている API を使用することを提案しました。
誰かがこれを利用するために私を案内してもらえますか? 複数の文字列行を入力として取り、作成したコネクタを実行して結果を投稿する作業スクリプトが必要です。私はこの種のテクノロジーにあまり詳しくありませんが、学ぶことをとても楽しみにしています。
よろしくお願いします!
regex - import.io フィールド抽出内のテキストを自動的に除外/削除する方法
import.io 内で正規表現を使用して、フィールドが正しく機能する特定の文字列で始まる場合にのみフィールドを一致させます。たとえば、次のように「testing testing」で始まる項目を照合します: ^(testing\stesting\s.+
この文字列を除く値を返す方法はありますか (おそらく、正規表現に加えて xpath を使用しますか?) したがって、フィールド値が「testing testing 1234」の場合、「testing testing」なしで「1234」を返すだけにしたいと思います。 " 前面に?
もちろん、後で手動で行うこともできますが、エクスポートの一部として自動的に行う方法を試してみたいですか?
ありがとう、
デイブ