問題タブ [import.io]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web-crawler - import.io で複数のドロップダウン メニューを選択する
import.ioを使用して e コマース サイトをクロールし、さまざまな価格情報を収集しようとしています。ただし、各製品の価格は、ユーザーが多数のドロップダウンを設定した内容によって決まります。
サイトへのリンク: http://www.saxoprint.co.uk/shop/brochures
クローラーがさまざまなオプションをすべて調べて、この製品に関連するすべての可能な価格の組み合わせを収集する必要があります。最初に Chrome の Web スクレイパー アドオンを使用してみましたが、この拡張機能では 1 つのページ内での複数のクリック操作がサポートされていないことがわかりました。
これは import.io で可能だと思いますが、間違っている可能性があります。import.io に代わるものであっても、このデータを収集する方法を知っている人はいますか?
ありがとう...
web-crawler - データクローラーか何か
正確な方法がわからないものを探しています。クローリングやスクラップなどの深い知識はありませんが、私が求めている技術はこれらだと思います。
- 常に監視したい約 100 の Web サイトのリストがあります。少なくとも 3 ~ 4 日に 1 回。これらの Web サイトでは、次のような論理的な一致を探します。
テキストに「ABC」が含まれていて「BCZ」が含まれていない、またはテキストに「XYZ」が含まれていて「ATM」が含まれていない、など
このツールは、次の Web サイトを調べる必要があります。
- ウェブページ
- DOC ファイル
- DOCX ファイル
- XLSファイル
- XLSX ファイル
- TXT ファイル
- RTF ファイル
- PDFファイル
- RAR および ZIP ファイル
一致は増分する必要があります(過去のX日間からの最新のものだけが必要です)
最も重要なことは、これらの 100 の Web サイトのうち、約 40 がユーザー認証を必要とすることです (私は既に取得しています)。
試合があるときはいつでもダウンロードしたい:
- ファイル
- リンク
- 日付時刻
- 試合報告
import.io などのツールで遊んでいますが、適切に行う方法がわかりません。
私が探しているテクノロジーの種類を正確に知っている人はいますか? 誰 (どのようなスペシャリスト、プログラマー) が私のためにこれを構築できますか? データクロールを理解しているプログラマーが構築するのは難しすぎますか?
長文すみません
xpath - Import.io、xpath 式、bgcolor 属性
行の1つがbgcolor #FFFFFFでフォーマットされているテーブル内からデータを取得するようにimport.ioをトレーニングしようとしています。私が試している方法はXpathです。
以下の例では、取得したい値「11」です。
コードスニペット:<td bgcolor="#FFFFFF" align="RIGHT" class="txtBlackVerdanaBold10">11</td>
私が試してみました :
どちらの場合も、 Import.io は「xpath が無効です」を返します。
何か案は?
javascript - ページでモーダルを開いた後にXpathセレクターを使用しますか?
Google Play アプリの 1 つを見てください。これらのアプリには、ページのフッターに「アクセス許可」と呼ばれるものがあります。[View Details] をクリックすると、モーダル ポップアップが表示されます。そのモーダルのコンテンツを選択したい。どうやってやるの ?私はこのコードを試しました:
しかし、何も起こりません。この xpath は機能していません。私はJavascriptコードも使用しました:
しかし、私はWindowsアプリ(Import.ioデスクトップアプリ)を使用しており、正規表現とxpathセレクターを受け入れるだけです。では、モーダルのコンテンツを選択するにはどうすればよいですか?
dll - データのクロール時にデスクトップ アプリがクラッシュしますか?
Import.io デスクトップ アプリを使用して Web サイトのデータをクロールしようとしています。このソフトウェアを Windows Server 2008 r2 64bit、32 GB RAM & intel 4770 i7 CPU で実行していますが、クロール中に突然エラーが表示され、プログラムを再起動するには、エラーの説明が含まれています:
新しい mozalloc.dll をダウンロードして、古いものを新しいバージョンに置き換えようとしました。この場合、Import.io アプリは xulrunner バージョン 24 を使用します。まず、mozalloc.dll バージョン 42 (最新バージョン) を次の場所にあるデフォルトの import.io の mozalloc.dll ファイルに置き換えました。
しかしその後、プログラムのインターフェースが表示されなくなりました。import.io を開いたとき、タスク マネージャーで開きますが、ウィンドウにプログラムのインターフェイスが表示されませんでした。また、最新の xulrunner バージョンをダウンロードし、そのフォルダー内のすべてのファイルを置き換えました。同じことが再び起こりました。