問題タブ [import.io]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - import.io クローラーは、トレーニング中に入力されたテキスト列を入力しません (ストリームと同じサイトで)
import.io は、クロールされたサイトから何を抽出するかをいくつかのページでツールをトレーニングすることにより、Web スクレイピングを高速化するのに最適です。それでも、現在のクローラーの何が問題なのかわかりません。ハンガリーからの選挙区レポート (投票記録用) を実行するようにトレーニングしました。クロール中にストリームに表示されたのとまったく同じページでトレーニングしても、トレーニング中に最初の 2 つのテキスト フィールドが正しく認識されます。その間、列は最終的なクロール中に空白のままになります。何が起こっていますか/間違っていますか? ありがとう!
クローラーはhttps://import.io/data/mine/?id=772c725f-6048-4861-9f73-03ae30d8f7cc
ストリームの最初の行のページの例は次のとおりです。http://valasztas.hu/dyn/pv14/szavossz/hu/M08/T150/szkjkv_029.html
保存されたストリームの最初の 2 行は次のとおりです。
代わりに、ページからszavazokor
言うべきであり、と言うべきです。Sopron 029
valasztokerulet
GYŐR–MOSON–SOPRON 04
トレーニング後に、クローラーが探しているパターンを詳しく調べるオプションは見つかりませんでした。
java - .\import.io の実行中に、Java ランタイム環境によって致命的なエラーが検出されました
リンクhttps://import.io/download/linuxに従って import.io をダウンロードしました
。import.io
それが言うように、私はターミナルのフォルダを抽出して中に入れました。しかし、実行しようとすると./import.io
、このエラーが発生します(以下に示します)。この問題を解決するために私に親切にアドバイスしてください。私はあなたの助けに感謝します。
Ubuntu 12.04 を使用しています。
Java バージョン
Java バージョン "1.7.0_51"
Java(TM) SE ランタイム環境 (ビルド 1.7.0_51-b13)
Java HotSpot(TM) 64 ビット サーバー VM (ビルド 24.51-b03、混合モード)
エラー
これがログです
編集
コメントセクションでAnone Moshが提案したようにスクリプトを実行しようとしたときのエラーは次のとおりです。ログもご覧ください。
ログ
web-scraping - import.io クローラーは robots.txt に従いますか?
import.ioクローラーを実行すると、robots.txt
ファイルに従いますか?
javascript - 基本的な import.io html 検索
import.io は私が使用しているものなので、スクレイピングや特に import.io の経験がある場合は、それが役立ちます...ただし、私の質問は本当に JS に関するものだと思います...
カスタム検索を実行できるように、基本的な html 入力を import.io JS コードに接続したいだけです。
これが私の行くところです...基本的な動作するimport.io JSの例です。入力名に変数を追加して、その変数を検索項目に追加しようとしましたが、それだけでは機能しません...
import.io チームに連絡したところ、将来はより簡単なチュートリアルを作成しようとしているとのことでしたが、今のところ、検索するための入力が含まれている粒子の例を見てみてください。入力がどのように機能するかを確認するためだけに分解します。
サーバーにアップロードした粒子の例を次に示します。少し遅いですが、動作していることがわかります-> http://www.originalengine.com/scrape/
javascript - クロールに関するスクレイピングのアドバイスと Javascript の onclick() 関数からの情報
この件に関する初心者ヘルプのスレッドをようやく見つけましたが、プログラミングの初心者であることもあり、この問題を解決する方法はありません:)
スレッドは次のとおりです: 初心者: Javascript の「onclick」ボタンを克服して Web ページをスクレイピングする方法は?
同様の問題があります。スクレイピングしたいサイトには多くの部品の情報がありますが、特定の部品情報 (会社、部品番号など) だけをスクレイピングしたいと考えています。2 つの問題があります。
検索情報を入力する必要なく、このサイトからそのような情報を取得するにはどうすればよいですか? クローラーを使用しますか?
部品番号にはページ上のほとんどの情報が含まれていますが、ページ上には Javascript の「onclick()」関数があり、クリックすると小さなウィンドウが開き、さらにスクレイピングしたい情報が表示されます。この追加ウィンドウで情報を取得するにはどうすればよいですか?
私は import.io を使用していますが、Selenium と PhantomJS に切り替えるように勧められています。他のツールについて、複雑すぎない(または提供された指示、それは素晴らしいでしょう!)他の提案を歓迎します。誰かがこの問題を解決するのを手伝ってくれたり、指示をくれたりしてくれたら本当にありがたいです. ありがとうございました。