1

import.io は、クロールされたサイトから何を抽出するかをいくつかのページでツールをトレーニングすることにより、Web スクレイピングを高速化するのに最適です。それでも、現在のクローラーの何が問題なのかわかりません。ハンガリーからの選挙区レポート (投票記録用) を実行するようにトレーニングしました。クロール中にストリームに表示されたのとまったく同じページでトレーニングしても、トレーニング中に最初の 2 つのテキスト フィールドが正しく認識されます。その間、列は最終的なクロール中に空白のままになります。何が起こっていますか/間違っていますか? ありがとう!

クローラーはhttps://import.io/data/mine/?id=772c725f-6048-4861-9f73-03ae30d8f7cc

ストリームの最初の行のページの例は次のとおりです。http://valasztas.hu/dyn/pv14/szavossz/hu/M08/T150/szkjkv_029.html

保存されたストリームの最初の 2 行は次のとおりです。

_url,_position,szavazokor,valasztokerulet,valasztok_szama,megjelentek_szama,megjelentek_szama/_source,ervenyes_lapok_szama,ervenyes_lapok_szama/_source,mcp,mcp/_source,haza_nem_elado,haza_nem_elado/_source,sms,sms/_source,fkgp,fkgp/_source,udp,udp/_source,fidesz,fidesz/_source,sem,sem/_source,lmp,lmp/_source,jesz,jesz/_source,ump,ump/_source,munkaspart,munkaspart/_source,szocialdemokratak,szocialdemokratak/_source,kti,kti/_source,egyutt2014,egyutt2014/_source,zoldek,zoldek/_source,osszefogas,osszefogas/_source,kormanyvaltok,kormanyvaltok/_source,jobbik,jobbik/_source,osszes_ervenyes_listas,osszes_ervenyes_listas/_source
"http://valasztas.hu/dyn/pv14/szavossz/hu/M08/T150/szkjkv_029.html","1","","","825","478","478","478","478","0","0","1","1","2","2","1","1","0","0","221","221","1","1","34","34","0","0","0","0","0","0","0","0","2","2","1","1","3","3","0","0","129","129","80","80","475","475"

代わりに、ページからszavazokor言うべきであり、と言うべきです。Sopron 029valasztokeruletGYŐR–MOSON–SOPRON 04

トレーニング後に、クローラーが探しているパターンを詳しく調べるオプションは見つかりませんでした。

4

1 に答える 1

1

先ほどあなたのクローラーを見てみましたが、提供されたすべてのトレーニング データと一致しているのに、期待どおりに機能していないのは実に奇妙です。チームに調査を依頼しました。

列の手動正規表現オーバーライドを指定できるという潜在的な回避策があります。

最初の列を作成する (または、列ヘッダーの [テキスト] リンクをクリックして既存の列を編集する) ときに、[詳細設定] ボックスをオンにして、[手動正規表現オーバーライド] を指定できます。ここに を入れ(.+?).számú szavazókörます。2 番目の列では、 を使用し(.+?).számú egyéni választókerületi szavazásました。

問題は解決しましたか?

ps まだ推測していない場合は、私は import.io で働いています

于 2014-04-14T09:36:51.377 に答える