import.io は、クロールされたサイトから何を抽出するかをいくつかのページでツールをトレーニングすることにより、Web スクレイピングを高速化するのに最適です。それでも、現在のクローラーの何が問題なのかわかりません。ハンガリーからの選挙区レポート (投票記録用) を実行するようにトレーニングしました。クロール中にストリームに表示されたのとまったく同じページでトレーニングしても、トレーニング中に最初の 2 つのテキスト フィールドが正しく認識されます。その間、列は最終的なクロール中に空白のままになります。何が起こっていますか/間違っていますか? ありがとう!
クローラーはhttps://import.io/data/mine/?id=772c725f-6048-4861-9f73-03ae30d8f7cc
ストリームの最初の行のページの例は次のとおりです。http://valasztas.hu/dyn/pv14/szavossz/hu/M08/T150/szkjkv_029.html
保存されたストリームの最初の 2 行は次のとおりです。
_url,_position,szavazokor,valasztokerulet,valasztok_szama,megjelentek_szama,megjelentek_szama/_source,ervenyes_lapok_szama,ervenyes_lapok_szama/_source,mcp,mcp/_source,haza_nem_elado,haza_nem_elado/_source,sms,sms/_source,fkgp,fkgp/_source,udp,udp/_source,fidesz,fidesz/_source,sem,sem/_source,lmp,lmp/_source,jesz,jesz/_source,ump,ump/_source,munkaspart,munkaspart/_source,szocialdemokratak,szocialdemokratak/_source,kti,kti/_source,egyutt2014,egyutt2014/_source,zoldek,zoldek/_source,osszefogas,osszefogas/_source,kormanyvaltok,kormanyvaltok/_source,jobbik,jobbik/_source,osszes_ervenyes_listas,osszes_ervenyes_listas/_source "http://valasztas.hu/dyn/pv14/szavossz/hu/M08/T150/szkjkv_029.html","1","","","825","478","478","478","478","0","0","1","1","2","2","1","1","0","0","221","221","1","1","34","34","0","0","0","0","0","0","0","0","2","2","1","1","3","3","0","0","129","129","80","80","475","475"
代わりに、ページからszavazokor
言うべきであり、と言うべきです。Sopron 029
valasztokerulet
GYŐR–MOSON–SOPRON 04
トレーニング後に、クローラーが探しているパターンを詳しく調べるオプションは見つかりませんでした。