問題タブ [import.io]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - importi.io : 一部のデータがインポートされていないか、同じ列に混在している
この Web ページで import.io の Magic API を使用しています。
一部のタイプの情報/フィールドは完全に抽出されます。
しかし、エクストラクター:
NOR 番号フィールド (例: NOR DEVL1502938A) とページ数を表す番号 (例: 10) を同じ列に混在させます。おそらく、両方ともリンクされたテキストであるためです (タグは次のとおりです: a title="[...]" href="[...]" )
次に、書誌参照フィールド (例: JO du 04/04/2015 texte : 0080;10 pages 6232/6241) を NOR 番号フィールドと混合します。NOR が体系的に参照の前にあり、Web ページの同じ行にないため、私には奇妙に思えます (書誌参照フィールドの前にbr/タグがあります)。
テキスト要約のコンテンツのロードに頻繁に失敗します (例: (Application de l'art. R. 411-1 et s. du code de l'environnement - Abrogation de l'arrêté du 15 mai 1986 fixant sur tout ou partie duテリトワール・ナショナル・デ・メジュール・デ・プロテクション・デ・オワゾー・レプレセンテ・ダン・ル・デパートメント・ド・ラ・ガイアナ))を1列に。代わりに、それをさまざまな列に広げます。span class="noir"タグの後にemタグを挿入すると発生することがわかります。例 :
アプリケーション・デ・アート。R. 213-49-2 du code de l'environnement - Abrogation de l'arrêté du 10 août 2011 relatif à la definition du perimètre de l'Etablissement public du Marais poitevin)
New Extractor を使用するか、特別な Google リクエスト結果 Web ページ ( https://www.google.fr/search?q=PROTECTION+FAUNE+et+FLORE+SAUVAGES+site:legifrance.gouv) を試してみました。 fr+filetype:pdf . 無駄に。代替の Google Web ページは、さらに悪い結果をもたらします。
どんなアイデアでも歓迎します:
2番目の問題の理由について
Legifrance ページの 3 つの問題をどのように克服できるかを説明します。
最後まで読んでくれてありがとう:-)
PS : 私は主に研究者として働いていることに注意してください。ロジックは理解できますが、Regex や Json には詳しくありません。それらを使用する必要がある場合は、背後にあるロジックを説明するか、理想的なコードの十分な部分を示して、効果的に複製できるようにしてください。
pagination - import.io を使用してページ分割された結果をスクレイプするための最良のアプローチ
クルーズ業界には、スクレイピングしたいウェブサイトがいくつかあります。例: http://www.silversea.com/cruise/cruise-results/?page_num=1 http://www.seabourn.com/find-luxury-cruise-vacation/FindCruises.action?cfVer=2&destCode=&durationCode= &dateCode=&shipCodeSearch=&portCode=
最初に示したようないくつかのシナリオでは、結果ページはパターン (?page_num=1...17) に従います。ただし、結果の数は時間の経過とともに変化します。
2 番目のシナリオでは、URL はページネーションによって変更されません。
結局のところ、私がやりたいことは、各 Web サイトの結果を 1 つのファイルにまとめることです。
Q1: シナリオ 1 に 17 個のスクレーパーを設定し、時間の経過とともに結果が拡大/縮小するのを積極的に監視する代わりに何か方法はありますか?
Q2: 2 番目のシナリオからコンテンツをスクレイピングする方法について完全に困惑しています。
xpath - import.io : XPATH を使用して独立した行を結果に挿入する
import.io : ScoreCard を使用してこのサイトをスクレイピングしようとしています。
バッティングスコアを正常に取得できましたが、イニングについて教えてくれる追加の列を最後に挿入したいと思います。したがって、それは打者の名前に関連している必要があります。
私は XPATH: を使用しようとしまし//*[@id="innings_1"]/div[1]/div/h4/b
たが、それは常に First Inning を ID is として返します"innings_1"
。他の IDinnings_2/3/4
などがあります。Batsman 列に関連するこの要素を取得できる XPATH の方法はありますか?
web-crawler - 商品詳細ページをクロールするときに列を動的に割り当てますか?
私は import.io とスタック オーバーフローにまったく慣れていません。親切にしてください。
ジュエリーを販売するオンライン ショップの商品詳細ページをクロールしようとしています。
特徴
性別 男性
テクニカル スタイル クォーツ
素材 ステンレススチール
等
太字のテキストを列名として動的に抽出し、太字でないテキストを列の値として動的に抽出するようにクローラーをトレーニングすることは可能ですか? つまり、列「性別」の値は「男性」などです。他の製品詳細ページでは、機能が「性別」で始まらない可能性があると想定しています。
助けてくれてありがとう!
html - dt タグを使用した import.io の手動 xpath オーバーライド
import.io のトレーニング ブログと W3schools を経験した後でも、xpath オーバーライドを記述することは、私にとってまだ苦労しています。情報が常に正確に同じ場所にあるとは限らないサイトから属性値を抽出しようとしているので、xpath オーバーライドを記述する必要があることがわかっています。HTML は次のとおりです。
xpathは
私が試してみました
と
しかし、運がありません。従兄弟か従兄弟かはわかりません。どんな助けでも大歓迎です。
web-scraping - import.io はどのようにその魔法を行うのでしょうか?
import.io がどのように機能するかについて、大まかな概要を説明できる人はいますか?
たとえば、試してみてください
ナビゲーションとサブメニューを完全に見つけます。
スクレイパーは、このようにフィードされた Web サイトを操作するレベルまで抽象化するにはどうすればよいでしょうか? 特定の Web サイトの DOM 構造やクラス名に依存しない。
私はそれがクローズド ソースであることを知っています。明らかに、ここで幅広いレベルで尋ねているだけです...私たちの最善の推測は何ですか?