xml - import.io のクローラーで Web ページ要素の適切な XPath を取得できません

Question

私はプログラミングの知識が乏しく (現在生態学の博士号を取得中)、import.io の Crawler を使用して、研究プロジェクトのために Web サイト Allociné (フランス最大の映画データベース) からの映画データを使用して .csv ファイルを作成しようとしています。わかりやすいツールが最良のアイデアのように思えました。

私が必要とするすべての映画のために：

映画のタイトル
リリース日 (FR では「Date de Sortie」)
映画のジャンル

以下は Allocine 映画ページの例です (Star Wars I): http://www.allocine.fr/film/fichefilm_gen_cfilm=20754.html

最初に import.io の選択ツールを使用してみましたが、一部の映画には 1 つではなく 2 つのリリース日があるため機能しませんでした (上記の SW1 - 1999 年のオリジナルリリースと 2012 年の 3D リリース (「リプライズ」) のように) - これは台無しになりましたクローラー。そのため、必要な要素を特定するために XPath を使用する必要がありました。タイトルは ( を使用して//title) 正常に機能しますが、リリース日とジャンルに問題があります。

リリース日について、ページのソースから抽出した XPath は次のとおりです。

//*[@id="col_main"]/div[4]/div/div[2]/table/tbody/tr[2]/td/a/strong/span

最後に追加/@contentして、yyyy-MM-dd 形式で日付を取得しました。これにより、次のようになりました。

//*[@id="col_main"]/div[4]/div/div[2]/table/tbody/tr[2]/td/a/strong/span/@content

しかし、import.io は、彼に見つけてもらいたい要素を認識しません。

ジャンルについても、同じように、最初のジャンル (サイエンスフィクション) の Chrome から次の XPath を取得しました。

//*[@id="col_main"]/div[4]/div/div[2]/table/tbody/tr[5]/td/a[1]/span

すべてのジャンルを収集するには import.io が必要なので、[1]fromを削除しa[1]て全体を取得しましたa。

//*[@id="col_main"]/div[4]/div/div[2]/table/tbody/tr[5]/td/a/span

どちらも機能しません。import.io は null 要素を返します。

したがって、なぜ機能しないのかについての説明は非常に高く評価されます! 私が言ったように、私はまったく専門家ではありません。

ブレーズ

xml - import.io のクローラーで Web ページ要素の適切な XPath を取得できません

1 に答える 1

Related

Reference