私はプログラミングの知識が乏しく (現在生態学の博士号を取得中)、import.io の Crawler を使用して、研究プロジェクトのために Web サイト Allociné (フランス最大の映画データベース) からの映画データを使用して .csv ファイルを作成しようとしています。わかりやすいツールが最良のアイデアのように思えました。
私が必要とするすべての映画のために:
- 映画のタイトル
- リリース日 (FR では「Date de Sortie」)
- 映画のジャンル
以下は Allocine 映画ページの例です (Star Wars I): http://www.allocine.fr/film/fichefilm_gen_cfilm=20754.html
最初に import.io の選択ツールを使用してみましたが、一部の映画には 1 つではなく 2 つのリリース日があるため機能しませんでした (上記の SW1 - 1999 年のオリジナル リリースと 2012 年の 3D リリース (「リプライズ」) のように) - これは台無しになりましたクローラー。そのため、必要な要素を特定するために XPath を使用する必要がありました。タイトルは ( を使用して//title
) 正常に機能しますが、リリース日とジャンルに問題があります。
リリース日について、ページのソースから抽出した XPath は次のとおりです。
//*[@id="col_main"]/div[4]/div/div[2]/table/tbody/tr[2]/td/a/strong/span
最後に追加/@content
して、yyyy-MM-dd 形式で日付を取得しました。これにより、次のようになりました。
//*[@id="col_main"]/div[4]/div/div[2]/table/tbody/tr[2]/td/a/strong/span/@content
しかし、import.io は、彼に見つけてもらいたい要素を認識しません。
ジャンルについても、同じように、最初のジャンル (サイエンス フィクション) の Chrome から次の XPath を取得しました。
//*[@id="col_main"]/div[4]/div/div[2]/table/tbody/tr[5]/td/a[1]/span
すべてのジャンルを収集するには import.io が必要なので、[1]
fromを削除しa[1]
て全体を取得しましたa
。
//*[@id="col_main"]/div[4]/div/div[2]/table/tbody/tr[5]/td/a/span
どちらも機能しません。import.io は null 要素を返します。
したがって、なぜ機能しないのかについての説明は非常に高く評価されます! 私が言ったように、私はまったく専門家ではありません。
ブレーズ