0

「X エピソードのリスト」ウィキペディアのページ (X はテレビ番組の名前) にある情報に基づいて、ファイルの名前を変更するスクリプトを作成しています。例: http://en.wikipedia.org/wiki/List_of_MythBusters_episodes . ウィキペディア API を使用して、記事からデータをスクレイピングしています。

利用可能なテレビ番組をスクリプトで処理したいのですが、その番組に関するウィキペディアの記事があるかどうかを判断する方法がわかりません。検索したい番組のタイトルが与えられた場合、エピソードのリストを含む記事が存在するかどうかを判断し、存在する場合は URL を返す最良の方法は何ですか? おそらく最良の方法は、ウィキペディアをクロールして、それぞれの記事の URL にショーをリンクするデータベース/辞書/ハッシュマップを開発することだと思いますが、そのようなことを行う方法に慣れていません。

たとえば、オフィスには米国版の記事と英国版の別の記事があり、記事の URL がドクター・フーのように標準形式に従っていない場合があるため、URL が何であるかを単純に推測することはできません。エピソードではなくシリアルという言葉を使用します。

現在、いくつかの基本的な番組をテストするために、ハードコードされた辞書を用意しています。

shows = {"The Office" : "List_of_The_Office_(U.S._TV_series)_episodes", \
         "Breaking Bad" : "List_of_Breaking_Bad_episodes", \
         "Community" : "List_of_Community_episodes", \
         "Parks and Recreation" : "List_of_Parks_and_Recreation_episodes", \
         "Game of Thrones" : "List_of_Game_of_Thrones_episodes", \
         "Doctor Who (2005+)" : "List_of_Doctor_Who_serials", \
         "Adventure Time" : "List_of_Adventure_Time_episodes", \
         "Suits" : "List_of_Suits_episodes"}

明らかに、利用可能なすべての可能なショーに対してこれをハードコーディングしたくありません。どんな提案でも大歓迎です!

4

1 に答える 1