Jvc、上記のすべてを実行できる既存の python モジュールがあります。
Web ページから情報を取得するために、私は Selenium ( http://seleniumhq.org/projects/ide/ ) を使用するのが好きです。基本的に、さまざまな識別子 (id、Xpath など) を使用して、任意の Web ページの情報をローカライズして取得できます。
ただし、winwaed が言ったように、特に一部の Web サイトでは動的コードを使用しているため、単に「パターン マッチング」を行っている場合は柔軟性に欠ける可能性があります。つまり、その後のページのリロードごとに識別子が変化する可能性があります。ただし、この問題は正規表現 (.*) をコードに追加することで解決できます。http://www.youtube.com/watch?v=Ap_DlSrT-iEの YouTube ビデオをご覧ください。彼は BeautifulSoup を使用して Web サイトをスクレイピングしていますが、正規表現を使用してページから情報を引き出す方法を見ることができます。
また、どのタイプのデータベースを使用しているかはわかりませんが、pyodbc ( http://code.google.com/p/pyodbc/ ) は SQL タイプや、Microsoft Access などの主流のデータベースで動作します。
したがって、私のアドバイスは、Webページ上の情報を見つけるためにSeleniumを調べ、それを保存および取得するためにpyodbcを調べ、識別子が動的である場合は正規表現を調べることです。