8

私のリンク スクレイピング プログラム (python3.3 で作成) では、データベースを使用して約 100.000 の Web サイトを保存したいと考えています。

  • URLだけで、
  • タイムスタンプ
  • 各ウェブサイトのいくつかのプロパティのリスト

データベースについての知識はありませんが、次のものが私の目的に合っている可能性があります。

  • Postgresql
  • SQLite
  • 火の鳥

(データベースにアクセスして必要な情報を取得するための) 速度に関心があります。例: Web サイト x の場合、プロパティ y が存在し、存在する場合はそれを読み取ります。もちろん、書くスピードも重要です。

私の質問: 速度に大きな違いはありますか、それとも私の小さなプログラムには関係ありませんか? 誰かが私の要件に合ったデータベースを教えてくれるかもしれません (そして、Python で簡単に扱えます)。

4

2 に答える 2

5

データベースのサイズと規模はそれほど大きくなく、ほとんどすべての市販のデータベース ソリューションの範囲内です。

基本的に、マシンにデータベース サーバーをインストールすると、特定のポートで起動します。その後、Python にライブラリをインストールしてアクセスできます。

たとえば、Postgresql を使用する場合は、マシンにインストールすると、5000 やポート 5432 などのポートに接続されて起動します。

しかし、保存して取得する情報だけを持っている場合は、非常に簡単な NoSQL ソリューションを使用することをお勧めします。

たとえば、サーバーにmongodb をインストールしてから pymongo をインストールできます。pymongo のチュートリアルは、アプリケーションに必要なほとんどすべてを教えてくれます。

于 2013-08-06T20:50:40.770 に答える