ウィキペディアのダンプ (このページの最初のトレント) をダウンロードし、すべてのリンクを Python 辞書に格納してインデックスを作成しようとしました。現在のページのキーを使用して、リンクを目的地のリストとして辞書に保存しました。しかし、ダンプを処理したときに MemoryError が発生したため、各ページに整数 ID を割り当てることにしました。これで先に進みましたが、それでも MemoryError が発生しました。それなしでこれを処理するにはどうすればよいですか?私はそれをすべてメモリに保存することを好みます。私のコードはかなり長いので、ここに投稿しました。
質問する
110 次
1 に答える
1
ID と関連するリンクをインデックス化するために、データベースの調査を開始する必要があります。
まず、 SqliteまたはMySQLを試すことができます。
そして、ここで python データベース処理の開始点です。
個人的には、Python モジュール psycopg2 と組み合わせて使用されるPostgresqlが好きです。
于 2013-04-21T15:12:54.297 に答える