1

ウィキペディアのダンプ (このページの最初のトレント) をダウンロードし、すべてのリンクを Python 辞書に格納してインデックスを作成しようとしました。現在のページのキーを使用して、リンクを目的地のリストとして辞書に保存しました。しかし、ダンプを処理したときに MemoryError が発生したため、各ページに整数 ID を割り当てることにしました。これで先に進みましたが、それでも MemoryError が発生しました。それなしでこれを処理するにはどうすればよいですか?私はそれをすべてメモリに保存することを好みます。私のコードはかなり長いので、ここに投稿しました。

4

1 に答える 1

1

ID と関連するリンクをインデックス化するために、データベースの調査を開始する必要があります。

まず、 SqliteまたはMySQLを試すことができます。

そして、ここで python データベース処理の開始点です。

個人的には、Python モジュール psycopg2 と組み合わせて使用​​されるPostgresqlが好きです。

于 2013-04-21T15:12:54.297 に答える