python - 情報間の関係を分析するためのデータベースを効率的に作成する

Question

そのため、私は多数のxmlファイルを取得しようとしています（特に大きなものはなく、適切と思われる場合は分割できます）。全部で約70GB相当のデータがあります。参考までに、ロードスクリプトはPythonで記述されており、psycopg2を使用してpostgresテーブルとインターフェイスします。

とにかく、私がやろうとしているのは、このように機能するデータを処理することです。リレーションカウントは2つのタグが一緒に表示された回数であり、タグカウントはタグが表示された回数です。私はすでにすべてのタグを持っていますが、それらが表示される回数と、問題となっているxmlのそれらが一緒に表示される回数を取得しています。

         タグテーブル| 関係表

TagID TagName TagCount | tag1 tag2 RelationCount

   1匹の犬20| 1 2 5

   2ビーグル10| 1 3 2

   3羽の鳥11| 2 3 7

私が直面している問題は、妥当な時間内にデータをロードすることです。タグがxmlファイルに現れる頻度を数えるときに、更新メソッドを繰り返し処理してきました。

誰かアイデアがないか聞いていると思います。更新情報を保持するために何らかのバッファを作成し、cur.executeall（）を定期的に使用しようとする必要があります。また、データベースを何らかの方法で再構築する必要があります。とにかく、この問題に関するありとあらゆる考えに感謝します。

python - 情報間の関係を分析するためのデータベースを効率的に作成する

1 に答える 1

Related

Reference