そのため、私は多数のxmlファイルを取得しようとしています(特に大きなものはなく、適切と思われる場合は分割できます)。全部で約70GB相当のデータがあります。参考までに、ロードスクリプトはPythonで記述されており、psycopg2を使用してpostgresテーブルとインターフェイスします。
とにかく、私がやろうとしているのは、このように機能するデータを処理することです。リレーションカウントは2つのタグが一緒に表示された回数であり、タグカウントはタグが表示された回数です。私はすでにすべてのタグを持っていますが、それらが表示される回数と、問題となっているxmlのそれらが一緒に表示される回数を取得しています。
タグテーブル| 関係表
TagID TagName TagCount | tag1 tag2 RelationCount
1匹の犬20| 1 2 5
2ビーグル10| 1 3 2
3羽の鳥11| 2 3 7
私が直面している問題は、妥当な時間内にデータをロードすることです。タグがxmlファイルに現れる頻度を数えるときに、更新メソッドを繰り返し処理してきました。
誰かアイデアがないか聞いていると思います。更新情報を保持するために何らかのバッファを作成し、cur.executeall()を定期的に使用しようとする必要があります。また、データベースを何らかの方法で再構築する必要があります。とにかく、この問題に関するありとあらゆる考えに感謝します。