0

そのため、私は多数のxmlファイルを取得しようとしています(特に大きなものはなく、適切と思われる場合は分割できます)。全部で約70GB相当のデータがあります。参考までに、ロードスクリプトはPythonで記述されており、psycopg2を使用してpostgresテーブルとインターフェイスします。

とにかく、私がやろうとしているのは、このように機能するデータを処理することです。リレーションカウントは2つのタグが一緒に表示された回数であり、タグカウントはタグが表示された回数です。私はすでにすべてのタグを持っていますが、それらが表示される回数と、問題となっているxmlのそれらが一緒に表示される回数を取得しています。

         タグテーブル| 関係表              
TagID TagName TagCount | tag1 tag2 RelationCount  
   1匹の犬20| 1 2 5  
   2ビーグル10| 1 3 2  
   3羽の鳥11| 2 3 7  

私が直面している問題は、妥当な時間内にデータをロードすることです。タグがxmlファイルに現れる頻度を数えるときに、更新メソッドを繰り返し処理してきました。

誰かアイデアがないか聞いていると思います。更新情報を保持するために何らかのバッファを作成し、cur.executeall()を定期的に使用しようとする必要があります。また、データベースを何らかの方法で再構築する必要があります。とにかく、この問題に関するありとあらゆる考えに感謝します。

4

1 に答える 1