xml-parsing - Clojure Leining REPL OutOfMemoryError Java ヒープ領域

Question

かなり小さい (< 100MB) xml ファイルを次のように解析しようとしています。

(require '[clojure.data.xml :as xml]
         '[clojure.java.io :as io])

(xml/parse (io/reader "data/small-sample.xml"))

エラーが発生しています：

OutOfMemoryError Java heap space
    clojure.lang.Numbers.byte_array (Numbers.java:1216)
    clojure.tools.nrepl.bencode/read-bytes (bencode.clj:101)
    clojure.tools.nrepl.bencode/read-netstring* (bencode.clj:153)
    clojure.tools.nrepl.bencode/read-token (bencode.clj:244)
    clojure.tools.nrepl.bencode/read-bencode (bencode.clj:254)
    clojure.tools.nrepl.bencode/token-seq/fn--3178 (bencode.clj:295)
    clojure.core/repeatedly/fn--4705 (core.clj:4642)
    clojure.lang.LazySeq.sval (LazySeq.java:42)
    clojure.lang.LazySeq.seq (LazySeq.java:60)
    clojure.lang.RT.seq (RT.java:484)
    clojure.core/seq (core.clj:133)
    clojure.core/take-while/fn--4236 (core.clj:2564)

ここに私のproject.cljがあります:

(defproject dats "0.1.0-SNAPSHOT"
  ...
  :dependencies [[org.clojure/clojure "1.5.1"]
                [org.clojure/data.xml "0.0.7"]
                [criterium "0.4.1"]]
  :jvm-opts ["-Xmx1g"])

.bash_profile で LEIN_JVM_OPTS と JVM_OPTS を設定しようとしましたが、成功しませんでした。

次のproject.cljを試したとき：

(defproject barber "0.1.0-SNAPSHOT"
  ...
  :dependencies [[org.clojure/clojure "1.5.1"]
                [org.clojure/data.xml "0.0.7"]
                [criterium "0.4.1"]]
  :jvm-opts ["-Xms128m"])

次のエラーが表示されます。

Error occurred during initialization of VM
Incompatible minimum and maximum heap sizes specified
Exception in thread "Thread-5" clojure.lang.ExceptionInfo: Subprocess failed {:exit-code 1}

leiningen replのヒープサイズを増やす方法はありますか?

ありがとう。

score 4 · Accepted Answer

Repl の最上位レベルで評価されたフォームは、Read-Eval-Print-Loop の印刷ステップの結果として完全に実現されます。また、ヒープにも格納されるため、後で *1 経由でアクセスできます。

次のように戻り値を格納する場合:

(def parsed (xml/parse (io/reader "data/small-sample.xml")))

これは、サイズが数百メガバイトのファイルであっても、すぐに返されます (ローカルで確認しました)。次に、返された clojure.data.xml.Element ツリーを反復処理することにより、入力ストリームから解析されたときに完全に実現される結果を反復処理できます。

要素を保持しない場合 (アクセスできるようにバインドすることにより)、xml ツリーの 1 つのノードを保持するのに必要な RAM を使用せずに、構造全体を反復処理できます。

user> (time (def n (xml/parse (clojure.java.io/reader "/home/justin/clojure/ok/data.xml"))))
"Elapsed time: 0.739795 msecs"
#'user/n
user> (time (keys n))
"Elapsed time: 0.025683 msecs"
(:tag :attrs :content)
user> (time (-> n :tag))
"Elapsed time: 0.031224 msecs"
:catalog
user> (time (-> n :attrs))
"Elapsed time: 0.136522 msecs"
{}
user> (time (-> n :content first))
"Elapsed time: 0.095145 msecs"
#clojure.data.xml.Element{:tag :book, :attrs {:id "bk101"}, :content (#clojure.data.xml.Element{:tag :author, :attrs {}, :content ("Gambardella, Matthew")} #clojure.data.xml.Element{:tag :title, :attrs {}, :content ("XML Developer's Guide")} #clojure.data.xml.Element{:tag :genre, :attrs {}, :content ("Computer")} #clojure.data.xml.Element{:tag :price, :attrs {}, :content ("44.95")} #clojure.data.xml.Element{:tag :publish_date, :attrs {}, :content ("2000-10-01")} #clojure.data.xml.Element{:tag :description, :attrs {}, :content ("An in-depth look at creating applications \n      with XML.")})}
user> (time (-> n :content count))
"Elapsed time: 48178.512106 msecs"
459000
user> (time (-> n :content count))
"Elapsed time: 86.931114 msecs"
459000
;; redefining n so that we can test the performance without the pre-parsing done when we counted
user> (time (def n (xml/parse (clojure.java.io/reader "/home/justin/clojure/ok/data.xml"))))
"Elapsed time: 0.702885 msecs"
#'user/n
user> (time (doseq [el (take 100 (drop 100 (-> n :content)))] (println (:tag el))))
:book
:book
.... ;; output truncated
"Elapsed time: 26.019374 msecs"
nil
user>

大きな時間遅延が発生するのは、最初に n のコンテンツのカウントを要求したとき (したがって、ファイル全体を強制的に解析するとき) だけであることに注意してください。構造のサブセクションにまたがる場合、これは非常に迅速に行われます。

xml-parsing - Clojure Leining REPL OutOfMemoryError Java ヒープ領域

2 に答える 2

Related

Reference