0

Stanford POS Tagger を使用してコーパスをトレーニングしています。設定ファイル「Prop」を用意し、データをフォーマットしてトレーニングを開始しました。

その後、「Lambda Too Big」などのメッセージが表示されるようになり、これらのメッセージはトレーニングが終了するまで発生し続けました。後でモデルを試してみましたが、「メモリ不足の例外」が発生し続けました。40 GB を超える RAM を搭載した HPC でモデルを疲れさせ、25 GB を使用するように Java のヒープ スペースを増やしましたが、同じ問題がまだ発生しています。

私が使用するコーパスには約 6000 の文があり、文の最小単語数は 3 で、最大は 128 単語です。{p1}{p2} のように、1 つの単語に 3 つのタグを同時に付けることができます。

トレーニングを開始すると、ログは次のようになります。

 pcond initialized
 zlambda initialized
 ftildeArr initialized
QNMinimizer called on double function of 337720 variables, using M = 10.

Iter. 0: neg. log cond. likelihood = 821394.2976644086 [1 calls to valueAt]
          An explanation of the output:
Iter           The number of iterations
evals          The number of function evaluations
SCALING        <D> Diagonal scaling was used; <I> Scaled Identity
LINESEARCH     [## M steplength]  Minpack linesearch
                   1-Function value was too high
                   2-Value ok, gradient positive, positive curvature
                   3-Value ok, gradient negative, positive curvature
                   4-Value ok, gradient negative, negative curvature
               [.. B]  Backtracking
VALUE          The current function value
TIME           Total elapsed time
|GNORM|        The current norm of the gradient
{RELNORM}      The ratio of the current to initial gradient norms
AVEIMPROVE     The average improvement / current value
EVALSCORE      The last available eval score

Iter ## evals ## <SCALING> [LINESEARCH] VALUE TIME |GNORM| {RELNORM} AVEIMPROVE
EVALSCORE

Iter 1 evals 1 <D> [lambda 5525 too big: 623.532051211901
lambda 28341 too big: 623.5660256059567
lambda 153849 too big: 623.5660256059567

また、小道具ファイルで使用される設定は次のとおりです。

## tagger training invoked at Thu Mar 03 01:31:10 AST 2016 with arguments:
                   model = arabic.New.tagger
                    arch = words(-2,2),order(1),prefix(6),suffix(6),unicodeshapes(1)
            wordFunction = 
               trainFile = format=TSV,Train.txt
         closedClassTags = 
 closedClassTagThreshold = 40
 curWordMinFeatureThresh = 1
                   debug = false
             debugPrefix = 
            tagSeparator = /
                encoding = UTF-8
              iterations = 100
                    lang = arabic
    learnClosedClassTags = false
        minFeatureThresh = 3
           openClassTags = 
rareWordMinFeatureThresh = 3
          rareWordThresh = 5
                  search = qn
                    sgml = false
            sigmaSquared = 0.0
                   regL1 = 0.75
               tagInside = 
                tokenize = false
        tokenizerFactory = edu.stanford.nlp.process.WhitespaceTokenizer
        tokenizerOptions = 
                 verbose = false
          verboseResults = true
    veryCommonWordThresh = 250
                xmlInput = 
              outputFile = 
            outputFormat = slashTags
     outputFormatOptions = 
                nthreads = 1

誰が私が間違っているのか教えてもらえますか?

4

1 に答える 1