0

ここでキツネザルのインデックス作成チュートリアルを少し行ってきました。

http://www.lemurproject.org/tutorials/begin_indexing-1.php

一見適切にフォーマットされたファイルを含む 1 つのドキュメントを含む "コーパス" フォルダーを作成しました。

<DOC>
<DOCNO>1</DOCNO>
<TEXT>
    Here is some text
</TEXT>
</DOC>

次の構成ファイルを作成しました。

<parameters>
  <corpus>
    <path>C:\Users\Tristan\Documents\lemur\corpus</path>
    <class>trectext</class>
  </corpus>
  <memory>256m</memory>
  <index>C:\Users\Tristan\Documents\lemur\index</index>
</parameters>

ただし、実行すると:

IndriBuildIndex.exe C:\Users\Tristan\Documents\lemur\config\parameter.xml

不可解な例外が発生します。

0:00: Opened repository C:\Users\Tristan\Documents\lemur\index
0:00: Opened C:\Users\Tristan\Documents\lemur\corpus\1
0:00: Error in C:\Users\Tristan\Documents\lemur\corpus\1 : .\src\TaggedDocumentI
terator.cpp(213): Malformed document: C:\Users\Tristan\Documents\lemur\corpus\1
0:00: Closing index
0:00: Finished

ソース内の関連する関数を見ましたが、特に何も飛び出していません。何か案は?

4

1 に答える 1

0

ドキュメントファイルをUNIX形式で保存することになり、うまくいきました。ただし、何らかの理由で行末を手動で修正してもうまくいかないことに注意してください。そのため、キツネザルが好まない以外に、ウィンドウがファイルに追加するものがあります。

于 2010-02-20T06:25:49.113 に答える