均一で少し複雑ではないファイルからテキストを読み取る必要があります 基本的にはこの順序です
Index . word / DOC_id : position1 postition2 (....and so on), DOC_id : position1 postition2 (....and so on),
したがって、単語は n 個のドキュメントに表示され、ドキュメントに n 回表示される可能性があります。例として、ファイルの小さなセクションをコピーしていますが、スペースの制約により、何度も出てくる単語を入れることができません。
例:
13137 . speeding / D85 : 5999 ,
13138 . spell / D53 : 1513 ,
13139 . spelling / D3 : 344 351 ,
13140 . spending / D71 : 398 ,
13141 . spiderman / D60 : 650 733 997 1023 1053 1133 1152 1169 ,
13142 . spiders / D75 : 704 , D91 : 19834 ,
(...and so on)
誰でもこれで私を助けてください。また、このファイルを生成したときに、ファイルをより適切な方法でフォーマットできますか?再フォーマットして、より適切なフォーマットのテキスト ファイルを生成できるかもしれません。
ありがとうございました :)