1

--token-regex '[\p{L}\p{M}]+',マレットがドイツ語のテキストを読めるように、テキストをインポートするための通常のコマンドでコマンドを使用しようとしています。エラー メッセージは表示されず、新しいファイルが作成されます。しかし、それは疑わしいほど小さいです。次に、train-topicstopic-model を使用して実行すると、次のエラー メッセージが表示されます。

3       5
4       5
5       5
6       5
7       5
8       5
9       5
Infinite value after topic 0 0
<350> LL/token: ´┐¢
Infinite value after topic 0 0
<360> LL/token: ´┐¢
Infinite value after topic 0 0
<370> LL/token: ´┐¢
Infinite value after topic 0 0
<380> LL/token: ´┐¢
Infinite value after topic 0 0
<390> LL/token: ´┐¢

さまざまなトークン正規表現コマンドを使用して何時間もこれを修正しようとしましたが、何も機能していないようです。助けがあれば大歓迎です。

4

1 に答える 1

-2

Windows を使用している場合は、次のようにしてみてください。

--token-regex "[\p{L}\p{M}]+"

UPD: 「cmd.exe の一重引用符と二重引用符」に関する議論はこちら: Windows バッチ ファイルで一重引用符は何をしますか?

于 2015-03-26T08:47:19.117 に答える