2

この論文によると、分類と索引付けのための非常に高速なテキスト特徴抽出SpeedyFX は非常に高速なハッシュ アルゴリズムです。

誰かがこのアルゴリズムの Java 実装を持っているかどうか知りたいです。

4

1 に答える 1

2

元の実装には、UTF-8 と Unicode の処理に関して少し欠陥があります。Unicode プレーン 0のみを考慮しますが、実際にはプレーン 1 と 2 には多くの単語文字があります (2012 年 12 月 28 日現在、プレーン 3 から 16 には単語文字はありません)。

FWIW、 Perl モジュールText::SpeedyFxの一部として、C で SpeedyFx アルゴリズムを実装しました。UTF-8 と ISO 8859-1 でエンコードされた文字列の両方で、私にとっては非常にうまく機能しました。

于 2012-12-28T15:55:56.320 に答える