この論文によると、分類と索引付けのための非常に高速なテキスト特徴抽出SpeedyFX は非常に高速なハッシュ アルゴリズムです。
誰かがこのアルゴリズムの Java 実装を持っているかどうか知りたいです。
この論文によると、分類と索引付けのための非常に高速なテキスト特徴抽出SpeedyFX は非常に高速なハッシュ アルゴリズムです。
誰かがこのアルゴリズムの Java 実装を持っているかどうか知りたいです。
元の実装には、UTF-8 と Unicode の処理に関して少し欠陥があります。Unicode プレーン 0のみを考慮しますが、実際にはプレーン 1 と 2 には多くの単語文字があります (2012 年 12 月 28 日現在、プレーン 3 から 16 には単語文字はありません)。
FWIW、 Perl モジュールText::SpeedyFxの一部として、C で SpeedyFx アルゴリズムを実装しました。UTF-8 と ISO 8859-1 でエンコードされた文字列の両方で、私にとっては非常にうまく機能しました。