Edit Distance / Levenshtein Distance に基づいて、ELKI を使用して多数の文字列をクラスター化する必要があります。データ セットが大きすぎるため、ファイル ベースの事前計算された距離行列は避けたいと思います。どうやって
(a) ファイルから ELKI に文字列データをロードしますか (「ラベル」のみ)?
(b) ラベルにアクセスする距離関数を実装します (AbstractDBIDDistanceFunction を拡張しますが、ラベルを取得する方法は?)
いくつかのコード スニペットまたは入力ファイルの例が役立ちます。