100,000 以上の文字列を含む列があります。これらの文字列を Google Refine に指紋で置き換えてもらいたいと考えています。
Google Refine で列を選択し、テキスト ファセットを作成しました。そのテキスト ファセットから、「クラスター」を選択できます。これにより、クラスターが表示されます。これは、同じフィンガープリントを持つ文字列値を意味すると想定し、クラスターの最初のメンバーの名前にデフォルト設定されている新しいセル値を選択できるようにします。
この名前が単なる指紋であることを願っています。その理由は、複数のファイルに対してこの操作を実行する必要があり、それらが実際に同じクラスターの一部である場合は、それらが同じ値である必要があるためです。Refine FAQ に従ってメモリパラメータを最適化しても、Refine が処理するにはデータが多すぎるため、ファイルを連結できません。
したがって、列の各セルを取得し、その指紋を計算し、列の値を指紋で置き換える操作を探しているだけです。
OSX 10.7 で Google Refine 2.5 を使用しています