2

100,000 以上の文字列を含む列があります。これらの文字列を Google Refine に指紋で置き換えてもらいたいと考えています。

Google Refine で列を選択し、テキスト ファセットを作成しました。そのテキスト ファセットから、「クラスター」を選択できます。これにより、クラスターが表示されます。これは、同じフィンガープリントを持つ文字列値を意味すると想定し、クラスターの最初のメンバーの名前にデフォルト設定されている新しいセル値を選択できるようにします。

この名前が単なる指紋であることを願っています。その理由は、複数のファイルに対してこの操作を実行する必要があり、それらが実際に同じクラスターの一部である場合は、それらが同じ値である必要があるためです。Refine FAQ に従ってメモリパラメータを最適化しても、Refine が処理するにはデータが多すぎるため、ファイルを連結できません。

したがって、列の各セルを取得し、その指紋を計算し、列の値を指紋で置き換える操作を探しているだけです。

OSX 10.7 で Google Refine 2.5 を使用しています

4

1 に答える 1

2

何千もの選択肢があるテキスト ファセットは、ブラウザーの動作を遅くします。クラスタリングにアクセスする手段としてのみファセットを使用している場合は、次を使用して同じ機能を利用できます。Edit Cells -> Cluster and Edit

フィンガープリントを計算するには、適切な名前のフィンガープリント関数を使用します。つまりvalue.fingerprint()、元の値が再び必要になった場合に備えて、元の値を上書きするのではなく、新しい列を追加することをお勧めします。

于 2012-11-27T18:55:57.660 に答える