2 つの大きな csv ファイル間の一致を見つける作業を行っています。この関数を使用して、2 つの文字列間の類似性を計算します。指定された比率が事前定義されたしきい値よりも大きい場合、これを一致として受け入れます。
def similar(a, b): return SequenceMatcher(None, a, b).ratio()
両方のファイルのすべての行を確認する必要があるため、時間の複雑さは O(n^2) です。ハッシュを使用して時間の複雑さを O(n) に減らすことを検討しましたが、それは私の一致を柔軟性のない完全一致に制限します。ただし、最初の方法では、CPU を搭載したローカル コンピューターで実行するには数日かかります。そこで、cuDF を使って GPU での動作を高速化する方法はないかと考えています。
また、cuDF の applymap 関数を試したところ、文字列 dtype をサポートしていないとのことでした。これを実装するために cuDF を使用できる他の方法はありますか? ありがとうございました!