python - 文字列比較ブースティング用の cuDF

翻译自：https://stackoverflow.com/questions/64095376 2020-09-28T02:58:07.163

102 次

2 つの大きな csv ファイル間の一致を見つける作業を行っています。この関数を使用して、2 つの文字列間の類似性を計算します。指定された比率が事前定義されたしきい値よりも大きい場合、これを一致として受け入れます。

def similar(a, b): return SequenceMatcher(None, a, b).ratio()

両方のファイルのすべての行を確認する必要があるため、時間の複雑さは O(n^2) です。ハッシュを使用して時間の複雑さを O(n) に減らすことを検討しましたが、それは私の一致を柔軟性のない完全一致に制限します。ただし、最初の方法では、CPU を搭載したローカルコンピューターで実行するには数日かかります。そこで、cuDF を使って GPU での動作を高速化する方法はないかと考えています。

また、cuDF の applymap 関数を試したところ、文字列 dtype をサポートしていないとのことでした。これを実装するために cuDF を使用できる他の方法はありますか? ありがとうございました！

python - 文字列比較ブースティング用の cuDF

0 に答える 0

Related

Reference