xls ファイルの各行の内容を取得し、そこから単語のリスト (rex を使用して特定のパターンを持つ) を抽出し、このリストを現在の行の後のすべての行で抽出されたすべてのリストと比較できる python スクリプトを作成しようとしています。ファイルの終わりまで行。同じリストを持つ行を削除します。2 つのリスト内の単語は順序付けされていない可能性がありますが、それでも内容は同じであることに注意してください。
助けていただければ幸いです。
xls ファイルの各行の内容を取得し、そこから単語のリスト (rex を使用して特定のパターンを持つ) を抽出し、このリストを現在の行の後のすべての行で抽出されたすべてのリストと比較できる python スクリプトを作成しようとしています。ファイルの終わりまで行。同じリストを持つ行を削除します。2 つのリスト内の単語は順序付けされていない可能性がありますが、それでも内容は同じであることに注意してください。
助けていただければ幸いです。
この問題は、ソートされていない配列から同様の要素を削除する場合とよく似ています。あなたがしなければならないことは、正規表現に一致する単語の数に基づいてすべての行のハッシュを行い、次にこれらの各バケットで類似性を比較することです.
コードをかなりスケーラブルにすることもできます。
buckets={}
for row in rows:
if bucket[row.length] is None:
bucket[row.length]={}
bucket[row.length].append(row)
#now do your matching
for bucket in buckets:
#match and delete.