私は Python の初心者で、巨大な txt ファイル内の特定の文字列セットの存在を確認する必要があります。これまでにこのコードを作成しましたが、データベースの軽いサブサンプルでは問題なく実行されます。問題は、データベース全体を検索すると 10 時間以上かかることです。プロセスを高速化する方法を探しています。
これまでのコードは、まとめた txt (list.txt) から文字列のリストを読み取り、データベース (hugedataset.txt) のすべての行のすべての項目を検索します。私の最終的な出力は、データベースに存在するアイテムのリスト (または、存在しないアイテムのリスト) である必要があります。もっと効率の良い方法があるといいのですが…。
ご支援いただきありがとうございます!
import re
fobj_in = open('hugedataset.txt')
present=[]
with open('list.txt', 'r') as f:
list1 = [line.strip() for line in f]
print list1
for l in fobj_in:
for title in list1:
if title in l:
print title
present.append(title)
set=set(presenti)
print set