python - Pythonで特定のテキストを含むファイルを取得するより速い方法は?

Question

と呼ばれるリストにたくさんのファイルがあります。これをループして、最初の行にfilesあるすべてのファイルを保存しています。//StackOverflowその後に追加のテキストがある場合がありますが、そのようなテキストで行を開始する必要があります。

現在、私は次のように単純にやっています：

matches = []
for file in files:
    with open(file, "r") as inf:
        line = inf.readline()
        if line.strip().startswith("//StackOverflow"):
            matches.append([line] + inf.readlines())

ただし、これを行うためのより良い (より高速な?) 方法があるかどうか疑問に思っていました。これは、すべてのファイルを 1 つずつ開き、常に最初の行を読み取る必要があるためです。

score 2 · Accepted Answer

内容を確認する必要がある場合は、すべてのファイルを開く必要があります。あなたが持っているものは、すでに Python でできる最高のものです。

理論的には、ファイルの最初の 15 バイトだけを読み取って、それらがと等しいかどうかを確認できますが、//StackOverflowそれが大きく変わるとは思えません。

with open(file) as inf:
    if inf.read(15) == "//StackOverflow":
        inf.seek(0)
        matches.append(inf.readlines())

score 1 · Accepted Answer

Linux を使用している場合はfind、headやなどの組み込みツールの使用を検討してくださいgrep。それらは C/C++ で書かれており、はるかに高速です。

python - Pythonで特定のテキストを含むファイルを取得するより速い方法は?

2 に答える 2

Related

Reference