python - Pythonでディレクトリツリーをトラバースするかなり高速な方法は?

Question

指定されたディレクトリツリーが妥当なサイズであると仮定すると、たとえば Twisted や Python のようなオープンソースプロジェクトの場合、そのディレクトリ内のすべてのファイル/ディレクトリの絶対パスをトラバースして反復する最速の方法は何ですか?

Python内からこれを行いたいです。os.path.walkは遅いです。そこで、 ls -lRとtree -fiを試しました。約 8337 個のファイル (tmp、pyc、test、.svn ファイルを含む) を含むプロジェクトの場合:

$ time tree -fi > /dev/null 

real    0m0.170s
user    0m0.044s
sys     0m0.123s

$ time ls -lR > /dev/null 

real    0m0.292s
user    0m0.138s
sys     0m0.152s

$ time find . > /dev/null 

real    0m0.074s
user    0m0.017s
sys     0m0.056s
$

treeよりも高速に見えますls -lR(ただし、ls -Rよりも高速ですがtree、完全なパスは提供されません)。find最速です。

誰もがより高速かつ/またはより良いアプローチを考えることができますか? Windows では、必要に応じて 32 ビットバイナリの tree.exe または ls.exe を出荷するだけです。

更新 1 : 追加find

更新 2 : なぜこれをしたいのですか? ... cd、pushd などのスマートな代替品を作成しようとしています。パス (less、more、cat、vim、tail) を渡すことに依存する他のコマンドのラッパーコマンド。プログラムは時折ファイルトラバーサルを使用してこれを行います (たとえば、「cd sr grai pat lxml」と入力すると、自動的に「cd src/pypm/grail/patches/lxml」に変換されます)。この CD の交換に、たとえば 0.5 秒かかったとしたら、私は満足できません。http://github.com/srid/pfを参照してください

score 3 · Accepted Answer

pfでのあなたのアプローチは、たとえos.path.walkまったく時間がかからなかったとしても、絶望的に遅くなるでしょう。すべての現存するパスにわたって3つの無制限のクロージャを含む正規表現の一致を実行すると、その場であなたを殺します。これが私が参照したKernighanとPikeのコードです。これはタスクの適切なアルゴリズムです。

/* spname:  return correctly spelled filename */
/*
 * spname(oldname, newname)  char *oldname, *newname;
 *  returns -1 if no reasonable match to oldname,
 *           0 if exact match,
 *           1 if corrected.
 *  stores corrected name in newname.
 */

#include <sys/types.h>
#include <sys/dir.h>

spname(oldname, newname)
    char *oldname, *newname;
{
    char *p, guess[DIRSIZ+1], best[DIRSIZ+1];
    char *new = newname, *old = oldname;

    for (;;) {
        while (*old == '/') /* skip slashes */
            *new++ = *old++;
        *new = '\0';
        if (*old == '\0')   /* exact or corrected */
            return strcmp(oldname,newname) != 0;
        p = guess;  /* copy next component into guess */
        for ( ; *old != '/' && *old != '\0'; old++)
            if (p < guess+DIRSIZ)
                *p++ = *old;
        *p = '\0';
        if (mindist(newname, guess, best) >= 3)
            return -1;  /* hopeless */
        for (p = best; *new = *p++; ) /* add to end */
            new++;                    /* of newname */
    }
}

mindist(dir, guess, best)   /* search dir for guess */
    char *dir, *guess, *best;
{
    /* set best, return distance 0..3 */
    int d, nd, fd;
    struct {
        ino_t ino;
        char  name[DIRSIZ+1];   /* 1 more than in dir.h */
    } nbuf;

    nbuf.name[DIRSIZ] = '\0';   /* +1 for terminal '\0' */
    if (dir[0] == '\0')     /* current directory */
        dir = ".";
    d = 3;  /* minimum distance */
    if ((fd=open(dir, 0)) == -1)
        return d;
    while (read(fd,(char *) &nbuf,sizeof(struct direct)) > 0)
        if (nbuf.ino) {
            nd = spdist(nbuf.name, guess);
            if (nd <= d && nd != 3) {
                strcpy(best, nbuf.name);
                d = nd;
                if (d == 0)     /* exact match */
                    break;
            }
        }
    close(fd);
    return d;
}

/* spdist:  return distance between two names */
/*
 *  very rough spelling metric:
 *  0 if the strings are identical
 *  1 if two chars are transposed
 *  2 if one char wrong, added or deleted
 *  3 otherwise
 */

#define EQ(s,t) (strcmp(s,t) == 0)

spdist(s, t)
    char *s, *t;
{
    while (*s++ == *t)
        if (*t++ == '\0')
            return 0;       /* exact match */
    if (*--s) {
        if (*t) {
            if (s[1] && t[1] && *s == t[1] 
              && *t == s[1] && EQ(s+2, t+2))
                return 1;   /* transposition */
            if (EQ(s+1, t+1))
                return 2;   /* 1 char mismatch */
        }
        if (EQ(s+1, t))
            return 2;       /* extra character */
    }
    if (*t && EQ(s, t+1))
        return 2;           /* missing character */
    return 3;
}

注：このコードは、ANSI C、ISO C、またはPOSIXの前に作成されたものであり、ディレクトリファイルを生で読み取ると想像さえできませんでした。コードのアプローチは、すべてのポインタースリングよりもはるかに便利です。

score 1 · Accepted Answer

パフォーマンスよりもはるかに優れたものにするのは難しいでしょうfindが、問題はどれだけ高速で、なぜそれほど高速にする必要があるのかということです。あなたは os.path.walk が遅いと主張していますが、実際、私のマシンでは 16k ディレクトリのツリー上で約 3 倍遅くなります。しかし、繰り返しになりますが、Python の 0.68 秒と 1.9 秒の違いについて話しているのです。

速度記録を設定することが目標である場合、完全に 75% のシステムコールがバインドされているハードコードされた C を打ち負かすことはできず、OS を高速化することはできません。とはいえ、Python 時間の 25% はシステムコールに費やされます。横断したパスで何をしたいですか?

score 0 · Accepted Answer

複数の読み取りヘッドがあるとは思えませんが、数百万のファイルをトラバースする方法を次に示します (数分で 1,000 万以上のファイルを処理しました)。

https://github.com/hpc/purger/blob/master/src/treewalk/treewalk.c

score 0 · Accepted Answer

あなたが言及していない解決策の1つは「os.walk」です。os.path.walk よりも速いかどうかはわかりませんが、客観的には優れています。

ディレクトリのリストを入手したときにそれをどうするかについてはまだ述べていないため、より具体的な提案をすることは困難です。

python - Pythonでディレクトリツリーをトラバースするかなり高速な方法は?

4 に答える 4

Related

Reference