python - 文字列内で文字クラスを複数回照合する

Question

SharePointにアップロードするためにフォルダー名とファイル名をサニタイズするための短いスクリプトを書いています。SharePointは煩雑で、単純な許可されていない文字以外のファイル名ルールがあるため（たとえば、複数の連続するピリオドは許可されていません）、単一の文字を単純に置き換えるのではなく、正規表現を使用する方法のように見えました。ただし、機能していないように見える式の1つは次のとおりです。

[/<>*?|:"~#%&{}\\]+

単純な文字クラスの一致として、これが正常に機能することを期待していましたが、notepad++では機能しているようです。私の期待は、

St\r/|ng

上記の正規表現を使用すると、\、/、および|と一致します。ただし、何をしても、文字列を取得できるのは、最初のバックスラッシュ、またはそのクラスに含まれる最初の文字に一致するものだけです。これは、Pythonreライブラリを使用して実行されています。誰かがここで問題が何であるか知っていますか？os、sys、shutil、reをインポートします

def cleanPath(path):
    #Compiling regex...
    multi_dot = re.compile(r"[\.]{2,}")
    start_dot = re.compile(r"^[\.]")
    end_dot = re.compile(r"[\.]$")
    disallowed_chars = re.compile(r'[/<>*?|:"~#%&{}\\]+')
    dis1 = re.compile(r'\.files$')
    dis2 = re.compile(r'_files$')
    dis3 = re.compile(r'-Dateien$')
    dis4 = re.compile(r'_fichiers$')
    dis5 = re.compile(r'_bestanden$')
    dis5 = re.compile(r'_file$')
    dis6 = re.compile(r'_archivos$')
    dis7 = re.compile(r'-filer$')
    dis8 = re.compile(r'_tiedostot$')
    dis9 = re.compile(r'_pliki$')
    dis10 = re.compile(r'_soubory$')
    dis11 = re.compile(r'_elemei$')
    dis12 = re.compile(r'_ficheiros$')
    dis13 = re.compile(r'_arquivos$')
    dis14 = re.compile(r'_dosyalar$')
    dis15 = re.compile(r'_datoteke$')
    dis16 = re.compile(r'_fitxers$')
    dis17 = re.compile(r'_failid$')
    dis18 = re.compile(r'_fails$')
    dis19 = re.compile(r'_bylos$')
    dis20 = re.compile(r'_fajlovi$')
    dis21 = re.compile(r'_fitxategiak$')
    regxlist = [multi_dot,start_dot,end_dot,disallowed_chars,dis1,dis2,dis3,dis4,dis5,dis5,dis6,dis7,dis8,dis9,dis10,dis11,dis12,dis13,dis14,dis15,dis16,dis17,dis18,dis19,dis20,dis21]
    print("************************************\n\n"+path+"\n\n************************************\n")
    for x in regxlist:
        match = x.search(path)
        if match:
            print("\n")
            print("MATCHED")
            print(match.group())

    print("___________________________________________________________________________")
    return path


#testlist of conditions that should be found, some OK, some bad
testlist = ["string","str....ing","str..ing","str.ing",".string","string.",".string.","$tring",r"st\r\ing","st/r/ing",r"st\r/|ng","/str<i>ng","str.filesing","string.files"]
testlist_ans = ["OK","Match ....","Match ..","OK","Match .","Match .","Match . .","OK",r"Match \ ","Match /",r"Match \/|","Match / < >","OK","Match .files"]
count = 0
for i in testlist:
    print(testlist_ans[count])
    count = count + 1

    cleanPath(i)

score 1 · Accepted Answer

re.sub(pattern,new_txt,subject) #replace all instinces of pattern with new_txt
re.findall(pattern,subject) #find all instances

score 1 · Accepted Answer

1

どのPythonreコマンドを使用しますか？

使用する必要があります：re.findall

于 2012-09-12T15:05:26.337 に答える

python - 文字列内で文字クラスを複数回照合する

2 に答える 2

Related

Reference