python - Python の検索プログラムのテキストファイルで 16 進エンコードを避ける

Question

サーバーログ（テキストファイル）を分析し、ユーザー入力と一致しない文字列を見つけるためのpythonプログラムを作成しました。とにかく、16 進数でエンコードされた文字列はプログラムでは考慮されません。例: 次の場合、プログラムは、「www.peoplesmonton.com」が利用可能であるにもかかわらず、ユーザー入力に一致しない値がないことを示しています。これを避けるために私を助けてください。

for line in lines:
    match = re.search('\\b' + userinput + '\\b',line)

サンプルテキストファイル:

https://www.mysite.com/myworks/accaply/inquiry.asp 
http://www.peoplesmonton.com/amb/cgi-bin/bank/bank/ambt%20Bank%20Of%20Frnak%20PLC_asp.htm 
http://www.peoplesmonton.com/comblk/cgi-bin/bank/bank/ambt%20Bank%20Of%20ambt%20PLC_asp.htm

score 2 · Accepted Answer

情報はURL エンコードされurllib2.unquoteているため、それをデコードするために使用します。

>>> input = '''\
... https://www.mysite.com/myworks/accaply/inquiry.asp 
... http://www.peoplesmonton.com/amb/cgi-bin/bank/bank/ambt%20Bank%20Of%20Frnak%20PLC_asp.htm 
... http://www.peoplesmonton.com/comblk/cgi-bin/bank/bank/ambt%20Bank%20Of%20ambt%20PLC_asp.htm 
... '''
>>> import urllib2
>>> print urllib2.unquote(input)
https://www.mysite.com/myworks/accaply/inquiry.asp 
http://www.peoplesmonton.com/amb/cgi-bin/bank/bank/ambt Bank Of Frnak PLC_asp.htm 
http://www.peoplesmonton.com/comblk/cgi-bin/bank/bank/ambt Bank Of ambt PLC_asp.htm

python - Python の検索プログラムのテキスト ファイルで 16 進エンコードを避ける

1 に答える 1

Related

Reference

python - Python の検索プログラムのテキストファイルで 16 進エンコードを避ける