URL文字列でPython正規表現を使用しようとしています。
id= 'edu.vt.lib.scholar:http/ejournals/VALib/v48_n4/newsome.html'
>>> re.search('news|ejournals|theses',id).group()
'ejournals'
>>> re.findall('news|ejournals|theses',id)
['ejournals', 'news']
http://docs.python.org/2/library/re.html#finding-all-adverbsのドキュメントに基づいて、search()は最初のものと一致し、文字列内のすべての可能なものと一致するものをすべて検索すると言います。
パターンの最初に宣言されているのに、なぜ「ニュース」が検索でキャプチャされないのか疑問に思います。
間違ったパターンを使用しましたか?これらのキーワードのいずれかが文字列に含まれているかどうかを検索したいと思います。