python - タブ区切りファイルの解析

Question

この質問がやや曖昧であることをお詫びします。私はPythonに非常に慣れていません...

タブ区切りのテキストファイルを解析する必要があります。これは非常に大きなファイルであり、そこから特定のものを特定して抽出しようとしています。たとえば、ある行が次の場合:

[リンゴバナナチェリー日付] 「リンゴ」という用語を検索して識別し、「日付」という用語を抽出します。

次に、抽出された用語のリストにアクセスして使用する必要があります (他のリストとの比較などに使用します)。

正規表現について読んだことがありますが、検索には適しているようですが、検索されたキーワード以外の用語を抽出するためにそれを使用する方法がわかりません..また、正規表現にアクセス/操作する方法もわかりません解析後の結果の配列..

ヘルプ/方向性/ポインター/提案/例は素晴らしいでしょう。

どうもありがとう！

score 3 · Accepted Answer

ファイルがタブで区切られている場合、通常はcsvモジュールを使用するためのサインです:

>>> import csv
>>> with open('eggs.csv', 'rb') as csvfile:
...     reader = csv.reader(csvfile, dialect=csv.excel_tab)
...     for row in reader:
...         print row

具体的な例がなければ、これ以上言うのは難しいです。

score 1 · Accepted Answer

http://docs.python.org/2/library/re.html

簡単な例を次に示します。

import re
# This regular expression detects base-64 encoded images
regex = '(?P<src>data:image/png;base64, (?<image>[^"]*))'
# you can then either
# a)
matches = re.findall(regex, your_input_string)
for m in matches:
    # address your matches with index notation
    src = m[0]
    data = m[1]
# b)
src = re.search(regex, your_input_string).group('src')
data = re.search(regex, your_input_string).group('data')

python - タブ区切りファイルの解析

2 に答える 2

Related

Reference