python - bibtexファイルのフィールドを削除する正規表現

Question

参照マネージャーから取得した bib テキストファイルをスリム化しようとしています。これは、LaTeX に入れると最終的に破損する余分なフィールドが残るためです。

クリーンアップしたい特徴的なエントリは次のとおりです。

@Article{Kholmurodov:2001p113,
author = {K Kholmurodov and I Puzynin and W Smith and K Yasuoka and T Ebisuzaki}, 
journal = {Computer Physics Communications},
title = {MD simulation of cluster-surface impacts for metallic phases: soft landing, droplet spreading and implantation},
abstract = {Lots of text here.  Even more text.},
affiliation = {RIKEN, Inst Phys {\&} Chem Res, Computat Sci Div, Adv Comp Ctr, Wako, Saitama 3510198, Japan},
number = {1},
pages = {1--16},
volume = {141},
year = {2001},
month = {Dec},
language = {English},
keywords = {Ethane, molecular dynamics, Clusters, Dl_Poly Code, solid surface, metal, Hydrocarbon Thin-Films, Adsorption, impact, Impact Processes, solid surface, Molecular Dynamics Simulation, Large Systems, DL_POLY, Beam Deposition, Package, Collision-Induced Desorption, Diamond Films, Vapor-Deposition, Transition-Metals, Molecular-Dynamics Simulation}, 
date-added = {2008-06-27 08:58:25 -0500},
date-modified = {2009-03-24 15:40:27 -0500},
pmid = {000172275000001},
local-url = {file://localhost/User/user/Papers/2001/Kholmurodov/Kholmurodov-MD%20simulation%20of%20cluster-surface%20impacts-2001.pdf},
uri = {papers://B08E511A-2FA9-45A0-8612-FA821DF82090/Paper/p113},
read = {Yes},
rating = {0}
}

月、要約、キーワードなどのフィールドを削除したいと思います。そのうちのいくつかは単一行であり、いくつかは複数行です。

Pythonで試してみたところ、次のようになりました。

fOpen = open(f,'r')
start_text = fOpen.read()
fOpen.close()

# regex
out_text = re.sub(r'^(month).*,\n','',start_text)
out_text = re.sub(r'^(annote)((.|\n)*?)\},\n','',out_text)
out_text = re.sub(r'^(note)((.|\n)*?)\},\n','',out_text)
out_text = re.sub(r'^(abstract)((.|\n)*?)\},\n','',out_text)

fNew = open(f,'w')
fNew.write(out_text)
fNew.close()

これらの正規表現を TextMate で実行して、Python で試す前に動作するかどうかを確認しましたが、問題ないようです。

助言がありますか？

ありがとう。

score 2 · Accepted Answer

この正規表現についてはどうですか (複数行および dotall フラグで適用):

^(?:month|annote|note|abstract)\s*=\s*\{(?:(?!\},$).)*\},[\r\n]+

説明：

^ # 行頭
(?: # 非キャプチャ グループ 1
  month|annote|note|abstract # これらの用語のいずれか
) # 非キャプチャ グループ 1 の終了
\s*=\s* # 空白、等号、空白
\{ # リテラル中括弧
(?: # 非キャプチャ グループ 2
  (?! # 否定先読み (後続がない場合...)
    \},$ # 中かっこ、コンマ、および行末
  ) # 否定先読みを終了
  . # ...次の文字にマッチします。
)* # 非キャプチャ グループ 2 の終了、繰り返し
\}, # リテラル中括弧とコンマ
[\r\n]+ # 少なくとも 1 つの行末文字

この単一の式は、影響を受けるすべての行を 1 つのステップで分類します。

編集/警告:これは、次のことが発生するとすぐに失敗することに注意してください。

所属 = {理化学研究所, Inst Phys {\&},
Computat Sci Div, Adv Comp Ctr, Wako, Saitama 3510198, Japan},

ネストされた構造は、正規表現では処理できません。このコンテキストでは、純粋な正規表現ソリューションがすべての場合に正しいというわけではありません。得られる最善の方法は、適切な近似値です。

問題は、上記の状況が発生しないことを 100% 確信しているかどうか (そして、私はあなたがそうなるとは思わない)、またはリスクを冒す意思があるかどうかです。これが問題ではないという確信が持てない場合は、パーサーを使用するか作成してください。

python - bibtexファイルのフィールドを削除する正規表現

1 に答える 1

Related

Reference