1

次のようなテキスト ファイルを処理しようとしています。

http://www.sec.gov/Archives/edgar/data/789019/000119312514289961/0001193125-14-289961.txt

ファイルの真ん中あたりに次のようなものがあります。

</TEXT>
</DOCUMENT>
<DOCUMENT>
<TYPE>EXCEL
<SEQUENCE>21
<FILENAME>Financial_Report.xlsx
<DESCRIPTION>IDEA: XBRL DOCUMENT
<TEXT>
begin 644 Financial_Report.xlsx
M4$L#!!0`!@`(````(0!):[_C#0,``+!)```3``@"6T-O;G1E;G1?5'EP97-=
M+GAM;""B!`(HH``"````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M``````````````````````````````````````#,W,M.VT`4QO%]I;Z#Y6V5
M>([OK@@L>EFV2*4/,+4GQ,(W>08*;]^)N0BA%(2*U/^&B,2>\\6+G[+YSM')
M==\%5V:V[3AL0EFK,#!#/3;M<+X)?YY]795A8)T>&MV-@]F$-\:&)\?OWQV=
MW4S&!O[NP6["G7/3QRBR]<[TVJ['R0S^D^TX]]KY?^?S:-+UA3XW4:Q4'M7C
MX,S@5FY_1GA\]-EL]67G@B_7_NW;)+/I;!A\NKUP/VL3ZFGJVEH[GS2Z&IHG
M4U9W$];^SN4:NVLG^\''"*.#$_:?_'W`W7W?_:.9V\8$IWIVWW3O8T377?1[
MG"]^C>/%^OE##J0<M]NV-LU87_;^":SM-!O=V)TQKN_6R^NZU^UPG_N9^<O%
M-EI>Y(V#[+_?<O`K<\20'`DD1PK)D4%RY)`<!21'"<E107*(H@2AB"H44H5B
MJE!0%8JJ0F%5**X*!5:AR!I39(TILL8466.*K#%%UI@B:TR1-:;(&E-DC2FR
M)A19$XJL"476A")K0I$UH<B:4&1-*+(F%%D3BJPI1=:4(FM*D36ER)I29$TI
MLJ8465.*K"E%UI0B:T:1-:/(FE%DS2BR9A19,XJL&476C")K1I$UH\B:4V3-
M*;+F%%ESBJPY1=:<(FM.D36GR)I39,TILA8460N*K`5%UH(B:T&1M:#(6E!D
M+2BR%A19"XJL)476DB)K29&UI,A:4F0M*;*6%%E+BJPE1=:2(FM%D;6BR%I1
M9*THLE8462N*K!5%UHHB:T61M:+(*HI"JRB*K:(HN(JBZ"J*PJLHBJ^B*,"*
MH@@KBD*L*(RQH#H6QEA.(8O3R.)4LCB=+$XIB]/*XM2R,+TLP12S!-/,$DPU
M2S#=+,&4LP33SA),/4LP_2S!%+0$T]"2_U;1<GX?CHF6O__^`W8YYH6%+-;=
M=,:^\1*%VT-?FKS3LVE^N-EO#GKS`(_/?BZ'WZMS.H^3]1N&9O/ZIW"_0FA_
M]VKR!YG9M>9AB="A93P/$_UVHM</?+(-R.SW'S6F.3`[6O8M'?\!``#__P,`
M4$L#!!0`!@`(````(0"U53`C]0```$P"```+``@"7W)E;',O+G)E;',@H@0"

これはExcelファイルのように見えますか?それとも XBRL ドキュメントですか? それは何ですか ?どうすればそれを取り除くことができますか (または、何らかの形で「処理」しますか??) これは何千行にもわたって続くので、添付ファイルのリンクのエンコードであると思いますか?? それに対処する方法はありますか?

私は Python で BeautifulSoup を使用しようとしています:

from bs4 import BeautifulSoup

with open("textWithHtml.txt") as markup:
    soup = BeautifulSoup(markup.read())

with open("processedText.txt", "w") as f: 
    f.write(soup.get_text().encode('utf-8'))

しかし、すべてが削除されるわけではなく、場合によっては、すべての html タグでさえ削除されないことにも気付きました.コードを 2 回実行すると、BeautifulSoup コードが最初に実行されたときに削除されたものよりも多くが削除されることがあります..

4

2 に答える 2

1

あなたが見ているエンコーディングはですuuencode。Python では、uuモジュールを使用してこのブロブ、または単にstringdata.decode('uu').

uuencodeは、もともと電子メールにバイナリを埋め込むために使用されていたレガシー形式です (当時は 7 ビットの US-ASCII のみが許可されていました。この形式には、独自の途方もない文字エンコーディングを使用していた当時の大鉄システムとの相互運用性のためのいくつかの譲歩もあります)。最近ではbase64、この役割を期待するでしょう。

ファイルハンドルからの読み取り中または一連のテキスト行の反復中に uuencode blob を削除する方法を示すフォローアップの質問への回答を投稿しました。

于 2015-02-19T14:37:04.273 に答える
0

この問題は、ここで提供されている sed コマンドを使用して効率的に解決できます。sed コマンド - フォルダーのすべてのテキスト (.txt) ファイルに適用します。

于 2015-02-19T20:41:23.363 に答える