1

私は巨大なファイルを持っています。それは、約2日間連続して、過度の長さの転写されたスピーチで構成されています。10万語以上だと思います。

音声文字変換中に、スピーカーとセッションを「<-名前->」マークで別々のブロックに分けました。私の問題は、name_speach.txtの命名規則でそれらをファイルに自動的に処理することは可能ですか?

ありがとう!!!!

テストケース:

テストケース

<--测试0-->
这个是一段测试内容,a quick fox jumps over a lazy dog.

<——测试1——&gt;
,a quick fox just over 啊 辣子 dog!!?是吗?

<——测试2——&gt;
这是一段测试用的text,嗯!

<--Test case 3-->
/* sound track lost @153:12.236 -- 153.18.222 */
…
A quick fox jumps over a {lazy|lame} dog.
4

1 に答える 1

1

したがって、テキストファイル内のすべてのパターン「<-Name->」を検索する必要があります(100000語は、コンピュータのメモリとしてはそれほど大きくないと思います)。

検索タグには正規表現を使用できます。

Pythonでは、次のようになります。

import re

NAMETAG = r'\<\-\- (?P<name>.*?) \-\-\>'

# find all nametags in your string
matches = re.findall(NAMETAG, yourtext)

offset_start_list = []
offset_end_list = []
name_list = []

for m in matches:
    name = m.groups()['name']
    name_list.append(name)

    # find content offset after name tag
    offset_start_list.append(m.end() + 1)

    # the last content's end
    offset_end_list.append(m.start())


offset_end_list.pop(0)
offset_end_list.append(len(yourtext))

for name, start, end in zip(name_list, offset_start_list, offset_end_list):
    # save your files here
于 2012-12-14T01:37:38.743 に答える