1

テキスト ファイルがあり、各行の形式は次のとおりです。

TAB WORD TAB POS TAB FREQ#

Word    PoS Freq
the Det 61847
of  Prep    29391
and Conj    26817
a   Det 21626
in  Prep    18214
to  Inf 16284
it  Pron    10875
is  Verb    9982
to  Prep    9343
was Verb    9236
I   Pron    8875
for Prep    8412
that    Conj    7308
you Pron    6954

正規表現ウィザードの 1 人が、ファイルから WORDS を分離するのを手伝ってくれませんか? 私は TextPad で検索と置換を行います。うまくいけば、それで済みます。複数の検索と置換は問題ありません。1 つ: 「動詞」を検索すると、品詞だけでなく「動詞」の WORD も表示されることに注意してください。最終的には、1 行に 1 語で終わりたいと思っています。

本当にありがとう!

4

4 に答える 4

1

マイクロソフト エクセルは、その助けになると思います...

テキスト全体をExcelにコピーするだけで、表としてフォーマットされます。次に、単語に適した列セルを選択し、最後にメモ帳にコピーします.

これが最も簡単な方法だと思います。

Excel がすべての値を 1 つの列に格納する場合、別の列で単語を次のように抽出します。

=Trim(LEFT(C1,maxchar))

于 2009-10-06T09:07:40.830 に答える
1

\s*([a-zA-z]+)\s*([a-zA-z]+)単語と PoS をグループとして返​​すようなものです。その後、replace ステートメントで $1 および $2 として使用して、必要に応じて出力できます。

WORD 部分のみが必要な場合は、置換で $1 を使用できます。

于 2009-10-06T08:38:37.187 に答える
1

awk次のように、最初の列を削除するために使用できます

awk '{print $1}' /path/to/filename

を使用して最初の行をスキップします

awk 'NR!=1 {print $1}' /path/to/filename
于 2009-10-06T08:21:13.170 に答える
1

これには、正規表現を使用する必要はまったくありません。たとえば、次を使用できますcut

cut -f1 <inputfile
于 2009-10-06T08:22:35.850 に答える