1

私はスクリプティングに関してまったくの初心者です。実際、私がスクリプトを作成するほとんどのことは、最終的に Mac の Automator に「シェル スクリプトの実行」として配置されるほど新しいものです。ですから、まあ、すべてを許してください。

基本的に、私はWebコーパスを構築しています。そのため、Web から .html ファイルをダウンロードし、textutil を使用してそれらを .txt ファイルに変換しています。次に、それらを corpus.txt として連結し、grep コマンドで corpus.txt を「クリーニング」して、数字で始まる行、数字で終わる行、句読点で始まる行などを削除します。

問題は、時々 grep が機能しないことです。たとえば、試してみると

grep -v ^[0123456789] corpus.txt > corpus2.txt

corpus2.txt に数字で始まる行がまだいくつかあります。同様に、

awk '!x[$0]++' corpus3.txt > deduped.txt

Texteditで目に見えるものを重複行として削除していません。

これは、ファイル内の改行の種類に関係していると思います。これについての私の理由は、Textwrangler でファイルを開いたときに、改行として表示されるものはそうではないということです。改行があるべき場所にスペースがあるように見え、その後に幅がないように見える 3 つの見えないものが続きます。それらをターミナルにコピーできないため、私が知る限り、それらを改行に置き換えることはできません。

変換されたhtmlファイルと連結されたtxtファイルを異なるUTFエンコーディングで保存しようとしました

find temp2 -type f -print0 | xargs -0 -P 4 textutil -convert txt -encoding UTF-32

しかし、これは役に立ちませんでした。テキストにどのような種類の改行が表示されているかを知る方法さえわかりません。基本的に、私の望む最終結果は、Textedit で見られるすべての改行が、grep、awk、および sed で改行として扱われることです。この変換を実行できるスクリプトはありますか? 正確に何を変換する必要がありますか?

無知で申し訳ありません。私は社会科学の学生で、確かにもうカンザスにはいません。

4

0 に答える 0