1

私はRでテキスト分析を行っており、文の最初の文字を小文字に変換し、他の大文字の単語をそのままにする必要がありました。だから私はコマンドを使用しました

     x <- gsub("(\\..*?[A-Z])", '\\L\\1', x, perl=TRUE)

うまくいきましたが、部分的に。問題は、テキスト分析のためにpdfファイルをtxt形式に変換する必要があり、txtファイルに多くの空行(改ページ、おそらく改行)が含まれているため、使用したコマンドが大文字を変換しないことです新しい行に表示されます。gsubで複数の \s、\r、\nを使用してさまざまな組み合わせを使用して空の行を削除しようとしましたが、何も機能しません。tm-package の inspect(x) を実行すると、出力は次のようになります。

[346]                                                                                                                                                                                                                                                  
[347]    Thank you.                                                                                                                                                                                                                                    
[348]                                                                                                                                                                                                                                                  
[349]    Vice President of Investor Relations                                                                                                                                                                                               
[350]   

誰かが私を助けてくれたらありがたいです!

4

2 に答える 2

1

を使用して新しい行を取得し^[A-Z]、2 つのケースを or 記号で区切ることができます|

x <- gsub("(\\..*?[A-Z]|^[A-Z])", '\\L\\1', x, perl=TRUE)

また、上記の手順の前または後に空行を取り除くことができます

x <- x[x != ""]
于 2016-06-13T09:40:29.547 に答える