MSWord 2010 ファイルを R に読み込むことは可能ですか? Windows 7 と Dell PC を使用しています。
私は次の行を使用しています:
my.data <- readLines('c:/users/mark w miller/simple R programs/test_for_r.docx')
次のテキストを含む MSWord ファイルを読み込もうとします。
A 20 1000 AA
B 30 1001 BB
C 10 1500 CC
次のような警告メッセージが表示されます。
警告メッセージ: readLines("c:/users/mark w miller/simple R programs/test_for_r.docx") : 'c:/users/mark w miller/simple R programs/test_for_r.docx' で不完全な最終行が見つかりました
意味不明なmy.data
ようです:
# [1] "PK\003\004\024" "¤l" "ÈFÃË‹Átí"
この簡単な例で、MSWord ファイルを別の形式に簡単に変換できることがわかりました。しかし、私の実際のデータ ファイルは、数十年前に入力され、後で PDF ドキュメントにスキャンされた複雑なテーブルで構成されています。元の紙文書の古さ、およびおそらく元の紙の欠陥、タイプおよび/またはスキャンプロセスにより、一部の文字と数字が非常に明確でない場合があります。これまでのところ、pdf ファイルを MSWord に変換することが、表を正しく翻訳する上で最も成功しているようです。MSWord ファイルを Excel やリッチ テキストなどに変換しても、うまくいきませんでした。MSWord に変換した後でも、結果のファイルは非常に複雑で、多数のエラーが含まれています。MSWord ファイルを R に読み込むことができれば、それが最も効率的に編集および修正できるのではないかと考えました。
MSWordファイルをRに読み込むことができると思われる「package tm」は知っていますが、サードパーティのソフトウェアをインストールする必要があるように見えるため、使用について少し心配です。
ご提案ありがとうございます。