MS WordのデータのトランスクリプトをRと呼ばれる統計プログラムに読み込みたいと思っています。問題は、これらのドキュメントに特殊文字(プレーンテキストではない)が含まれていることです。それらを処理するための私のプロセスは、それらをMSWordにサブアウトする/txtドキュメントとして保存する/MSExcelに読み込む(インポートウィザードを使用して人と対話用の列を作成する)/.csvに変換する/Rに読み込むことです。これはプロセスは機能しますが、時間がかかります。特殊文字を含むテキストをRに直接読み込む方法を見つけました(Rは通常プレーンテキストが必要です)が、これにはドキュメントがExcelドキュメントである必要があります。特殊文字をRに読み込むことができれば、すべての特殊文字を一度にサブアウトするのはかなり簡単なので、これは望ましいことです。この問題は、MSWordドキュメントをExcelに直接取得できないために発生します。最初にテキストファイルとして保存する必要があります(これは保存しません)気にしないでください)そしてそれを読んでください。これは特殊文字をボックスと疑問符に変えます。特殊文字(“、”、—、'、'、…など)を破棄せずに、MS Wordドキュメントを2列(人、ダイアログ)のデータフレームとしてExcelに取り込む必要があります。
これは、Wordでreplaceを使用してサブスクライブすることで実行できますが、Excelで取得できれば、Rで実行する方がはるかに簡単です。
これが私のデータがどのように見えるかのサンプルMSWordドキュメントです(タブ区切りの列)
https://dl.dropbox.com/u/61803503/TEST.doc
Win7マシン上のExcelおよびWordバージョン2010。