0

MS WordのデータのトランスクリプトをRと呼ばれる統計プログラムに読み込みたいと思っています。問題は、これらのドキュメントに特殊文字(プレーンテキストではない)が含まれていることです。それらを処理するための私のプロセスは、それらをMSWordにサブアウトする/txtドキュメントとして保存する/MSExcelに読み込む(インポートウィザードを使用して人と対話用の列を作成する)/.csvに変換する/Rに読み込むことです。これはプロセスは機能しますが、時間がかかります。特殊文字を含むテキストをRに直接読み込む方法を見つけました(Rは通常プレーンテキストが必要です)が、これにはドキュメントがExcelドキュメントである必要があります。特殊文字をRに読み込むことができれば、すべての特殊文字を一度にサブアウトするのはかなり簡単なので、これは望ましいことです。この問題は、MSWordドキュメントをExcelに直接取得できないために発生します。最初にテキストファイルとして保存する必要があります(これは保存しません)気にしないでください)そしてそれを読んでください。これは特殊文字をボックスと疑問符に変えます。特殊文字(“、”、—、'、'、…など)を破棄せずに、MS Wordドキュメントを2列(人、ダイアログ)のデータフレームとしてExcelに取り込む必要があります。

これは、Wordでreplaceを使用してサブスクライブすることで実行できますが、Excelで取得できれば、Rで実行する方がはるかに簡単です。

これが私のデータがどのように見えるかのサンプルMSWordドキュメントです(タブ区切りの列)

https://dl.dropbox.com/u/61803503/TEST.doc

Win7マシン上のExcelおよびWordバージョン2010。

4

1 に答える 1

0

1つの方法:[編集]->[Wordでコピー]および[編集]->[Excelで貼り付け]を使用します。そうする場合は、Unicode文字を保持したまま、単純な表形式の構造を保持する必要があります。WingdingsなどのUnicode以外のものについてはよくわかりません。それもVBAを試したことがありません。

于 2012-08-22T07:38:15.437 に答える