2

対応するデータセットのセットで使用可能な変数を提供する .doc ファイルの大規模なセットがあります。これらを R でスキャンして、どのデータセットに対象の変数が含まれているかを確認したいと思います。以前に readLines を使用してプレーン テキスト ファイルでこれを行ったことがありますが、これは .doc ファイルでは機能しません。

readDOC コマンドを使用して .doc ファイルを読み取ることができるはずの tm パッケージをダウンロードしましたが、手順がかなり限定されており、動作させることができません。readDOC コマンドの使用方法を知っている人、または R でこれを行う方法について別の提案がある人はいますか? ありがとう!

返信や提案をくださった皆様、どうもありがとうございました。R は .doc ファイルを非常に簡単に読み込むように設定されていると思いましたが、あなたの言うとおり、最初にすべての word ファイルを別の形式に変換するのが最も簡単だと思います。「Convert Doc」と呼ばれるフリー ソフトウェアをダウンロードしたところ、すべての Word ドキュメントを 1 つのフォルダーに保存し、すべてのドキュメントを .txt ファイルにすばやく変換できます。これで、約 100 個のデータファイルがあり、変数コーディングを指定する Word ドキュメントが付随しているため、検索を自動化できます。これは、各データファイルで常に同じであるとは限りません (たとえば、yes/no の場合、0/1 を使用するものもあれば、1/2 を使用するものもあります)。これにより、適切な変数を見つけて、readLines、grep、およびもう少しテキスト処理を使用してそのコーディングを保存できます。ありがとう!

4

2 に答える 2

2

パッケージのread_docx機能をお試しください。qdapTools

于 2016-01-29T00:47:27.893 に答える