r - Word 文書から半構造化テキストを抽出する

Question

以下のフォームに基づいて一連のファイルをテキストマイニングしたいと考えています。各ファイルがドキュメントであるコーパスを作成することはできますが (を使用tm)、次のメタデータを持つドキュメントである第 2 フォームテーブルの各セクションがコーパスを作成する方がよいのではないかと考えています。

  Author       : John Smith
  DateTimeStamp: 2013-04-18 16:53:31
  Description  : 
  Heading      : Current Focus
  ID           : Smith-John_e.doc Current Focus
  Language     : en_CA
  Origin       : Smith-John_e.doc
  Name         : John Smith
  Title        : Manager
  TeamMembers  : Joe Blow, John Doe
  GroupLeader  : She who must be obeyed

Name、Title、TeamMembers、および GroupLeader は、フォームの最初のテーブルから抽出されます。このようにして、分析されるテキストの各チャンクは、そのコンテキストの一部を維持します。

これにアプローチする最良の方法は何ですか？私は2つの方法を考えることができます：

どういうわけか、私が持っているコーパスを子コーパスに解析します。
どういうわけかドキュメントをサブドキュメントに解析し、それらからコーパスを作成します。

どんなポインタでも大歓迎です。

これは次の形式です。人事フォーム

これは、 2 つのドキュメントを含むコーパスの RData ファイルです。exc[[1]] は .doc に由来し、exc[[2]] は docx に由来します。どちらも上記のフォームを使用しました。

r - Word 文書から半構造化テキストを抽出する

1 に答える 1

Related

Reference