以下のフォームに基づいて一連のファイルをテキストマイニングしたいと考えています。各ファイルがドキュメントであるコーパスを作成することはできますが (を使用tm
)、次のメタ データを持つドキュメントである第 2 フォーム テーブルの各セクションがコーパスを作成する方がよいのではないかと考えています。
Author : John Smith
DateTimeStamp: 2013-04-18 16:53:31
Description :
Heading : Current Focus
ID : Smith-John_e.doc Current Focus
Language : en_CA
Origin : Smith-John_e.doc
Name : John Smith
Title : Manager
TeamMembers : Joe Blow, John Doe
GroupLeader : She who must be obeyed
Name、Title、TeamMembers、および GroupLeader は、フォームの最初のテーブルから抽出されます。このようにして、分析されるテキストの各チャンクは、そのコンテキストの一部を維持します。
これにアプローチする最良の方法は何ですか?私は2つの方法を考えることができます:
- どういうわけか、私が持っているコーパスを子コーパスに解析します。
- どういうわけかドキュメントをサブドキュメントに解析し、それらからコーパスを作成します。
どんなポインタでも大歓迎です。
これは次の形式です。
これは、 2 つのドキュメントを含むコーパスの RData ファイルです。exc[[1]] は .doc に由来し、exc[[2]] は docx に由来します。どちらも上記のフォームを使用しました。