私の目的はlibrary(tm)
、かなり大きな単語文書でツールキットを使用することです。ドキュメントという単語には適切なタイポグラフィがあるh1
ため、メイン セクション、サブヘッダー、h2
およびh3
サブヘッダーに使用しています。各セクションを比較してテキスト マイニングしたい (各セクションの下のテキストh1
- 小見出しはほとんど重要ではないため、含めたり除外したりできます。)
私の戦略は、worddocument を html にエクスポートしてから、パッケージを使用しrvest
て段落を抽出することです。
library(rvest)
# the file has latin-1 chars
#Sys.setlocale(category="LC_ALL", locale="da_DK.UTF-8")
# small example html file
file <- rvest::html("https://83ae1009d5b31624828197160f04b932625a6af5.googledrive.com/host/0B9YtZi1ZH4VlaVVCTGlwV3ZqcWM/tidy.html", encoding = 'utf-8')
nodes <- file %>%
rvest::html_nodes("h1>p") %>%
rvest::html_text()
<p>
ですべてを抽出できますがhtml_nodes("p")
、それは 1 つの大きなスープにすぎません。それぞれを個別に分析する必要がありh1
ます。
おそらく最良の方法は、見出しp
ごとにタグのベクトルを含むリストです。h1
そして、おそらく何かのようなループがありますfor (i in 1:length(html_nodes(fil, "h1"))) (html_children(html_nodes(fil, "h1")[i]))
(これは機能していません)。
内部から単語htmlを整理する方法がある場合のボーナスrvest