Groovy で、Web ページを取得して HTML タグなどを削除し、ドキュメントのテキストだけを残すにはどうすればよいですか? 単語頻度カウンターを作成できるように、結果をコレクションにダンプしたいと思います。
最後に、Groovy でこれを行いたいということをもう一度述べさせてください。
Groovy で、Web ページを取得して HTML タグなどを削除し、ドキュメントのテキストだけを残すにはどうすればよいですか? 単語頻度カウンターを作成できるように、結果をコレクションにダンプしたいと思います。
最後に、Groovy でこれを行いたいということをもう一度述べさせてください。
Groovy でこれを行いたいと仮定すると (groovy タグに基づいて推測します)、アプローチはシェルスクリプト指向であるか、Java ライブラリを使用する可能性があります。シェル スクリプトの場合は moogs に同意しますが、Lynx または Elinks を使用するのがおそらく最も簡単な方法です。それ以外の場合は、HTMLParserを見て、 Processing Every Word in a Fileを参照してください(下にスクロールして、関連するコード スニペットを見つけます)。
おそらく、Groovy 用の Groovy ライブラリがないように見えるため、HTML 解析のために Groovy で使用する Java ライブラリを見つけるのに苦労しているでしょう。Groovy を使用していない場合は、使用している言語に応じて多数のHTML からテキストへのツールが存在するため、目的の言語を投稿してください。
HTML からトークン化された単語のコレクションが必要な場合は、XML のように解析して (有効な XML である必要があります)、タグ間のすべてのテキストを取得できませんか? このようなものはどうですか:
def records = new XmlSlurper().parseText(YOURHTMLSTRING)
def allNodes = records.depthFirst().collect{ it }
def list = []
allNodes.each {
it.text().tokenize().each {
list << it
}
}
Lynx Web Browserを使用して、文書のテキストを吐き出して保存することができます。
これを自動的に行いますか? これを行う別のアプリケーションが必要ですか? または、アプリケーションへのコーディングの支援が必要ですか? どのプラットフォーム (Windows デスクトップ、Web サーバーなど) で実行されますか?