4

Groovy で、Web ページを取得して HTML タグなどを削除し、ドキュメントのテキストだけを残すにはどうすればよいですか? 単語頻度カウンターを作成できるように、結果をコレクションにダンプしたいと思います。

最後に、Groovy でこれを行いたいということをもう一度述べさせてください。

4

3 に答える 3

2

Groovy でこれを行いたいと仮定すると (groovy タグに基づいて推測します)、アプローチはシェルスクリプト指向であるか、Java ライブラリを使用する可能性があります。シェル スクリプトの場合は moogs に同意しますが、Lynx または Elinks を使用するのがおそらく最も簡単な方法です。それ以外の場合は、HTMLParserを見て、 Processing Every Word in a Fileを参照してください(下にスクロールして、関連するコード スニペットを見つけます)。

おそらく、Groovy 用の Groovy ライブラリがないように見えるため、HTML 解析のために Groovy で使用する Java ライブラリを見つけるのに苦労しているでしょう。Groovy を使用していない場合は、使用している言語に応じて多数のHTML からテキストへのツールが存在するため、目的の言語を投稿してください。

于 2008-10-16T04:35:58.970 に答える
1

HTML からトークン化された単語のコレクションが必要な場合は、XML のように解析して (有効な XML である必要があります)、タグ間のすべてのテキストを取得できませんか? このようなものはどうですか:

def records = new XmlSlurper().parseText(YOURHTMLSTRING)
def allNodes = records.depthFirst().collect{ it }
def list = []
allNodes.each {
    it.text().tokenize().each {
        list << it
    }
}
于 2008-10-16T16:08:01.710 に答える
0

Lynx Web Browserを使用して、文書のテキストを吐き出して保存することができます。

これを自動的に行いますか? これを行う別のアプリケーションが必要ですか? または、アプリケーションへのコーディングの支援が必要ですか? どのプラットフォーム (Windows デスクトップ、Web サーバーなど) で実行されますか?

于 2008-10-16T04:12:11.140 に答える