3

LastFM API を使用してアーティスト情報を取得しています。彼らのメソッドを呼び出すとartist.getInfo、Artist オブジェクトを取得します。ただし、ウィキの要約テキストは、次のような html でフォーマットされています。

Arch Enemy is a Swedish <a href="http://www.last.fm/tag/melodic%20death%20metal" class="bbcode_tag" rel="tag">melodic death metal</a> band from Halmstad, Sweden, formed in 1996. Founded by <a href="http://www.last.fm/music/Carcass" class="bbcode_artist">Carcass</a> guitarist <a href="http://www.last.fm/music/Michael+Amott" class="bbcode_artist">Michael Amott</a> along with <a href="http://www.last.fm/music/Johan+Liiva" class="bbcode_artist">Johan Liiva</a>, both originally from the influential death metal band <a href="http://www.last.fm/music/Carnage" class="bbcode_artist">Carnage</a>. The band has released seven studio albums, a live album (Burning Japan Live 1999), two DVDs and three EPs. The band was originally fronted by Johan Liiva, who was replaced by <a href="http://www.last.fm/music/Angela+Gossow" class="bbcode_artist">Angela Gossow</a> as lead vocalist in 2000  

このテキストからプレーンテキスト (html レス) を取得したい。部分文字列を使用して手動で削除しようとしましたが、その方法が見つかりません。

4

2 に答える 2

2

Boilerpipeを使用することをお勧めします。からプレーンテキストを抽出する非常に優れた機能を備えていますHTML

あなたがしなければならないことは次のとおりです。

   URL url = new URL("http://www.example.com/some-location/index.html");
   // NOTE: Use ArticleExtractor unless DefaultExtractor gives better results for you
   String text = ArticleExtractor.INSTANCE.getText(url);

URLからのテキスト抽出です。Stringしかし、 aを as として渡すことができるのは機能ですかHTML。私はそれを使用してきましたが、私が試した中で最高に機能します。

于 2012-10-26T09:54:04.357 に答える
1

Androidにはクラス Html があります。このクラスを使用する最も簡単な方法は、メソッド fromHtml(...) を見ることができます。これは、プレーン テキストに簡単に変換できる Spannable を返します。

したがって、例は次のようになります。

String htmlString = "<div>text</div><a href=\"someref\">link</a>";
String plainText = Html.fromHtml(htmlString).toString();
于 2012-10-26T10:08:34.310 に答える