1

Visual Basic (私の場合は 6) を使用している場合、すべての HTML タグを削除してプレーン テキストを取得するにはどうすればよいでしょうか? 私はこれを HTML Purifier で達成できましたが、PHP で行いました。5MBを超えるページを処理する必要があり、PHPでは実際にはそれほど効率的ではないため、これを可能にするVB6の関数、クラス、またはスクリプトはありますか。

繰り返しますが、これを変換するにはどうすればよいですか。

<!DOCTYPE html>
<html>
<head>
<title>Title</title>
</head>
<body>
<p>Paragraph 1</p>
<div>Section</div>
Hello!
</body>
</html>

に、これを言いましょう:

Paragraph 1
Section
Hello!

これを行うための API システムを作りたかったのですが、信頼できないことがわかりました。

PS: 検索エンジン用のクローラーを作成しているため、これを行っています。VB と PHP の経験しかありません。

ありがとうございます。

4

4 に答える 4

1

私はC#用に切り取りました...しかし、VBに非常に簡単に移植できます:)

/// <summary>
/// Remove HTML from string with Regex.
/// </summary>
public static string StripTagsRegex(string source)
{
            return Regex.Replace(source, "<.*?>", string.Empty);
}
于 2013-07-19T20:41:13.480 に答える