(html、sgml、xml、txt)などの入力を受け入れるプロジェクトがあります。
XML ファイルと txt ファイルの解析に問題はありません。html または sgml ファイルの解析に使用できるツールをいくつか提案してください。
HTMl パーサーには、HTML Agilty Pack を使用します。これは、.NET 用のオープン ソース HTML パーサーです。
Html Agility Pack (HAP) とは正確には何ですか?
これは、読み取り/書き込み DOM を構築し、プレーンな XPATH または XSLT をサポートするアジャイル HTML パーサーです (実際には、使用するために XPATH や XSLT を理解する必要はありません。心配はいりません...)。これは、「Web から」HTML ファイルを解析できる .NET コード ライブラリです。パーサーは、「実際の」不正な HTML に対して非常に寛容です。オブジェクト モデルは、System.Xml を提案するものと非常に似ていますが、HTML ドキュメント (またはストリーム) 用です。
これを使用して HTML をクエリし、必要なデータを抽出できます。
SGML パーサーの場合
このリンク SGMLReader - Convert any HTML to valid XML をチェックしてください。
HTML の解析については、http://htmlagilitypack.codeplex.com/ 以外はお勧めできません。SGMLは基本的に同じですが、他の要素を使用すると、おそらくそれを使用することもできます。