3

htmlファイルからテーブルデータを抽出するために、htmlアジリティパックを使用してhtmlファイルを解析しています。ただし、オプションの終了タグがない、またはオプションの開始タグがないhtmlファイルがいくつかあるため、htmlアジリティパックはそのhtmlページを適切に解析しません。そのhtmlファイルのコンテンツをメモ帳++で開くと次に、オプションTestFX-->TestFX HTML Tidy-->TiDy clean documentを使用して、コンテンツをこのように整理します。そして今、このファイルhtmlアジリティパックで解析すると、適切に解析されます。

notepad++でhtmlページを整理するのが最良のオプションです。

だから私にはわかりませんが、ユーザーは最初にメモ帳++でページを整理してから先に進むようにこれを行うことはできません。それではどうすればよいですか?

編集私はhtmltidypackを使用しましたが、場合によっては解析されないファイルがありますが、このページをnotepad++で整頓すると解析されます。

4

3 に答える 3

4

Notepad ++はHtmlTidyライブラリを使用していると思いますが、そうすることもできます。メインページはこちらです。

または、 HrmlTidyのようなサービスをオンラインで使用できるかもしれません

編集:あなたは(HtmlTidyの上に)notepad++を使いたいようです。NP ++には限られたコマンドオプションのセットがあるため、ファイルのロードは問題になりません。しかし、残りの必要な処理を実行するためのインターフェイスのリファレンスが見つかりませんでした。HTMLを整理して結果を保存します。

于 2010-05-21T12:15:55.740 に答える
2

HTMLTidyはNotepad++から独立しており、このオープンソースコンポーネントを.NET(または他の言語)プロジェクトで直接使用できます。

.Netでこれを使用する方法の詳細については、こちらをご覧ください

于 2010-05-21T12:14:13.717 に答える
0

HTML Tidyは個別に入手することもでき、Notepad++のプラグインとして使用されます。アプリで直接使用することをお勧めします。http://tidy.sourceforge.net/をご覧ください。多くの言語の実装が利用可能です。

于 2010-05-21T12:25:50.833 に答える