2

I'm looking for better ideas for extracting tables from html files. Right now I'm using tidy ( http://tidy.sourceforge.net/ ) to convert a html file into xhtml and then I use rapidxml to parse the xml. While parsing I will look for <table>, <tr>, and <td> nodes and so create my table data structures.

It works quite nicely but I'm wondering if there are better ways to accomplish my task. Also the tidy lib seems like an abandoned project.

Also has everyone ever tried the "experimental" patch in tidy source code?

Thanks, Christian

4

2 に答える 2

0

あなたのアプローチはかなり大丈夫だと思います。htmlを整理してxhtmlに変換し、xmlを解析するのが最善だと思います。単純化する方法がわかりません。

あなたは問題について言及していないので、何が問題なのかわかりません。

于 2013-03-26T00:58:23.840 に答える