0

索引付けの目的で HTML ファイルからテキストを引き出し、できるだけ早くそれを行いたいと考えています。ゼロから作るのではなく、自分がどれだけできているかを知りたいです。

現在、動作する html2text の出力をパイプ処理しているだけですが、Python であることとテキストをきれいにしようとすることの間で、速度が改善される可能性があると確信しています。

では、Linux/unix が優先される場合、この種のタスクに最適な (c/c++) ライブラリはどれでしょうか?

4

1 に答える 1

2

テキストを抽出するには、htmlcxxlibxmlなどのHTMLパーサーを使用できます。HTMLを整理した後、任意のXMLライブラリを使用することもできます。テキストのインデックス作成には、CLuceneを使用できます。

于 2010-01-28T06:49:28.430 に答える