索引付けの目的で HTML ファイルからテキストを引き出し、できるだけ早くそれを行いたいと考えています。ゼロから作るのではなく、自分がどれだけできているかを知りたいです。
現在、動作する html2text の出力をパイプ処理しているだけですが、Python であることとテキストをきれいにしようとすることの間で、速度が改善される可能性があると確信しています。
では、Linux/unix が優先される場合、この種のタスクに最適な (c/c++) ライブラリはどれでしょうか?
索引付けの目的で HTML ファイルからテキストを引き出し、できるだけ早くそれを行いたいと考えています。ゼロから作るのではなく、自分がどれだけできているかを知りたいです。
現在、動作する html2text の出力をパイプ処理しているだけですが、Python であることとテキストをきれいにしようとすることの間で、速度が改善される可能性があると確信しています。
では、Linux/unix が優先される場合、この種のタスクに最適な (c/c++) ライブラリはどれでしょうか?