xml - html と xml でスペルチェックを行う方法は?

Question

大量の大きな html および xml ドキュメント (30.000 以上) のスペルチェックを行う必要があります。カスタム辞書と高度なチェックアルゴリズムも必要です。BASHhunspell で+ linux ユーティリティ ( sed、grep、 ...)を使用しようとしています。Hunspellドキュメントを HTML としてチェックするように強制するオプション -H があります (XML の場合、このオプションも適しています)。ただし、1 つの問題があります。行数ではなくオフセットを出力し、行ごとにチェックすることもできます。この場合、タグの内部を調べるためです (閉じたタグが見つからない)。では、タスクを実行する正しい方法は何ですか?

score 7 · Accepted Answer

同様の問題がありました。文書化されていないスイッチを使用することで、適切な出力を得ることができるはず-uです-U。しかし、これらの機能は現在実験段階のようで、hunspell のソースを調べて初めてその存在を知ったので、注意してください。

したがって、本質的に：

hunspell -H -u my-file.html

するべきです。

または、スイッチもあり、いじること-u1ができます。-u2-u3

score 1 · Accepted Answer

tidyを使ってみましたか？

私はこれほど多くのファイルで使用したことはありませんが、100 以上の HTML ページの問題を見つけるには問題なく機能しました。XML ファイルでも使用でき、まだ調べていない多くのオプションを含む構成ファイルを受け入れることができます。

xml - html と xml でスペルチェックを行う方法は?

2 に答える 2

Related

Reference