9

大量の大きな html および xml ドキュメント (30.000 以上) のスペル チェックを行う必要があります。カスタム辞書と高度なチェック アルゴリズムも必要です。BASHhunspell で+ linux ユーティリティ ( sedgrep、 ...)を使用しようとしています。Hunspellドキュメントを HTML としてチェックするように強制するオプション -H があります (XML の場合、このオプションも適しています)。ただし、1 つの問題があります。行数ではなくオフセットを出力し、行ごとにチェックすることもできます。この場合、タグの内部を調べるためです (閉じたタグが見つからない)。では、タスクを実行する正しい方法は何ですか?

4

2 に答える 2

7

同様の問題がありました。文書化されていないスイッチを使用することで、適切な出力を得ることができるはず-uです-U。しかし、これらの機能は現在実験段階のようで、hunspell のソースを調べて初めてその存在を知ったので、注意してください。

したがって、本質的に:

hunspell -H -u my-file.html

するべきです。

または、スイッチもあり、いじること-u1ができます。-u2-u3

于 2012-05-16T12:56:42.697 に答える
1

tidyを使ってみましたか?

私はこれほど多くのファイルで使用したことはありませんが、100 以上の HTML ページの問題を見つけるには問題なく機能しました。XML ファイルでも使用でき、まだ調べていない多くのオプションを含む構成ファイルを受け入れることができます。

于 2011-04-08T08:51:39.603 に答える