0

カスタムドキュメント比較ツールを作成しています。Word文書のコンテンツをWebページのコンテンツと比較しています。Webページを解析し、テキストを削除して、Word文書からJTextareaにコピーしているテキストと比較しています。

私がやりたいのは、テキストを比較し、スペルミスや単語の欠落がないことを確認することです。Webページを解析すると、番号付きリストや箇条書きのようなフォーマットが表示されません。私の問題は、Word docの内容をjtextareaにコピーすると、番号付きリスト、箇条書きリストなどがすべて保持されることです。

私が欲しいのは、次のテキストの例を取り上げることです。

解決策1:ネットワークハードウェアを再起動します

Xbox LIVEのパフォーマンスが遅いと思われる場合は、ネットワークハードウェアを再起動してみてください。方法は次のとおりです。

  1. Xbox 360本体とネットワークハードウェア(モデムやルーターなど)の電源を切ります。
  2. 30秒待ちます。
  3. モデムの電源を入れて、1分待ちます。

そしてそれを次のように変えます:

解決策1:ネットワークハードウェアを再起動する
Xbox LIVEのパフォーマンスが遅いと思われる場合は、ネットワークハードウェアを再起動してみてください。方法は次のとおりです
。Xbox360コンソールとネットワークハードウェア(モデムやルーターなど)の電源を切ります。
30秒待ちます。
モデムの電源を入れて、1分待ちます。

すべての空白行を削除するための正規表現がすでにあります。余分なタブやリストスタイルなどの削除をどのように処理すればよいかわかりません。何か提案はありますか?

4

1 に答える 1

2

次のヒューリスティックを試すことができます。

  • すべてのタブ(など)をスペースに置き換えます(を参照String.replaceAll()
  • すべてのスペース-フォロー番号-フォロー-ドット-アットザ-ラインの先頭をスペースに置き換えます(正規表現を参照してください:|^ *\d*\\.|-carret-space-star-backslash-d-backslash-backslash-dot)
  • すべての一連のスペース(正規表現:-space | +|-spaces-plus)を1つのスペースに置き換えます(余分なスペースを削除するため)-これを最後のステップとして保持します

不要な他のパターンに遭遇した場合は、そこに他の置換ロジックを追加できます

|:先頭のスペースを見やすくするために正規表現を追加しましたが、コードを入力するときに正規表現の一部ではありません。

于 2012-07-20T13:50:51.247 に答える