自然言語のプレーンテキストを比較するためにgoogle-diff-match-patchを使用しています。
特定の文字を無視するように google-diff-match-patch を作成するにはどうすればよいですか? (私が気にしないいくつかの小さな違い。)
たとえば、text1 が与えられた場合:
give me a cup of bean-milk. Thanks.
と text2:
please give mom a cup of bean milk! Thank you.
(「Thank you」の前に 2 つのスペース文字があることに注意してください。)
google-diff-match-patch は次のように出力します:
[please] give m(e)[om] a cup of bean(-)[ ]milk(.)[!] Thank(s)[ you].
google-diff-match-patch は異なる数の空白のみを無視するようです。
のような文字も無視するように google-diff-match-patch に指示するにはどうすればよい[-.!]
ですか?
期待される結果は
[please] give m(e)[om] a cup of bean-milk. Thank(s)[ you].
ありがとう。