たくさんの入力データがありますが、ガベージ文字が表示されることもあります。例:
âドットベビーシャワーの招待状â
明らかに、過去のある時点でそれはでした"Dots Baby Shower Invitations"。しかし、それは文字化けして私に来ました。âこのような場合は、ごみの文字を削除していただければ幸いです。
しかし、私のデータセットは非常に大きいので、英語以外の文字をすべて削除するだけでは、ナイーブという単語の場合のように、ややナイーブになる可能性があります。ïもちろん、削除されたくありません。
では、この問題に対する潜在的に自動化された解決策はありますか?この問題で誰かが私の前に来ましたか?これは「コンピューターは人間ほど賢くない」というケースですか?