たくさんの入力データがありますが、ガベージ文字が表示されることもあります。例:
âドットベビーシャワーの招待状â
明らかに、過去のある時点でそれはでした"Dots Baby Shower Invitations"
。しかし、それは文字化けして私に来ました。â
このような場合は、ごみの文字を削除していただければ幸いです。
しかし、私のデータセットは非常に大きいので、英語以外の文字をすべて削除するだけでは、ナイーブという単語の場合のように、ややナイーブになる可能性があります。ï
もちろん、削除されたくありません。
では、この問題に対する潜在的に自動化された解決策はありますか?この問題で誰かが私の前に来ましたか?これは「コンピューターは人間ほど賢くない」というケースですか?