4

たくさんの入力データがありますが、ガベージ文字が表示されることもあります。例:

âドットベビーシャワーの招待状â

明らかに、過去のある時点でそれはでした"Dots Baby Shower Invitations"。しかし、それは文字化けして私に来ました。âこのような場合は、ごみの文字を削除していただければ幸いです。

しかし、私のデータセットは非常に大きいので、英語以外の文字をすべて削除するだけでは、ナイーブという単語の場合のように、ややナイーブになる可能性があります。ïもちろん、削除されたくありません。

では、この問題に対する潜在的に自動化された解決策はありますか?この問題で誰かが私の前に来ましたか?これは「コンピューターは人間ほど賢くない」というケースですか?

4

1 に答える 1

1

WordNetのような英語の辞書を使用して、そこに見つからない単語のみを変更することができます。たとえば、naïveには「奇妙な」文字が含まれていますが、辞書に含まれているため、変更されません。一方、ドットには奇妙な文字も含まれていますが、(うまくいけば)辞書に含まれないため、変更されて、âは削除されます。

これは手間がかかりすぎるかもしれませんが、すぐに機能するソリューションが必要だと言ったように、試してみる価値があるかもしれません...そして、すぐにハッキングされたヒューリスティックよりもうまくいくでしょう!

于 2013-01-06T00:58:18.213 に答える