Nokigiri と Mechanize を使用して、Web サイトから大量の情報を抽出する Web スクレーパーを作成しました。これは、データベースのシード ファイルを出力します。残念ながら、ソース Web サイトのテキストに無効な文字が多数含まkeppnisæfind
れScémario
てKlätiring
いることがわかりました。シード ファイルが大きすぎて検索と置換を実行できません。この問題にどう対処すればよいですか?
質問する
184 次
2 に答える
0
これらはほぼ確実に UTF-8 文字です。単語は keppnisæfind、Scémario、Klätiring のようになります。問題の Web サイトは UTF-8 を送信しているが、それをエンコーディングとして宣言していない可能性があります。この場合、エンコーディングが宣言されていないサイトに対して Mechanize に強制的に UTF-8 を使用させる必要があります。ただし、エンコーディングが宣言されていない他の Web サイトに遭遇し、それらが UTF-8 以外のものを送信する場合、問題が複雑になる可能性があります。
于 2012-07-19T23:04:11.757 に答える
0
それらはhtml文字だと思います。必要なのは、文字をきれいにする関数を書くことだけです。これは、プログラミング プラットフォームに依存します。
于 2012-07-19T22:28:13.067 に答える