0

Nokigiri と Mechanize を使用して、Web サイトから大量の情報を抽出する Web スクレーパーを作成しました。これは、データベースのシード ファイルを出力します。残念ながら、ソース Web サイトのテキストに無効な文字が多数含まkeppnisæfindScémarioKlätiringいることがわかりました。シード ファイルが大きすぎて検索と置換を実行できません。この問題にどう対処すればよいですか?

4

2 に答える 2

0

これらはほぼ確実に UTF-8 文字です。単語は keppnisæfind、Scémario、Klätiring のようになります。問題の Web サイトは UTF-8 を送信しているが、それをエンコーディングとして宣言していない可能性があります。この場合、エンコーディングが宣言されていないサイトに対して Mechanize に強制的に UTF-8 を使用させる必要があります。ただし、エンコーディングが宣言されていない他の Web サイトに遭遇し、それらが UTF-8 以外のものを送信する場合、問題が複雑になる可能性があります。

于 2012-07-19T23:04:11.757 に答える
0

それらはhtml文字だと思います。必要なのは、文字をきれいにする関数を書くことだけです。これは、プログラミング プラットフォームに依存します。

于 2012-07-19T22:28:13.067 に答える