ruby-on-rails - Web スクレイピングによる無効な文字の処理

Question

Nokigiri と Mechanize を使用して、Web サイトから大量の情報を抽出する Web スクレーパーを作成しました。これは、データベースのシードファイルを出力します。残念ながら、ソース Web サイトのテキストに無効な文字が多数含まkeppnisÃ¦findれScÃ©marioてKlÃ¤tiringいることがわかりました。シードファイルが大きすぎて検索と置換を実行できません。この問題にどう対処すればよいですか?

score 0 · Accepted Answer

これらはほぼ確実に UTF-8 文字です。単語は keppnisæfind、Scémario、Klätiring のようになります。問題の Web サイトは UTF-8 を送信しているが、それをエンコーディングとして宣言していない可能性があります。この場合、エンコーディングが宣言されていないサイトに対して Mechanize に強制的に UTF-8 を使用させる必要があります。ただし、エンコーディングが宣言されていない他の Web サイトに遭遇し、それらが UTF-8 以外のものを送信する場合、問題が複雑になる可能性があります。

score 0 · Accepted Answer

それらはhtml文字だと思います。必要なのは、文字をきれいにする関数を書くことだけです。これは、プログラミングプラットフォームに依存します。

ruby-on-rails - Web スクレイピングによる無効な文字の処理

2 に答える 2

Related

Reference