私はウェブサイトからいくつかのコンテンツをスクレイプしようとしていますが、これは通常は完全に正常に機能します。ただし、今回はコンテンツをスクレイピングすると、たくさんの文字、疑問符の付いた小さなひし形が表示されます。
私がスクレイピングしているWebサイトと私自身のWebサイトの両方で、エンコードとしてUTF-8を使用しています。奇妙なことに、そのサイトのホームページを完全にスクレイプできますが、別のページをスクレイプしようとすると、これらのページもUTF-8を使用しているにもかかわらず、すべてが台無しになります。物事を単純にするために、私はfile_get_html()のみを呼び出し、その後は単純なecho $ html-> plaintextを呼び出したので、コーディングにエラーがないはずです。
誰かがこれを解決する方法を知っていますか?前もって感謝します