私のスクリプトは大量のテキストを取得します-それはHTMLコードであるか、プレーンテキストであり、特殊文字がエンコードされているかどうか、またはその両方である可能性があります。
したがって、コンテンツには次のようなものが含まれる場合があります。
Don't Do That
It's called "Meme"
He said: 'Yeah'
エンコードされているかどうかにかかわらず、1つのタイプとして取得するにはどうすればよいですか?
私は試した:
htmlentities(html_entity_decode($text), ENT_QUOTES, "UTF-8"), ENT_NOQUOTES, "UTF-8")
ただし、すべての場合に機能するわけではありません。例:
•
戻り値
•