Web ページをスクレイピングしてデータをログに記録する小さなパーサーを構築しています。ログに記録するものの 1 つは、フォーラムの投稿タイトルです。XML パーサーを使用して DOM を調べてこの情報を取得し、次のように保存しています。
// Strip out the post's title
$title = $page->find('a[rel=bookmark]', 0);
$title = htmlspecialchars_decode(html_entity_decode(trim($title->plaintext)));
これはほとんどの場合機能しますが、一部の投稿–
にはダッシュ ( -
) などの特定の特別な HTML 文字コードがあります。これらの特殊文字コードを元の文字列に変換するにはどうすればよいですか?
ありがとう。