2

私はPHPを使用して、Webサイトからhtmlを取得し、それらをプレーンテキストに変換してデータベースに保存しています。

utf-8 でデータベースに保存する必要があります。私の最初の問題は、元のエンコーディングがわからないことです。不明なエンコーディングから utf-8 にエンコードする最良の方法は何ですか?

2 番目の問題は、html からプレーン テキストへの変換です。html2text を使用してみましたが、すべての外国語 utf 文字が台無しになりました。

最善のアプローチは何ですか?

編集:プレーンテキストに関する部分が十分に明確ではないようです。HTMLタグを取り除くだけでなくてもいいこと。ある種のドキュメント構造を維持しながらタグを削除したい。<p><li>タグは改行などに変換され、のようなタグ<script>はコンテンツとともに完全に削除されます。

4

2 に答える 2

1

この関数は次の場合に役立ちます。

<?php
function FixEncoding($x){
  if(mb_detect_encoding($x)=='UTF-8'){
    return $x;
  }else{
    return utf8_encode($x);
  }
}
?>
于 2011-12-02T16:28:42.393 に答える