私はPHPを使用して、Webサイトからhtmlを取得し、それらをプレーンテキストに変換してデータベースに保存しています。
utf-8 でデータベースに保存する必要があります。私の最初の問題は、元のエンコーディングがわからないことです。不明なエンコーディングから utf-8 にエンコードする最良の方法は何ですか?
2 番目の問題は、html からプレーン テキストへの変換です。html2text を使用してみましたが、すべての外国語 utf 文字が台無しになりました。
最善のアプローチは何ですか?
編集:プレーンテキストに関する部分が十分に明確ではないようです。HTMLタグを取り除くだけでなくてもいいこと。ある種のドキュメント構造を維持しながらタグを削除したい。<p>
、<li>
タグは改行などに変換され、のようなタグ<script>
はコンテンツとともに完全に削除されます。