sql - PostgreSQL-HTMLエンティティを置き換えます

Question

多くのクロールを実行し、一部のクローラーは入力時にこれを実行しなかったため、データベースからHTMLエンティティを削除するタスクに着手しました:(

そこで、私は次のような一連のクエリを書き始めました。

UPDATE nodes SET name=regexp_replace(name, '&#xe0;', 'à', 'g') WHERE name LIKE '%#xe0%';
UPDATE nodes SET name=regexp_replace(name, '&#xe1;', 'á', 'g') WHERE name LIKE '%#xe1%';
UPDATE nodes SET name=regexp_replace(name, '&#xe2;', 'â', 'g') WHERE name LIKE '%#xe2%';

これは明らかにかなり素朴なアプローチです。私はデコード機能で何か賢いことができるかどうかを考えようとしてきました。おそらく、のような正規表現でhtmlエンティティを取得し、その一部だけ/&#x(..);/をASCIIデコーダーに渡して、文字列を再構築します...または何か...%1

クエリを押し続けましょうか。おそらく40かそこらしかないでしょう。

score 7 · Accepted Answer

pl / perluを使用して関数を記述し、このモジュールを使用しますhttps://metacpan.org/pod/HTML::Entities

もちろん、perlをインストールし、pl/perlを使用できるようにする必要があります。

1）まず、手続き型言語pl/perluを作成します。

CREATE EXTENSION plperlu;

2）次に、次のような関数を作成します。

CREATE FUNCTION decode_html_entities(text) RETURNS TEXT AS $$
    use HTML::Entities;
    return decode_entities($_[0]);
$$ LANGUAGE plperlu;

3）次に、次のように使用できます。

select decode_html_entities('aaabbb&amp;.... asasdasdasd &hellip;');
   decode_html_entities    
---------------------------
 aaabbb&.... asasdasdasd …
(1 row)

score 5 · Accepted Answer

xpathを使用できます（HTMLエンコードされたコンテンツはXMLエンコードされたコンテンツと同じです）：

select 
  'AT&amp;T' as input ,
  (xpath('/z/text()', ('<z>' || 'AT&amp;T' || '</z>')::xml))[1] as output

score 1 · Accepted Answer

これは私がPG10でUbuntu18.04で作業するのにかかったものであり、Perlは,何らかの理由でいくつかのエンティティをデコードしませんでした。そこで、Python3を使用しました。

コマンドラインから

sudo apt install postgresql-plpython3-10

SQLインターフェイスから：

CREATE LANGUAGE plpython3u;

CREATE OR REPLACE  FUNCTION htmlchars(str TEXT) RETURNS TEXT AS $$
    from html.parser import HTMLParser
    h = HTMLParser() 
    if str is None:
        return str
    return h.unescape(str);
$$ LANGUAGE plpython3u;

sql - PostgreSQL-HTMLエンティティを置き換えます

3 に答える 3

Related

Reference