私はdelicious.com/popularRSSフィードを追跡するのが好きです。しかし、最近、アイテムにはますます多くのアジアのページがあります。私はアジアの言語を理解していないので、どういうわけかフィードからそれらをフィルタリングして、時間を節約したいと思います。
Yahooパイプを使って何かを作ってみましたが、うまくいきませんでした。
これを機能させる方法について誰かアイデアはありますか?
私はdelicious.com/popularRSSフィードを追跡するのが好きです。しかし、最近、アイテムにはますます多くのアジアのページがあります。私はアジアの言語を理解していないので、どういうわけかフィードからそれらをフィルタリングして、時間を節約したいと思います。
Yahooパイプを使って何かを作ってみましたが、うまくいきませんでした。
これを機能させる方法について誰かアイデアはありますか?
http://pipes.yahoo.com/pipes/pipe.info?_id=yJh1aRp_3hGaPi23tPvyrQで運が良かった
^[A-Za-z 0-9 \.,\?'""!@#\$%\^&\*\(\)-_=\+;:<>\/\\\|\}\{\[\]
パイプのソースにはすべての情報がありますが、重要なのは正規表現〜] +$`でフィルターを実行することです。
これにより、タイトルに標準のASCII以外のものを使用するフィードが除外されます。残念ながら、これは「履歴書」などの単語もフィルタリングすることを意味しますが、正規表現を調整して、知っている言語の一般的な英語以外の文字を含めるのは非常に簡単です。
おそらく、X%を超える文字が、理解できる言語のスクリプトに割り当てられたコードブロックからのものではないタイトルをスキップすることをお勧めします。たとえば、ギリシャ語、ロシア語、アラビア語、ヘブライ語、アルメニア語、中国語、日本語、韓国語、インド語などが読めない場合は、文字の10%以上がU + 0000〜 U+0233。これにより、ラテンアルファベットが残ります。10%のようなマージンを残すという考えは、句読点用です。また、技術記事では、基本アルファベットにない記号が使用されている場合があります。