サーバー側で、実行時にランダムな Web ページから純粋なテキストを抽出する必要があります。私は Google App Engine と Readability python ポートを使用しています。それらのいくつかがあります。
- BeautifulSoup に基づくgfxmonk による初期バージョン
- gfxmonk に基づいた minvolaiによるバージョンは、lxmlへの依存関係が導入されているにもかかわらず、(minvolai によると、プロジェクト ページを参照) 高速化されていますが、BeautifulSoap ではなく lxml を使用しています。
- ユーリ・バブロフ別名ブリーによるバージョン。minvolai のものと同じで、lxml に依存します。 また、エンコーディングを検出するためにchardetに依存します。
私は Yuri のバージョンを使用しています。これは最新であり、活発に開発されているようです。Python 2.7 を使用して Google App Engine で実行することができました。「問題」は、純粋なテキストが必要なのに対し、HTML を返すことです。
リンク抽出に関するこの Stackoverflow 記事のアドバイスは、BeatfulSoupを使用することです。他に選択肢がなければ、そうします。私はlxmlベースのバージョンを使用しているため、BeatfulSoupはさらに別の依存関係になります。
私の質問:
- コードを分岐せずに使用する Python Readability バージョンから純粋なテキストを取得する方法はありますか?
- lxml、BeatifulSoap、RegExなどを使用して、Python ReadabilityのHTML結果から純粋なテキストを簡単に取得する方法はありますか?
- 上記の答えが「いいえ」、または「はい」であるが簡単ではない場合、Python の可読性を変更する方法は何ですか。そのような変更は、そのような拡張機能を公式にするのに十分 (十分な数の人々にとって) 望ましいものですか?