0

テキストからリンクを抽出するためにPythonで可読性(テキスト抽出アルゴリズム)とカスタムアルゴリズムを使用する方法はありますか?

テキストの本文にあるリンクを抽出する方法を見つけたいと思います。

1.) Python で可読性を使用しています https://github.com/gfxmonk/python-readability

2.) 記事の実際の本文にあるリンクを抽出するために、抽出したテキストを元の html テキストと何らかの方法で比較したいと考えています。

4

1 に答える 1

2

まあ、それは BeautifulSoup ツリーを返すようです。したがって、次のようなことができるはずです。

article = page.summary()   # Extract article using readability
article.findAll("a")       # Return a list of all links in the article
于 2011-01-04T00:05:32.850 に答える