テキストからリンクを抽出するためにPythonで可読性(テキスト抽出アルゴリズム)とカスタムアルゴリズムを使用する方法はありますか?
テキストの本文にあるリンクを抽出する方法を見つけたいと思います。
1.) Python で可読性を使用しています https://github.com/gfxmonk/python-readability
2.) 記事の実際の本文にあるリンクを抽出するために、抽出したテキストを元の html テキストと何らかの方法で比較したいと考えています。
テキストからリンクを抽出するためにPythonで可読性(テキスト抽出アルゴリズム)とカスタムアルゴリズムを使用する方法はありますか?
テキストの本文にあるリンクを抽出する方法を見つけたいと思います。
1.) Python で可読性を使用しています https://github.com/gfxmonk/python-readability
2.) 記事の実際の本文にあるリンクを抽出するために、抽出したテキストを元の html テキストと何らかの方法で比較したいと考えています。