3

RSSフィードからニュース記事を取得するPythonを使用してアプリケーションを構築しています。私のプロジェクトの一環として、記事が表示される html ページから記事のコンテンツだけを抽出するために、ボイラーパイプを使用することにしました。

ボイラーパイプはもともと Java 用に作成されましたが、Python にも移植されています。ここの github でそのページを見ることができます: https://github.com/misja/python-boilerpipe

問題は、次を使用してインポートしようとすると例外が発生することです。

from boilerpipe.extract import Extractor

私が得るエラーは次のとおりです。

Traceback (most recent call last):
File "", line 1, in
File "build\bdist.win32\egg\boilerpipe\extract__init__.py", line 12, in
File "C:\Python26\lib\site-packages\jpype_jclass.py", line 54, in JClass
raise _RUNTIMEEXCEPTION.PYEXC("Class %s not found" % name)
jpype._jexception.ExceptionPyRaisable: java.lang.Exception: Class 
de.l3s.boilerpipe.sax.HTMLHighlighter not found

この問題の原因は何ですか?どうすれば修正できますか?

4

5 に答える 5

4

これは、Python 2.7.9 を搭載した Mac OS X 10.8.5 で機能しました。

pip install JPype1    # to install https://pypi.python.org/pypi/JPype1
pip install charade
git clone https://github.com/misja/python-boilerpipe.git
cd python-boilerpipe
sudo python setup.py install

次に、Pythonコンソールで実行できるはずです

>>> from boilerpipe.extract import Extractor
>>> extractor = Extractor(extractor='ArticleExtractor', url="http://en.wikipedia.org/wiki/Main_Page")
>>> print extractor.getText()
于 2015-03-09T17:16:49.893 に答える
1

ボイラー パイプ Java パッケージのインストールがありません。ここで見つけることができます - http://code.google.com/p/boilerpipe/downloads/list

Pythonボイラーパイプラッパーのみをインストールしました。

于 2012-09-15T17:19:31.283 に答える
0

クラスHTMLHighlighterが見つかりませんでした。を設定しましたJAVA_HOMEか? ドキュメントには次のように記載されています。

jpype はこの設定に依存するため、JAVA_HOME を適切に設定してください。

于 2012-02-19T19:11:59.773 に答える