問題タブ [boilerpipe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - PHPのHTMLテキスト抽出
HTML テキスト抽出ツールはたくさんあります。主に Java または Python 用です。私が最も頻繁に遭遇するのは、ボイラーパイプです。あちこちにいくつかの API があり、いくつかはかなりうまく機能しているようです。これを行うPHPの何かを知っている人はいますか?
java - ボイラーパイプスターター問題
私はボイラーパイプが初めてです。彼らのウェブサイトにあるサンプルコードを実行しようとしました:
必要なすべての jar ファイルをクラス パスに追加しましたが、例外が発生します。
java - ボイラーパイプ - JSON を出力するにはどうすればよいですか?
ボイルパイプを使っていて良さそうですが、JSONを出力したいです。私は Java バージョンを使用し、次のように NetBeans でテストしています。
これについてどうすればよいか誰か教えてもらえますか?
text-extraction - .net のボイラーパイプの HtmlHighlighter が常にテキストを返さない
私のアプリケーションで Boilerpipe を使用しており、ArticleExtractor を使用してコンテンツを抽出しようとすると、平面テキストのみが取得され、すべての html フォーマットが削除されているため、HtmlHighlighter を使用しようとしています。しかし、HtmlHighlighter の process メソッドは特定の URL で失敗します。このメソッドに渡すために html 文字列を使用するオプションはありますか? 誰か説明できますか?
java - Java-Eclipseで実行されているBoilerpipeがデモプログラムに対して正しく機能しない
だから私はEclipseでボイラーパイプを実行しています。私はそれを機能させようとしているだけです、ここにコードがあります。
Eclipseで正しく設定したかどうかはわかりませんが、コンソールに次のように表示されます...
.net - NBoilerPipeからHTML出力を取得するにはどうすればよいですか?
NBoilerPipeは、BoilerPipeJavaライブラリのモノポートです。私はこれを.NET4であまり問題なく動作させることができました(いくつかのライブラリ参照は修正などが必要でした)。ただし、コードを検索すると、HTML出力の「フック」が見つかりません。たとえば、GetText()メソッドには入力用のパラメーターが1つしかないため、追加のメソッドが表示されません。NBoilerPipeからHTML出力を取得するにはどうすればよいですか?
.NET4で機能するサンプルNBoilerPipeコードは次のとおりです。
java - Pythonでボイラーパイプライブラリを実行することによる問題
大学のプロジェクトのページからテキストを抽出することを目的として、Pythonでボイラーパイプライブラリを使用しようとしました。次のような抽出を行うための簡単なコードを作成しました。
実行しようとしたときに発生するエラーは次のとおりです。
すでにJVMとJREを確認しましたが、正しくインストールされ、JAVA_HOME
環境変数が設定されています。
誰かがそれを修正する方法を知っていますか?
python - 文字列の型の判別
このような記事の Web サイトから文字列の型を特定する方法を探しています。タイプは、タイトル、著者、日付、記事そのものです。BeautifulSoup と Boilerpipe を使用して、関連するコンテンツをスクレイピングします。
これで、次のような出力が得られました。
またはこれ:
どのタグにタイトル文字列、著者文字列、発行日、記事文字列が含まれているかを判断する方法を探しています。
をいじっていましscrapy
たが、さまざまなサイトからこの情報を取得するための普遍的なアルゴリズムは含まれていません。
文字列の長さを評価するクレイジーな種類の評価と、タイトルタグが常に著者タグよりも多くの文字を持ち、記事タグよりも少ないことを期待することを除いて、私はこのようなことが可能であるかさえ疑い始めています。しかし、それを考えるのは非常に単純であり、出力はおそらく非常に不正確です。
それを行う方法についての指針はありますか?
html - ボイラーパイプを使用して Web ページからコンテンツを抽出するときに、元の html 形式を保持するにはどうすればよいですか?
Android アプリケーションの Web ページからタイトルとコンテンツ (パラグラフ化) を抽出できましたが、画像の取得に失敗することがあります。
しかし、html 形式のパラメーター (太字、ハイパーリンク、下線、フォント サイズなど) をエクストラクターで保持する方法が見つかりませんでした。
つまり、Web ページの文に太字、ハイパーリンク、または下線が付いている場合、文自体とその書式パラメータの両方を抽出するにはどうすればよいでしょうか?
このページを試してみました: Web-APIとローカル jarの APIの両方による記事。
ローカル API を使用して Web-API と同じ結果を得たいと考えています。
どなたか、この問題についてあなたの経験を共有していただけませんか?
どうもありがとう、
ジェームズ
編集#1
コードは次のとおりです。
実際、「失敗」とは次のことを意味します。
いくつかの Web サイトから画像を取得できました。ただし、上記のこの記事では画像を取得できませんでした。