Pocket、Readability、Instapaperなどのサービスによって提供される、通常のWebページを解析して読みやすい形式に変換するためのスタンドアロンオプションが存在することを知りたいです。
私は主にアプリに含めるJavaパーサーライブラリを探していますが、一般的に、あらゆる種類のスタンドアロンツールが高く評価されています。
ありがとう。
Pocket、Readability、Instapaperなどのサービスによって提供される、通常のWebページを解析して読みやすい形式に変換するためのスタンドアロンオプションが存在することを知りたいです。
私は主にアプリに含めるJavaパーサーライブラリを探していますが、一般的に、あらゆる種類のスタンドアロンツールが高く評価されています。
ありがとう。
あなたは、最近のJavaの最先端であると思われるSnacktoryを求めていると思います。
JSoupは、頭に浮かぶ最初のライブラリです。HTML のスクレイピングに最適です。テキストのみを残して、Web ページからすべてのタグを簡単に取り除くことができます。(ターゲット ページの構造がわかっている場合は、特定のセレクターを使用して必要な部分を取得したり、必要な部分を除外したりできます。)
繰り返しになりますが、Web ページを PDF としてレンダリングするために最善を尽くすFlying Saucerのようなものが欲しいだけかもしれません。