“jericho-html-parser”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

825 参照

java - Noclassdeffounderror Jericho htmlparser

Jericho html パーサーを使用する Android プロジェクトに取り組んでいます。アプリは起動しますが、検索ボタンを押したときにパーサーを使用したい場合、次のエラーが表示されます。

Jerco html パーサー JAR ファイルをインポートしたので、それは問題ではありません..なぜこのエラーが発生するのかわかりません!

何か案は？

2012-09-17T07:51:40.020

0 投票する

1 に答える

7679 参照

java - JAVA用のJSPおよびHTMLパーサー

私はHTMLファイルの解析にJsoupを使用してきましたが、これまでのところ、それは素晴らしい仕事をしています。ただし、サーバータグ（<％...％>）を解析することはできません。私はそれを拡張することに決めましたが、そのパーサーとそれらすべてのプライベート/パッケージレベルのクラス（つまり、TreeBuilder、TransitionState ...など）を拡張する簡単な方法を見つけることができません...

そこで、サーバータグを解析できると主張しているJerichoを調べ始めましたが、ドキュメントが非常に貧弱で、簡単に始めることすらできません。そして、そのAPIはJsoupが提供するものほどフレンドリーではないようです-いくつかのノードを抽出して移動するのはそれほど簡単ではありません...

誰かが以前に同じような状況にあるのだろうか、そしてあなたはそれをどのように解決するのだろうか？つまり、JavaでJSPファイルを解析したいだけです。（まあ..自分で実装するように言わないでください; p）

java parsing jsp jsoup jericho-html-parser

2012-10-30T12:34:10.053

0 投票する

2 に答える

1048 参照

java - 特定のIDを持つ要素を除外または無視しながら、JavaでJerichoを使用してソースからすべてのリンクを解析する方法は?

すべての href リンクを解析するために Jericho Java クライアントライブラリを使用しています。私がやりたいことは、特定の ID を含むソースからのすべてのリンクを除外またはスキップすることです。私はいくつかのことを試しましたが、私の解決策はきれいではありませんが、基本的には次のようなものをチェックすることでこれを達成できます:

しかし、私はよりクリーンなソリューションを好みます。これがソースであると仮定しましょう：

ちょっとしたスニペットですが、最終的に返してほしいのは「www.google.com」だけです。これについて何か助けていただければ幸いです。ありがとう。

java jericho-html-parser

2012-12-05T04:36:46.410

0 投票する

1 に答える

253 参照

html-parsing - 複数のページにわたって特定の HTML の場所からテキストを抽出する

複数のページにわたって HTML 内の特定の場所からテキストを抽出する目的で、Jericho HTML パーサーと Selenium IDE を試してきました。

これを行う方法の簡単な例が見つかりませんでしたし、Java も知りません。

1 番目のテーブル、4 番目の行、1 番目の div の任意のテキスト文字列のすべての HTML ページをフォルダで検索したいと思います。

そして、選択したテキストを次のようなリストの txt ファイルに出力します。

すべてのソースファイルはローカルに保存され、不適切な HTML が含まれている可能性があるため、この目的には Jericho が最適であると考えられます。ただし、望ましい結果を達成するための方法を喜んで学びます。

html-parsing text-extraction jericho-html-parser

2013-03-12T18:44:22.180

0 投票する

2 に答える

1303 参照

java - HTMLコードをwysiwygエディターから生成されたプレーンテキストにレンダリングまたは変換する方法

Web アプリケーションで wysiwyg エディター (CKEditor) を使用して、ユーザーに基本的なワープロを提供しました。そのCKEditorの出力をpdfドキュメントに保存しようとしました。PDFドキュメントを生成できるようになりましたが、問題はCKEditorからの出力がHTMLコードであり、そのままPDFで公開されていることです。CKEditor に表示されるようにその pdf ドキュメントを公開したいのですが、それらの HTML タグを pdf に入れたくありません。これらのhtmlタグを削除してそのhtmlコードをプレーンテキストにレンダリングまたは変換するJavaのライブラリはありますが、その効果は保持されます。つまり、HTMLコードにThis is Boldがある場合、pdfはThis is Boldとして保存する必要があります<b></b>

java html parsing html-parsing jericho-html-parser

2013-03-21T14:11:20.970

0 投票する

1 に答える

266 参照

java - Jericho を使用して 2 つの特定のテキスト間のデータを抽出する

Jericho を使用して Html を解析しています。2 つの特定のテキストの間でデータを抽出する必要がある html ページがあります。

アイテム 7.とアイテム 8.の間のデータを jercio を使用して抽出するにはどうすればよいですか。

前もって感謝します

java html-parsing jericho-html-parser

2013-04-23T09:15:35.487

0 投票する

2 に答える

489 参照

java - jericho-html - テキスト抽出と不正確なテキスト長

今日、単純なhtmlからテキストを抽出するために、libをjericho-html-3.2として使用しようとしました...そして、次のような奇妙なテキスト偽の長さの問題に直面しました:

私がこれとしてhtmlを持っている場合

...私のRichTextArea は、実際には正しい長さである42getText().length()を返しますが、このhtmlからテキストを抽出しようとすると、

...text.length()リターン44

長さ42のテキストが長さ44のテキストに変わる理由と、それを修正する方法がわかりませんか?

ありがとう

java gwt html-parsing jericho-html-parser

2013-08-03T01:32:25.797

0 投票する

1 に答える

166 参照

html - HTMLコードで要素にアクセスする方法

1-このコードのすべての「アクセスしたい」要素を取得するために作成したコードは、「一部のデータ」のような他の要素はなく、divクラス bestMFdtl2の要素のみが必要です。

2-そして、これを行う方法の選択に従って、このコードに特定の要素が必要な場合は、htmlジェリコパーサーを使用しています。助けてください。コードの読み取りに問題があります。申し訳ありませんが、あなたはプログラマーです。これ。

3-タグからhrefリンクを取得する方法。

html dom data-structures html-parsing jericho-html-parser

2013-12-20T10:38:59.520

問題タブ [jericho-html-parser]

Reference