問題タブ [html-tableextract]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

45 問題

0 投票する

1 に答える

786 参照

html - HTMLテーブルをRに抽出します
が、複数ページのHTMLで、3行/行を持つ特定の列の特定の要素（）をスキップします

リンクのテーブルをRのデータフレームにロードしたい.

次のスクリプトは、テーブルを正常に抽出します。

しかし、ここに問題があります：

3 番目の列、つまりFormula Average Mass Monoisotopic Massには 3 つの行/値/行があり、それらがすべて混ざり合っているため、1 つの連続した文字列として表示されます。この列の最初の行/行のみを抽出したい、または何らかの方法で 3 つの値を互いに分離したい。

レンダリングされた HTML ページで、3 番目の列の最初のセルがどのように見えるかを次に示します。

3列目のスクリーンショット

を使用しても同じことが起こりますXML::readHTMLTable。

Chrome でをクリックすると、列Inspect Elementのセルに次のような構造が表示されます。Formula Average Mass Monoisotopic Mass

画像埋め込んでください。私はそれを行うのに十分な評判を持っていません

ただし、この列の 2 行目と 3 行目が空の場合もあります。例：

image -- 要素の検査のスクリーンショット

では、指定されたリンクからテーブルを抽出し、3 番目の列の構造を読みやすく、混同しないようにするにはどうすればよいでしょうか? さらに、個別のページごとにリンクをループせずに、すべてのページのテーブルを抽出することは可能ですか?

2018-06-18T08:49:53.430

0 投票する

0 に答える

92 参照

html - Jsoupを使用してHTMLドキュメントの特定のキーワード(複数回出現)の直後に、特定のhtmlテーブルセグメントを見つける方法

HTML テーブルの解析に jsoup を使用しています。以下は、正しいセグメントを特定する必要があるシナリオです。正しいセグメントを識別するプロセスは次のとおりです。キーワードが見つかった場合
-> ABC<tr> 、 HTML タグを取得するまで反復する必要があります (テーブル識別用)。次に、4 つのキーワードForVote、AgainstVote、Absent、NoVotesがすべて含まれているかどうかを確認します。最初の行（そうでない場合は、キーワードの次の出現に移動します-> ABC）、同じプロセスに従います。テーブル内で一致する 4 つの投票キーワードを取得したら、テーブル内の数字を抽出できます。

私が立ち往生している問題は次のとおりです。キーワードABCが 1 つだけ出現する場合、解析できます。ただし、 ABCが複数回出現し、解析対象のセグメントが間違っている場合はできません。
解析する私のサンプル HTML コードは次のとおりです。

Java コード

私の論理は、ABC が見つかるまで反復することです。ABC を囲む要素を見つけて、class=tagid を追加します。(div.tagid) を選択します。次に、<tr>タグを見つけます。テーブルが期待される形式、つまりコードで isVertical=0 であるかどうかを調べます。次に、最初の行に 4 つのキーワードがすべて存在するかどうかを確認します。はいの場合、数値を解析します。「ABC」が複数回出現する場合は機能しません:-(

html lucene jsoup html-parsing html-tableextract

2019-02-25T13:19:37.927

0 投票する

2 に答える

74 参照

perl - 複数の HMTL ファイルのコンテンツを 1 つのファイルにマージする方法は?

次の構造を持つ 100 個を超える html ファイルがあります。

TABLE[2]ROW[1]COLUMN[2]そして、各ファイルの2 番目のテーブル ( ) から 1 番目の行の列 #2 内のコンテンツを単一の HTML にマージして、このような出力を取得したいと思います

私は perl を初めて使用するので、その方法を教えてほしいとお願いしています。前もって感謝します。

以下は、file1 のエッセイを開始しますが、正しい方法で行っているかどうかはわかりません。

perl html-tableextract

2020-03-25T08:13:07.783

1 2 3 4 5 6 7 8 9 10

問題タブ [html-tableextract]

html - HTMLテーブルをRに抽出しますが、複数ページのHTMLで、3行/行を持つ特定の列の特定の要素（ ）をスキップします

html - Jsoupを使用してHTMLドキュメントの特定のキーワード(複数回出現)の直後に、特定のhtmlテーブルセグメントを見つける方法

perl - 複数の HMTL ファイルのコンテンツを 1 つのファイルにマージする方法は?

Reference

html - HTMLテーブルをRに抽出します
が、複数ページのHTMLで、3行/行を持つ特定の列の特定の要素（）をスキップします