問題タブ [html-tableextract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
html - HTMLテーブルをRに抽出します
が、複数ページのHTMLで、3行/行を持つ特定の列の特定の要素( )をスキップします
リンクのテーブルをRのデータフレームにロードしたい.
次のスクリプトは、テーブルを正常に抽出します。
しかし、ここに問題があります:
3 番目の列、つまりFormula Average Mass Monoisotopic Mass
には 3 つの行/値/行があり、それらがすべて混ざり合っているため、1 つの連続した文字列として表示されます。この列の最初の行/行のみを抽出したい、または何らかの方法で 3 つの値を互いに分離したい。
レンダリングされた HTML ページで、3 番目の列の最初のセルがどのように見えるかを次に示します。
を使用しても同じことが起こりますXML::readHTMLTable
。
Chrome でをクリックすると、列Inspect Element
のセルに次のような構造が表示されます。Formula Average Mass Monoisotopic Mass
画像埋め込んでください。私はそれを行うのに十分な評判を持っていません
ただし、この列の 2 行目と 3 行目が空の場合もあります。例:
では、指定されたリンクからテーブルを抽出し、3 番目の列の構造を読みやすく、混同しないようにするにはどうすればよいでしょうか? さらに、個別のページごとにリンクをループせずに、すべてのページのテーブルを抽出することは可能ですか?
html - Jsoupを使用してHTMLドキュメントの特定のキーワード(複数回出現)の直後に、特定のhtmlテーブルセグメントを見つける方法
HTML テーブルの解析に jsoup を使用しています。以下は、正しいセグメントを特定する必要があるシナリオです。正しいセグメントを識別するプロセスは次のとおりです。キーワードが見つかった場合
-> ABC<tr>
、 HTML タグを取得するまで反復する必要があります (テーブル識別用)。次に、4 つのキーワードForVote、AgainstVote、Absent、NoVotesがすべて含まれているかどうかを確認します。最初の行(そうでない場合は、キーワードの次の出現に移動します-> ABC)、同じプロセスに従います。テーブル内で一致する 4 つの投票キーワードを取得したら、テーブル内の数字を抽出できます。
私が立ち往生している問題は次のとおりです。キーワードABCが 1 つだけ出現する場合、解析できます。ただし、 ABCが複数回出現し、解析対象のセグメントが間違っている場合はできません。
解析する私のサンプル HTML コードは次のとおりです。
Java コード
私の論理は、ABC が見つかるまで反復することです。ABC を囲む要素を見つけて、class=tagid を追加します。(div.tagid) を選択します。次に、<tr>
タグを見つけます。テーブルが期待される形式、つまりコードで isVertical=0 であるかどうかを調べます。次に、最初の行に 4 つのキーワードがすべて存在するかどうかを確認します。はいの場合、数値を解析します。「ABC」が複数回出現する場合は機能しません:-(
perl - 複数の HMTL ファイルのコンテンツを 1 つのファイルにマージする方法は?
次の構造を持つ 100 個を超える html ファイルがあります。
TABLE[2]ROW[1]COLUMN[2]
そして、各ファイルの2 番目のテーブル ( ) から 1 番目の行の列 #2 内のコンテンツを単一の HTML にマージして、このような出力を取得したいと思います
私は perl を初めて使用するので、その方法を教えてほしいとお願いしています。前もって感謝します。
以下は、file1 のエッセイを開始しますが、正しい方法で行っているかどうかはわかりません。