問題タブ [html-tableextract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - HTML::TableExtract - ヘッダーの式を渡す
HTML ファイルを読み取るために別のスクリプトを介して呼び出されるサブルーチンがあります。以下はコードです。
上記のスクリプトを実行すると、ヘッダーが変数として渡されたときに HTML テーブル データが表示されません。
ただし、式を以下のようにハードコードされた値に置き換える$_[1]
と、指定されたヘッダーの下にあるすべての列の値が返されます
read_html($file, $headers)
where$file
はファイル名であり$headers
、コンマ区切りのヘッダー値を保持するようにサブルーチンを呼び出しています。
どんな助けでも大歓迎です。
perl - ヘッダー フィールドが重複している場合に Perl の TableExtract 行メソッドを使用する方法
TableExtract を使用して、一部のヘッダーの名前が同じでデータが異なるテーブルを解析しようとしています。rows メソッドは、両方のヘッダー セットの最初のヘッダーの値を返しています。
次のようにデータを印刷します。
結果は次のとおりです。
それはこうあるべきだった:
最初の「Schedule Actual Gate」データ (出発を表す) は、2 番目の「Schedule Actual Gate」列 (到着を表す) に複製されます。
Dumper($table) でテーブル全体をダンプすると、正しいデータが表示されます
ヘッダー フィールドが重複しているテーブルを適切に解析するように行メソッドを取得するにはどうすればよいですか?
perl - Perl で HTML::TableExtract を使用して HTML ファイルからテーブルを抽出しようとしましたが、失敗しました
次のようなサイトの表から、各 G タンパク質共役受容体の情報を抽出しようとしています。
http://www.iuphar-db.org/DATABASE/ObjectDisplayForward?objectId=1&familyId=1
より具体的には、列 (Ligand、Sp.、Action、Affinity、Units) から情報を取得したいと考えています。現在、抽出から空のファイルを出力しているため、指定したテーブルをモジュールが認識していないようです。これまでに書いたコードは、各 G タンパク質共役受容体の情報に対応する各 HTML ファイルを通過するように設計されています。
私は、各 G タンパク質共役受容体のそれぞれの HTML ファイルをすべて取得し、それをこのプログラムに渡している以前のプログラム (ありがたいことに動作しました) を作成しました。正しいヘッダー、深さ、またはカウントを使用したかどうかはわかりません。
この投稿が馬鹿げているように聞こえる場合は申し訳ありませんが、私はバイオインフォマティクスとプログラミング全般に不慣れです。助けてくれてありがとう!
html - Perl で HTML::TableExtract と HTML::Extor を使用して HTML テーブルからリンクを取得する
私の目標は、次のサイトの「アゴニスト」、「アンタゴニスト」、および「アロステリック レギュレーター」というタイトルの表からリンクを抽出することです。
http://www.iuphar-db.org/DATABASE/ObjectDisplayForward?objectId=1&familyId=1
HTML::TableExtract を使用してテーブルを抽出しましたが、問題のリンクを取得するために HTML::LinkExtor を取得できませんでした。これが私がこれまでに持っているコードです:
このサイトの別のスレッド ( HTML テーブルからの Perl 解析リンク ) のサンプル コードを使用してみましたが、役に立ちませんでした。解析の問題なのかテーブル認識の問題なのかわかりません。提供されたヘルプは大歓迎です。ありがとう!
perl - HTML テーブルの行と列を Perl で出力する
これが私のtemp.html
以下のコードを使用して、上記の表の各要素を印刷しようとしています-
それは印刷します -
@{$table->rows->[$rowIndex]}->[$columnIndex]
代わりに使用する$table->rows->[$rowIndex][$columnIndex]
と、正しい出力が得られますが、警告が表示されます。警告を削除するには?
python - beautifulsoup4を使用してhtmlテーブルから値を抽出する(2行目以降、1列目と6列目)
私はPythonが初めてで、HTMLテーブルから特定のセルから値を抽出するためのガイダンスが必要です.
私が取り組んでいる URL はここにあります。
Month 列と Settlement 列のみで最初の 5 つの値を取得し、その後、次のように表示したいと考えています。
私が直面している問題は次のとおりです。
- 表の 3 番目の「TR」からループを開始するにはどうすればよいですか
- td[0] と td[6] の値のみを取得する方法。
- 5 行の値のみを取得するようにループを制限する方法
これは私が取り組んでいるコードです:
あらゆる形のガイダンスに感謝します。
html - Perl で HTML を解析するときにコンテンツを取得できません
私はこれを解決しました: WWW::Mechanize でロードしていたページは、AJAX を使用して内部のすべてのコンテンツをロードする<tbody>
ため、$html 変数を作成したときにロードされません。次に、この動的コンテンツを取得する方法を確認する必要があります...
Web ページのテーブルのコンテンツを解析しようとしています。にはと<table>
が含まれます。テーブルの一部からコンテンツを取得しようとすると、そこに何もないことがわかります。内にあるコンテンツのみを取得します。<thead>
<tbody>
<tbody>
<thead>
次のようにいくつかの異なる方法を試しましたが、<tbody>
.
HTML::TreeBuilder の使用
HTML::TableExtract の使用
テーブルのを実行しようとすると、print Dumper($table);
を見つけて、<table>
内のテーブル コンテンツ<thead>
または<tbody>
からのすべてのコンテンツを含むその親への参照のみを表示できることを示しています<thead>
。
のコンテンツについてはあまり気にしません。<thead>
のテーブル コンテンツが必要なだけです<tbody>
。
何が間違っているのか、ここからどこへ行けばよいのかわかりません。
html - perl HTML::TableExtract 範囲外エラー
HTML テーブル内からデータを復元するのに苦労しています。これが私が持っているものです。
これをエラーメッセージとして取得します。
テーブルを調べて値を取得するより良い方法はありますか。探すヘッダーがなく、 HTML::Queryを見ましたが、それが見つからなかったか、PPM とHTML::Elementを介して必要なBadger::Baseがテーブルの構築に使用されているように見えます。スクリプトの前半でWWW::Mechanizeも使用しています。
上記のコードに関するヘルプをいただければ幸いです。