google-sheets - NCBI Web サイトの特定のページで IMPORTXML が #N/A を返す - スクレイピングは保護されていますか?

Question

このページhttps://www.ncbi.nlm.nih.gov/gene/2597をスクレイピングして、「公式フルネーム」、「別名」、およびその他の情報をを使用して Google シートに取得しようとしていIMPORTXMLます。

「正式な氏名」（e.g. glyceraldehyde-3-phosphate dehydrogenase）については、次のようにします。

=IMPORTXML("https://www.ncbi.nlm.nih.gov/gene/55054", "//*[@id="summaryDl"]/dd[2]/text()")

私に #N/A を与える

だから私は、URLとクエリを入れたセルを使用して、可能な限りすべての方法でクエリを変更しようとして""い''ます:D.

IMPORTHTML使用できる(ページ内のテーブルに関する情報がある) かIMPORTRSS、必要な情報を取得できないことに気付きました。したがって、ウェブサイトはスクレイピングをブロックしていないと思います。

私はそれが JS または XML の問題だと思っていましたが、そうではないようです (私の意見では...何かを見逃したのかもしれません)。私IMPORTJSONは誰かのコードから使用しようとしましたが、何も取得できません (正直に言うと、複雑すぎて使用できない可能性があります)。

私は本当にここでブロックされているので、誰か助けてくれませんか?

1 に答える 1