html-parsing - Go lang を使用して Web ページからリンクを抽出する

Question

Google の Go プログラミング言語を学んでいます。HTML WebページからすべてのURLを抽出するベストプラクティスを知っている人はいますか?

Java の世界から来て、たとえばjsoup、htmlparserなどの仕事をするライブラリがあります。しかし、go lang については、利用可能な同様のライブラリがまだ作成されていないと思いますか?

score 25 · Accepted Answer

jQuery を知っているなら、GoQueryを気に入るはずです。

正直なところ、これは私が Go で見つけた中で最も簡単で最も強力な HTML ユーティリティであり、go.net リポジトリの html パッケージに基づいています。(生の HTML トークンなどを公開しないため、単なるパーサーよりも高レベルですが、実際に HTML ドキュメントで何かを実行したい場合は、このパッケージが役立ちます。)

score 21 · Accepted Answer

HTML解析用のGoの標準パッケージはまだ進行中の作業であり、現在のリリースの一部ではありません。あなたが試すかもしれないサードパーティのパッケージはgo-html-transformです。積極的に整備されています。

score 17 · Accepted Answer

HTML 解析用の Go パッケージは実際にはまだ開発中ですが、go.netリポジトリで入手できます。

そのソースは~~code.google.com/p/go.net/html~~ github.com/golang/net積極的に開発されています。

これは、最近のgo-nuts ディスカッションで言及されています。

Go 1.4 (2014 年 12 月) では、この回答で述べたように、パッケージは現在golang.org/x/net( godocを参照) であることに注意してください。

score 6 · Accepted Answer

調べてみると、Ruby の Nogokiri に似た Gokogiriというライブラリがあることがわかりました。プロジェクトも活発だと思います。

html-parsing - Go lang を使用して Web ページからリンクを抽出する

6 に答える 6

Related

Reference