parsing - Web サイト解析のための高度な Excel / Visual Basic

Question

私は 500 のウィキペディア / ウィキメディアウィキ、トークページ、履歴ページへのリンクを Excel ドキュメントに持っています。これを解析して、トークページで「広告」または「宣伝」に言及しているウィキの数、期間などを判断したいと考えています。 Wiki の平均、編集頻度など。

完全な HTML を取得する Visual Basics ユーザー定義関数を作成する方法を理解しました。必要な情報を引き出すことができるように、2 つのタグまたは識別子の間のテキスト (画面に表示されるテキスト) を取得するプラグインまたはその他の方法はありますか?

私は、プロの開発者と比較して、コーディングの経験が非常に限られているビジネスプロフェッショナルです。しかし、正しい方向といくつかの優れたチュートリアルを教えていただければ、私は学ぶことができます. また、誰かが助けてくれるなら、誰かに少しお金を払うことにも興味があります.

score 0 · Accepted Answer

XML パーサーと正規表現を使用して、HTML ドキュメント内のテキストを検索できます。

ブラウザで表示されるテキストを取得するには、すべてのタグを削除する関数を記述します。ただし、CSS と Javascript は画面に表示される内容を変更する可能性があるため、常に正確であるとは限りません。

1 に答える 1