0

私は 500 のウィキペディア / ウィキメディア ウィキ、トーク ページ、履歴ページへのリンクを Excel ドキュメントに持っています。これを解析して、トーク ページで「広告」または「宣伝」に言及しているウィキの数、期間などを判断したいと考えています。 Wiki の平均、編集頻度など。

完全な HTML を取得する Visual Basics ユーザー定義関数を作成する方法を理解しました。必要な情報を引き出すことができるように、2 つのタグまたは識別子の間のテキスト (画面に表示されるテキスト) を取得するプラグインまたはその他の方法はありますか?

私は、プロの開発者と比較して、コーディングの経験が非常に限られているビジネス プロフェッショナルです。しかし、正しい方向といくつかの優れたチュートリアルを教えていただければ、私は学ぶことができます. また、誰かが助けてくれるなら、誰かに少しお金を払うことにも興味があります.

4

1 に答える 1

0

XML パーサーと正規表現を使用して、HTML ドキュメント内のテキストを検索できます。

ブラウザで表示されるテキストを取得するには、すべてのタグを削除する関数を記述します。ただし、CSS と Javascript は画面に表示される内容を変更する可能性があるため、常に正確であるとは限りません。

于 2011-12-05T15:12:08.717 に答える