まず、私が使用している IDE は、.net フレームワークを使用したビジュアル C# です。
さて、抽出して日付順に並べ替える必要がある情報を含む約 20,000 の HTML ドキュメントがあります。
ファイルの日付は、この html タグ内に保存されます
<td valign="top" class="createdate">
Tuesday, 03 April 2012 20:39
</td>
注: すべての日付は、各 html ファイル内でその形式になっています
日付を抽出してから、各 HTML ドキュメントを自動的に読み取り、フレーズまたは単語の出現を測定したいと考えています。
誰かにプログラム全体を作成するように依頼しているわけではありませんが、これらの 20000 個の html ファイルを並べ替えて、単語またはフレーズの日付と出現回数を抽出し、その情報をワード形式かエクセル形式でお願いします。
ああ、私は論文の研究のためにデータを使用しています。私はよく文字列に対して文字列操作を行う方法と、単語の出現を見つけるなどのすべての文字列メソッドを知っています.
私が抱えている問題は、html データまたはコンテンツだけを取得して、それらを使用可能な形式に並べ替える方法です。ありがとうございました