0

まず、私が使用している IDE は、.net フレームワークを使用したビジュアル C# です。

さて、抽出して日付順に並べ替える必要がある情報を含む約 20,000 の HTML ドキュメントがあります。

ファイルの日付は、この html タグ内に保存されます

<td valign="top" class="createdate">
        Tuesday, 03 April 2012 20:39    
</td>

注: すべての日付は、各 html ファイル内でその形式になっています

日付を抽出してから、各 HTML ドキュメントを自動的に読み取り、フレーズまたは単語の出現を測定したいと考えています。

誰かにプログラム全体を作成するように依頼しているわけではありませんが、これらの 20000 個の html ファイルを並べ替えて、単語またはフレーズの日付と出現回数を抽出し、その情報をワード形式かエクセル形式でお願いします。

ああ、私は論文の研究のためにデータを使用しています。私はよく文字列に対して文字列操作を行う方法と、単語の出現を見つけるなどのすべての文字列メソッドを知っています.

私が抱えている問題は、html データまたはコンテンツだけを取得して、それらを使用可能な形式に並べ替える方法です。ありがとうございました

4

1 に答える 1

1

すべての HTML ドキュメントがその正確な形式を持っていると確信していますか? この場合、日付を含む文字列は、単純な文字列操作または RegEx を介して抽出できます (ちなみに、通常、正規表現はHTML の解析には適していませんが、このユース ケースでは、単純なままにしておくと、ここに行きます)。より重い解析を行う必要がある場合は、HtmlAgilityPackを検討してください。

次にDateTime.TryParse、文字列からDateTimeオブジェクトに変換された日付を取得するために使用します。

于 2012-09-15T12:59:50.747 に答える