-1

次のテキストファイルがあります。

VERDICT: 
MR. FOREMAN:  Guilty.        
THE COURT:  Accused and, you have been found guilty on the charges as you have heard the Foreman for the jury say.  You are remanded.  I have requested a probation report and you are remanded until sentencing, until the Court receives the probation report. 
THE COURT:  Mr. Foreman and members of the jury, on behalf of the administration of justice   
THE CLERK:  Joh Doe the jury have found you guilty.  Have you anything to say before Her Ladyship, the Judge, proceeds to sentence you?                      
SENTENCE:
THE COURT:  John Doe.

評決、職長、裁判所、書記官、文などのキーワードをタグにしてデータベースに入力したいと考えています。これらの単語を抽出してタグを作成し、xml ドキュメントを形成してデータベースに配置する方法を教えてください。正規表現とデータ抽出を使用して検索してきましたが、まだ何も見つかりませんでした。

4

1 に答える 1

0

予想されるタグのリストはありますか?

  • はいの場合、どの部分が明確ではありませんか?
    • 関連するすべての文字列を XML から抽出するだけです (任意のパーサーを使用して、言語について言及していないため、例を挙げることはできません)。
    • 許可されたタグを含む正規表現を適用し、一致する場合はタグを追加します。
    • PS: タグやデータが多すぎて処理できない場合、各入力文字列に 1 つの regEx/タグを適用してもパフォーマンスが低下する可能性があります。
  • いいえの場合、いくつかの単語がタグであると想定して追加することが期待されていると思います。私はその考えが好きではありませんが (通常、ユーザーが自分の入力をマークしたいタグを考えて私に与えることを期待します) 私が考えることができる 1 つの方法は、タグとして使用したくない単語のリストを作成することです。 (例: "and"、"or"、"I"、"we"、...)、正規表現を使用してこれらの単語をすべて削除し、残りの単語を取得します
于 2011-09-15T23:11:47.217 に答える