algorithm - 招待文から時間、日付、場所を検出するアルゴリズム

Question

テキストを読み取るための自然言語処理アルゴリズムを研究しています。テキストが会議出席依頼を提案しようとしていると思われる場合は、その会議が自動的に設定されます。

たとえば、電子メールのテキストが次のようになっているとします。

明日の午後7時にダウンタウンのどこかで会いましょう」.

アルゴリズムは、イベントの時間、日付、および場所を検出できる必要があります。

この目的で使用できる既存の NLP アルゴリズムを知っている人はいますか? 私はいくつかの NLP リソース ( NLTKやR のいくつかのツールなど) を調査してきましたが、あまり成功していませんでした。

ありがとう

score 5 · Accepted Answer

これは情報抽出のアプリケーションであり、隠れマルコフモデル (HMM) や条件付きランダムフィールド (CRF) などのシーケンスセグメンテーションアルゴリズムを使用してより具体的に解決できます。

ソフトウェアの実装については、UMass-Amherst のMALLET ツールキットから始めることをお勧めします。これは、情報抽出用の CRF を実装する一般的なライブラリです。

文中の各トークンは、単語の特徴 (品詞、大文字化、辞書のメンバーシップなど) の関数として、関心のあるフィールド (または上記のいずれでもない場合は「x」) でラベル付けされるものとして扱います。。）... このようなもの：

token       label       features
-----------------------------------
Let         x           POS=NNP, capitalized
's          x           POS=POS
meet        x           POS=VBP
tomorrow    DATE        POS=NN, inDateDictionary
someplace   x           POS=NN
in          x           POS=IN
Downtown    LOCATION    POS=NN, capitalized
at          x           POS=IN
7pm         TIME        POS=CD, matchesTimeRegex
.           x           POS=.

ただし、最初に手動でラベル付けされたトレーニングデータを提供する必要があります。

score 2 · Accepted Answer

2

http://opennlp.apache.org Java ツールキットを参照してください。

于 2013-10-04T06:50:07.017 に答える

algorithm - 招待文から時間、日付、場所を検出するアルゴリズム

4 に答える 4

Related

Reference