1

一連のフレーズを分析しようとしていますが、「自然言語処理」がどのように役立つのか、誰かが彼の知識を私と共有できるのか、正確にはわかりません。

目的は、通りとローカリゼーションを抽出することです。多くの場合、この種の情報は構造化された方法で読者に提示されず、それを解析する方法を見つけるのは困難です。私には2つの主な目的があります。

まず、通り自体の抽出。私の知る限り、NLPライブラリは、フレーズをトークン化し、名詞を取得する分析を実行するのに役立ちます(たとえば)。しかし、通りはどこから始まりどこで終わるのでしょうか。その分析を街路データベースと比較する必要があると思いますが、どちらが最適な方法かわかりません。

また、自動車事故などの重大度を差し引いてみたいと思います。唯一の方法は、フレーズ内の現在の単語によってヒューリスティックを確立することだと思います(たとえば、死亡した単語が表示された場合+ 100)。私は正しいですか?

いつもありがとう!:)

4

1 に答える 1

3

やりたいことの最初の部分(「最初に通り自体を抽出します。[...]しかし、通りはどこから始まり、どこで終わるのですか?」)は、NLPのサブフィールドであるNamedEntityRecognitionです。これを行うことができる利用可能な多くのライブラリがあります。私はPython用のNLTKが好きです。選択に応じて、ストリートネームデータベースは認識機能のトレーニングに役立つと思いますが、デフォルトのコーパスを使用すると妥当な結果が得られる場合があります。そのためのNLPライブラリのドキュメントをお読みください。

事故の重大度を認識する2番目の部分は、最初は独立した問題として扱うことができます。生の単語または品詞タグを機能として使用し、その上で分類器(SVM、HMM、KNN、選択)をトレーニングできます。そのためには、かなり大きく、正しくラベル付けされたトレーニングセットが必要になります。あなたの説明から私はあなたがそれを持っているかどうかわかりませんか?

「フレーズの現在の単語でヒューリスティックを確立することが唯一の方法だと思います」は非常に曖昧であり、多くのことを意味する可能性があります。次の文に基づくと、事前定義されたキーワードのリストをスキャンすることが唯一の方法だと思うように聞こえます。その場合、いいえ、上記の段落を参照してください。

両方の部品が機能するようになったら、それらを組み合わせて、事故の数と道路ごとの重大度を数えることができます。ジオコーディングライブラリを使用すると、近隣や都市に一般化することもできます。もう1つの課題は、同義語("SmithStr"と"JohnSmith Street")および同音異義語(ロンドンの"SmithStreet"とリーズの"SmithStreet")の検出です。

于 2012-09-17T16:27:25.517 に答える