0

背景:配列アラインメント に関するウィキペディアのページでは、DNA 配列アラインメント アルゴリズムは自然言語処理にも使用できると述べています。

質問: Named Entity Recognizer と DNA シーケンス ライブラリはどちらも近似文字列マッチングを行うため、DNA シーケンス ライブラリ ( Bowtieなど) を使用して NER を構築することは実用的ですか?

既存の NER オープン ソースを使用せず、DNA シーケンス ライブラリを使用して NER を構築する理由の 1 つは、私の NER で「スペルミスの修正」を自動的に取得できるようにするためです。

上記の私の仮定が理にかなっている場合 - DNA 配列ではなく有名人の名前のデータベースを入力できるオンライン DNA 配列決定ツールがあり、それが一致することを期待して、DNA 配列決定ツールでスペルミスの「Michale Jacksun」を検索しようとしますか?入力データベースからの「Michael Jackson」

4

1 に答える 1

0

DNA シーケンシングは Edit Distance アルゴリズムも利用しますが、これは NER 中にスペルミスを検出するために使用するものと同じアルゴリズムです。しかし、DNA シーケンシングのオープン ソースは通常、DNA 配列を表すために使用される少数の文字のみを操作するようにプログラムされています。通常の AZ AZ 0 ~ 9 の範囲の ASCII 文字では動作しません。引用: https://groups.google.com/forum/#!category-topic/nvbio-users/how-do-i--/ITjD6KPlEsc

したがって、Vihari もアドバイスしたように、Edit Distance アルゴを完全に使用するのが最善です。しかし、私は、NLP 愛好家が、今後このような DNA シーケンシングのオープン ソースを探索し、それらを進化させて、そのような DNA シーケンシングのオープン ソースの「ビッグ データ容量」を活用して、それを NLP コミュニティにもたらすことを本当に望んでいます。

于 2015-12-23T07:17:02.663 に答える