問題タブ [nlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
623 参照

algorithm - 与えられた終端数の文法から文を生成する

次のようなおもちゃの文法があるとします: (出力がより自然に見えるように更新されます)

例:「犬が赤い魔法使いを蹴る」、「鳥が斑点のある魚に出会う、または魔法使いが縞模様の犬と結婚する」

合計n 個のVs + As + Nsを含まなければならないという制約に従って、この文法からどのように文を作成できますか。整数を指定すると、センテンスにはその数の端末が含まれている必要があります。(もちろん、この文法では可能な最小のnは 3 です)。

0 投票する
4 に答える
3418 参照

c++ - テキストを文に解析しますか?

PDF ページのテキストを構文解析して文にしようとしていますが、予想よりもはるかに困難です。イニシャル、小数、引用符など、ピリオドを含むが必ずしも文を終了するわけではないなど、考慮すべき特殊なケースがたくさんあります。

ここにいる誰かが、C または C++ の NLP ライブラリに精通しており、この作業を手伝ったり、アドバイスを提供したりできるかどうか知りたいです。

助けてくれてありがとう。

0 投票する
1 に答える
601 参照

sql-server - ロケーションインデックスでのバイグラムの検索

一連のドキュメント内の単語の場所をインデックス化するテーブルがあります。セット内で最も一般的なバイグラムを特定したいと考えています。

MSSQL 2008でこれをどのように行いますか? テーブルの構造は次のとおりです。

ある種の複雑な結合を試みることを考えました...そして、私はただ頭を悩ませています.

これを行う簡単な方法はありますか?

質問に盛り込むために、月曜日にこれを編集したほうがいいと思います

サンプルデータ

0 投票する
11 に答える
22632 参照

ruby - Rubyでの自然言語処理

私はいくつかの文の分析(主にTwitterアプリの場合)を行い、いくつかの一般的な特性を推測しようとしています。この種のものに適したRubyの自然言語処理ライブラリはありますか?

Ruby用の優れた自然言語処理ライブラリはありますか。私は非常に一般的なものを好みますが、どんなリードも大歓迎です!

0 投票する
6 に答える
14462 参照

javascript - javascriptの日付/時刻の自然言語パーサーはありますか?

javascriptの日付/時刻の自然言語パーサーはありますか?

0 投票する
3 に答える
1194 参照

datetime - ColdFusionに日付/時刻の自然言語パーサーはありますか?

ColdFusionに日付/時刻の自然言語パーサーはありますか?

0 投票する
5 に答える
1849 参照

language-agnostic - 人間の名前の比較:このタスクにアプローチする方法

私は自然言語プログラミングの学生ではありませんが、それが些細なstrcmp(n1、n2)ではないことは知っています。

これが私がこれまでに学んだことです:

  • 個人名の比較は100%解決できません
  • ある程度の精度を達成する方法があります。
  • 答えはロケール固有になります、それはOKです。

私はつづりの選択肢を探していません!入力のスペルが正しいことを前提としています。

たとえば、以下のすべての名前は同じ人物を参照できます。

  • ベリー・ツァカラ
  • バーナード・ツァカラ
  • ベリー・J・ツァカラ
  • Tsakala、Berry

私がしようとしていること:

  1. 関係2の入力名を評価するアルゴリズムを構築(またはコピー)します
  2. インデックス作成方法を見つける(データベース内の名前、ハッシュテーブルなど)

注:私の仕事は、テキスト内の名前を見つけることではなく、2つの名前を比較することです。例えば

0 投票する
2 に答える
9936 参照

php - Nグラム:説明+2つのアプリケーション

n-gramを使用して(できればPHPで)いくつかのアプリケーションを実装したいと思います。


ほとんどの目的に適したn-gramのタイプはどれですか?単語レベルまたは文字レベルのn-gram?PHPでn-gram-tokenizerをどのように実装できますか?


まず、N-gramとは何かを知りたいです。これは正しいです?それは私がn-gramを理解する方法です:

文:「私はニューヨークに住んでいます。」

単語レベルのバイグラム(nの場合は2):「#I」、「I live」、「live in」、「in NY」、「NY#」

文字レベルのバイグラム(nの場合は2): "#I"、 "I#"、 "#l"、 "li"、 "iv"、 "ve"、 "e#"、 "#i"、 "in"、 " n# "、"#N "、" NY "、" Y# "

このn-gram-partsの配列がある場合、重複するものを削除し、各部分に頻度を与えるカウンターを追加します。

単語レベルのバイグラム:[1、1、1、1、1]

文字レベルのバイグラム:[2、1、1、...]

これは正しいです?


さらに、n-gramで何ができるかについてもっと知りたいと思います。

  • n-gramを使用してテキストの言語を識別するにはどうすればよいですか?
  • バイリンガルコーパスがなくても、n-gramを使って機械翻訳を行うことはできますか?
  • スパムフィルター(スパム、ハム)を作成するにはどうすればよいですか?n-gramをベイジアンフィルターと組み合わせますか?
  • トピックスポッティングを行うにはどうすればよいですか?例:バスケットボールや犬に関するテキストですか?私のアプローチ(「犬」と「バスケットボール」に関するウィキペディアの記事で次のことを行います):両方のドキュメントのn-gramベクトルを作成し、それらを正規化し、マンハッタン/ユークリッド距離を計算します。結果が1に近いほど、結果は高くなります。類似性

私のアプリケーションアプローチ、特に最後のアプローチについてどう思いますか?


あなたが私を助けてくれることを願っています。前もって感謝します!

0 投票する
9 に答える
9718 参照

c++ - 非常に基本的な英文法パーサー

私は非常に基本的なパーサーを書いています(ほとんどの場合、それらがどのように機能するかをよりよく理解するために)。ユーザーが選択したいくつかの単語を入力し、文型がOKかどうかを検出して結果を出力します。文法は次のとおりです。

文:名詞動詞

記事文

文接続詞文

接続詞:"and""または""but"

名詞:「鳥」「魚」「C++」

動詞:「ルール」「飛ぶ」「泳ぐ」

記事:「the」

文法の書き方は簡単でした。それは私にいくつかの問題を与えているコードを実装しています。そのための私の擬似コードは次のとおりです。

ですから、私の非常にずさんな疑似コードがあります。それを実装することについていくつか質問があります。

  1. 機能語(名詞、動詞など)の場合、それらが真であるかどうかをどのように確認すればよいですか?(ユーザーの入力に鳥、魚、ハエ、水泳などがあるかどうかを確認する場合など)

  2. 接続詞の呼び出しと出力をどのように処理する必要がありますか?

  3. main関数または呼び出し関数からの出力を処理する必要がありますか?

  4. 私の疑似コードが完全に間違っている場合、上記の質問はどれも重要ではありません。基本に何か問題はありますか?

追記として、私はプログラミングの第6章の演習に参加しています:C ++を使用した練習と原則なので、すでに学習した言語構文を使用したいので、高度なプログラミングのカテゴリに分類されるものはおそらくそうではありません。とても役に立ちました。(この演習では、トークンを使用しないように具体的に述べているので、トークンを数えます。)

前もって感謝します

最後の編集:本の公開グループで私は同じ質問をし、BjarneStroustrupはエクササイズソリューションをオンラインにしたとコメントしました。彼は基本的に入力を文関数に読み込み、ifステートメントを使用してtrueまたはfalseを返しました。しかし、彼は冠詞を使用しなかったので、私のものははるかに複雑でした。この演習から何かを学んだとしたら、多くのユーザー入力を処理する場合、トークン化が重要であると思います(これまでのところわかっていることから)。これが今のところ私のコードです。まだ非常にバグが多く、基本的に文がOKで、(名詞、接続詞、文)などを処理できない場合にのみ返されるため、後で戻る可能性がありますが、今は先に進みます。

keep_window_open(); }

0 投票する
3 に答える
2199 参照

algorithm - テキスト内の名前のスペルミスを認識するアルゴリズム

複数のテキストを索引付けするアプリケーションを開発する必要があり、これらのテキスト内の人々の名前を検索する必要があります。問題は、人物の正しい名前は「Gregory Jackson Junior」ですが、テキスト内では次のように書かれている可能性

ある
こと です

毎晩ベースでデータベースのインデックスを作成して検索を高速化します。このテーマに関する良い本や良い記事の推薦をお願いします.
ありがとう