問題タブ [nlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
.net - .NETの自然言語の日付/時刻パーサー?
Chronic for Ruby(「明日」や「次の木曜日の午後3時」などを処理する)に似た.NET日付/時刻パーサーを知っている人はいますか?
注:私はRuby(Chronicについて知っている方法)を作成しますが、このプロジェクトでは.NETを使用する必要があります。
language-agnostic - 言い換えに使用するのに適した自然言語ライブラリは何ですか?
コンテンツを要約または言い換えるための既存のライブラリを探しています (ブログ投稿を目指しています) - 既存の自然言語処理ライブラリの経験はありますか?
私はさまざまな言語にオープンなので、能力と正確さにもっと興味があります。
windows-vista - 複数の言語での Vista 音声認識
私の第一言語はスペイン語ですが、Windows を含むすべてのソフトウェアを英語で使用しています。ただし、スペイン語で音声認識を使用したいと思います。
vista の音声認識を主要な OS 言語以外の言語で使用する方法があるかどうか知っていますか?
nlp - 「もしかして」をどのように実装しますか?
Web サイトに既に検索システムがあるとします。<spell_checked_word>
Google が一部の検索クエリで行うように、「もしかして:」をどのように実装できますか?
algorithm - 2 つのフレーズの意味的類似性を伝えるアルゴリズムはありますか?
入力: フレーズ 1、フレーズ 2
出力: 意味的類似度値 (0 と 1 の間)、またはこれら 2 つのフレーズが同じことについて話している確率
algorithm - テキストコンテンツに基づいてどのように分類しますか?
コンテンツに基づいてテキストのカテゴリを自動的に見つけるにはどうすればよいですか?
algorithm - 単語として書かれた数字から値を読み取る方法は?
ご存知のように、数字は数字で書くことも、名前で呼ぶこともできます。123を123に変換する例はたくさんありますが、逆に変換する方法の良い例は見つかりませんでした。
注意点のいくつか:
- 枢機卿/名目または序数:「1つ」および「最初」
- 一般的なスペルミス:「40」/「40」
- 数百/千:2100->「二十百」そして「二千百」
- 区切り文字:「1125」だけでなく、「1125」または「1125」など
- 口語表現:「30代」
- 分数:「3分の1」、「5分の2」
- 一般名:「ダース」、「ハーフ」
そして、おそらくまだリストされていない可能性のあるより多くの警告があります。アルゴリズムが非常に堅牢である必要があり、スペルミスさえ理解している必要があるとします。
これらすべての書き方を学ぶために、どの分野/論文/研究/アルゴリズムを読む必要がありますか?情報はどこにありますか?
PS:私の最後のパーサーは、実際には英語、ロシア語、ヘブライ語の3つの異なる言語を理解する必要があります。そして、おそらく後の段階で、より多くの言語が追加されるでしょう。ヘブライ語には男性/女性の番号もあります。たとえば、「1人の男性」と「1人の女性」には異なる「1つ」があります—「ehad」と「ahat」。ロシア語にも独自の複雑さがいくつかあります。
グーグルはこれで素晴らしい仕事をしています。例えば:
(逆も可能ですhttp://www.google.com/search?q=999999999999+in+english)
algorithm - 自然言語処理のための単語頻度アルゴリズム
情報検索の学位を取得していないので、特定のテキスト本文で単語が出現する頻度をカウントするアルゴリズムが存在するかどうかを知りたいです。目標は、一連のテキスト コメントに対して人々が言っていることの「一般的な感触」をつかむことです。Wordleの行に沿って。
私が欲しいもの:
- 冠詞、代名詞など ('a'、'an'、'the'、'him'、'them' など) を無視する
- 固有名詞を保存する
- ソフトタイプを除き、ハイフネーションを無視する
星に手を伸ばすと、これらは桃色になります。
- ステミングと複数形の処理 (例: like、like、like、likeing は同じ結果に一致します)
- 形容詞(副詞など)とその主語のグループ化(「素晴らしい」、「サービス」ではなく「素晴らしいサービス」)
Wordnet を使用していくつかの基本的なことを試みましたが、やみくもに調整しているだけで、特定のデータで機能することを願っています。より一般的なものが素晴らしいでしょう。
string - ランダムな文字列が英語のように聞こえるかどうかを判断するにはどうすればよいですか?
入力単語のリストに基づいて文字列を生成するアルゴリズムがあります。英単語のように聞こえる文字列だけを分離するにはどうすればよいですか? すなわち。LORDを維持しながらRDLOを破棄します。
編集:明確にするために、それらは辞書内の実際の単語である必要はありません。英語のように聞こえる必要があるだけです。たとえば、KEALは受け入れられます。
nlp - NLP: 質的に「肯定的」な文章と「否定的」な文章
業界固有の文章 (映画のレビューなど) を「ポジティブ」と「ネガティブ」で分析するための最良のアプローチを決定するために、あなたの助けが必要です。以前に OpenNLP などのライブラリを見たことがありますが、レベルが低すぎます。基本的な文の構成を教えてくれるだけです。私が必要としているのは、より高レベルの構造です:
ありがとう!