0 投票する

10 に答える

1038 参照

javascript - ユーザーが英語のテキストのみを送信するようにする方法

nlp モジュールは現在英語のテキストのみを処理するため、自然言語処理を含むプロジェクトを構築しているため、ユーザーが送信したコンテンツ (長くなく、数語のみ) が英語であることを確認する必要があります。これを達成するための確立された方法はありますか？Python または Javascript の方法が推奨されます。

btw0

2008-10-13T07:32:12.953

0 投票する

51 に答える

16440 参照

nlp - 人間が読めるプログラミング言語はありますか?

つまり、人間のスタイルのコーディングを備えたコード化された言語はありますか? 例えば：

あまり役に立たないことはわかっていますが、そのような文法を作成するのは興味深いことです。

nlp grammar

Scuffia

2008-10-14T20:51:13.777

0 投票する

5 に答える

15576 参照

parsing - NLP を使用してレシピの材料を解析するにはどうすればよいですか?

1 カップの小麦粉、2 個のレモンの皮、1 カップの詰められたブラウンシュガーなど、レシピの材料を量、測定、アイテム、説明に解析する必要があります。これを行う最良の方法は何でしょうか? 私はプロジェクトに python を使用することに興味があるので、nltk を使用することが最善の策であると想定していますが、他の言語にも対応しています。

parsing nlp

Greg

2008-10-15T03:57:19.610

0 投票する

10 に答える

8362 参照

nlp - 自然言語処理に興味がある人にとって、良い出発点は何ですか?

質問

そこで、私は最近、ユーザーによって送信および生成されたテキストから「意味」を導き出すことに対処しなければならない、いくつかの新しい可能なプロジェクトを考え出しました。

自然言語処理は、この種の問題を扱う分野であり、いくつかの初期調査の後、私はOpenNLP Hubと、 attempt プロジェクトのような大学のコラボレーションを見つけました。そしてstackoverflowにはこれがあります。

研究論文や紹介テキストから API に至るまで、誰かが私をいくつかの優れたリソースにリンクしてくれたら、6 歳の子供がクリスマスプレゼントを開けるよりも幸せです!

アップデート

あなたの推奨事項の 1 つを通じて、私はopencyc ( 「世界最大かつ最も完全な一般知識ベースおよび常識推論エンジン」 ) を見つけました。さらに驚くべきことに、 UMBEL と呼ばれるopencycの蒸留バージョンであるプロジェクトがあります。これは、rdf/owl/skos n3 構文のセマンティックデータを備えています。

また、「文法記述からレコグナイザー、インタープリター、コンパイラー、およびトランスレーターを構築する」ためのパーサージェネレーターであるantlrにも出くわしました。

そして、ここに私の質問があります。それは、大量の無料でオープンなデータをリストしています。

スタックオーバーフローコミュニティに感謝します。

nlp dcg

kitsune

2008-10-17T13:52:51.623

0 投票する

7 に答える

10612 参照

algorithm - テキスト分析用のアルゴリズムまたはライブラリ。具体的には、主要な単語、テキスト全体のフレーズ、およびテキストのコレクションです。

私は、テキストのページとテキストのページのコレクションを分析して支配的な単語を判断する必要があるプロジェクトに取り組んでいます。私のために面倒な作業を処理するライブラリ (C# または Java を優先) があるかどうかを知りたいです。そうでない場合、以下の私の目標を達成するアルゴリズムまたは倍数はありますか。

私がやりたいことは、Web で見つけた URL や RSS フィードから作成されたワードクラウドに似ていますが、視覚化は必要ありません。それらは、大統領候補のスピーチを分析して、テーマや最も使用されている言葉が何であるかを確認するために常に使用されます.

複雑なのは、何千もの短いドキュメントに対してこれを行う必要があり、次にこれらのドキュメントのコレクションまたはカテゴリに対して行う必要があることです。

私の最初の計画は、ドキュメントを解析してから、一般的な単語 (of、the、he、she など) をフィルター処理することでした。次に、残りの単語がテキスト (およびコレクション/カテゴリ全体) に表示される回数を数えます。

問題は、将来、ステミング、複数形などを処理したいということです。また、重要なフレーズを識別する方法があるかどうかも確認したいと思います。(単語の数ではなく、フレーズの数は 2 ～ 3 語をまとめたものです)

役立つ戦略、ライブラリ、またはアルゴリズムに関するガイダンスをいただければ幸いです。

algorithm text nlp analysis lexical-analysis

Michael Julson

2008-10-20T22:38:22.947

0 投票する

2 に答える

3096 参照

algorithm - tf-idf とこれまでに見られなかった用語

TF-IDF (用語頻度 - 逆文書頻度)は、情報検索の定番です。ただし、これは適切なモデルではなく、新しい用語がコーパスに導入されると壊れてしまうようです。クエリや新しいドキュメントに新しい用語が含まれている場合、特にそれらが頻繁に使用される場合、人々はそれをどのように処理しますか? 従来のコサインマッチングでは、それらは総一致に影響を与えません。

algorithm statistics nlp tf-idf

Gregg Lind

2008-10-21T18:53:35.867

0 投票する

3 に答える

1030 参照

nlp - 自然言語/テキストマイニングと Reddit/ソーシャルニュースサイト

reddit、digg、news.google.com などのサイトに関連する自然言語データは豊富にあると思います。

テキストマイニングについて少し調べてみましたが、これらのツールを使用して reddit などを解析する方法がわかりません。

どのようなアプリケーションを思い付くことができますか?

nlp information-retrieval text-mining

2008-10-23T00:32:49.597

0 投票する

3 に答える

589 参照

algorithm - Google の In Quotes はどのように機能しますか?

Google のIn Quotesは本当に気の利いたアプリケーションだと思います。CS 担当者として、その仕組みを理解する必要があります。ニュース記事が、特定の人物に起因する引用のリストにどのように変わると思いますか? 確かにいくつかの間違いはありますが、彼らのアルゴリズムは単純なヒューリスティックや複数の正規表現よりも優れているようです。たとえば、誰かの名前が最後の段落でしか言及されていない場合でも、引用は誰かに起因する可能性があります。

何か案は？この件に関する既知の論文はありますか？

algorithm nlp

rouli

2008-10-25T17:25:38.420

0 投票する

6 に答える

10113 参照

c# - 正規表現を使用して文字列を文に分割する

「1.2.3.4.5.6.7.8.9.10.11」のような文字列を 4 つの文のグループに一致させる必要があります。4 ピリオドごとに文字列をグループに分割するには、正規表現が必要です。何かのようなもの：

ピリオド自体だけでなく、ピリオドの前のテキストを置き換えるため、機能しません。ピリオドだけを数えて、ピリオドと改行文字に置き換えるにはどうすればよいですか?

c#regex nlp

Tai Squared

2008-10-28T21:22:33.853

0 投票する

2 に答える

2680 参照

shell - バイグラムを見つけるためのシェルスクリプト

バイグラムを見つけるためのシェルスクリプトを作成していますが、これはある程度機能します。

唯一の問題は、前の文の末尾と先頭の単語がペアになっていることです。

たとえば、'hello world.' という 2 つの文の場合です。と「フーバー」。私は「世界」と一線を画します。ふー」。これらをgrepなどで除外することは可能でしょうか?

grep [.] で終止符を含むすべてのバイグラムを見つけることができることはわかっていますが、それは正当なバイグラムも見つけます。

shell grep nlp

Simon Rowsby

2008-10-28T22:16:37.147

問題タブ [nlp]

質問

アップデート

Reference