“nlp”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

2800 参照

machine-learning - 自然言語処理における二値化

二値化とは、エンティティのカラフルな特徴を数値のベクトル (ほとんどの場合はバイナリベクトル) に変換して、分類アルゴリズムの良い例を作成することです。

「The cat ate the dog」という文を二値化する場合、すべての単語に ID (たとえば、cat-1、ate-2、the-3、dog-4 など) を割り当てることから始めて、単語を単純に次のように置き換えることができます。ベクトル <3,1,2,3,4> を与える ID です。

これらの ID が与えられると、各単語に 4 つの可能なスロットを与え、特定の単語に対応するスロットを 1 に設定して、ベクトル <0,0,1,0,1,0,0,0 を与えるバイナリベクトルを作成することもできます。 ,0,1,0,0,0,0,0,1>. 後者の方法は、私の知る限り、一般的にバッグ・オブ・ワード法と呼ばれています。

さて、私の質問ですが、一般的な自然言語処理の機能、特に (Nivres アルゴリズムを使用した)遷移ベースの依存関係解析の機能を説明する際に最適な2 値化方法は何ですか?

このコンテキストでは、文全体をエンコードするのではなく、解析の現在の状態 (たとえば、スタックの先頭の単語と入力キューの最初の単語など) をエンコードしたいと考えています。順序は関連性が高いため、bag-of-words-method は除外されます。

bestとは、不必要なメモリを使い果たすことなく、データを分類器にとって最もわかりやすいものにする方法を指しています。たとえば、実際にバイグラムが 2% しか存在しない場合、バイグラムが 20000 の一意の単語に対して 4 億の機能を使用することは望ましくありません。

答えは特定の分類子にも依存するため、最大エントロピーモデル (liblinear)、サポートベクターマシン (libsvm)、およびパーセプトロンに主に関心がありますが、他のモデルに適用される答えも歓迎します。

Sebastian

2009-02-23T20:31:55.623

0 投票する

4 に答える

8075 参照

algorithm - ステミング - コード例またはオープンソースプロジェクト?

ステミングは、タグ付けシステムに必要なものです。私はデリシャスを使用しており、タグの管理とプルーニングを行う時間がありません。ブログにはもう少し注意を払っていますが、完璧ではありません。私は組み込みシステム用のソフトウェアを書いていますが、ステミングが含まれていればもっと機能的 (ユーザーに役立つ) でしょう。

例:
Parse
パーサー
解析

私がそれらを入れるシステムが何であれ、すべて同じことを意味するはずです。

どこかに BSD ライセンスのステマーがあるのが理想ですが、そうでない場合、一般的なアルゴリズムとテクニックを学ぶにはどこを参照すればよいでしょうか?

BSD ステマー以外に、オープンソースライセンスのステマーは他にどのようなものがありますか?

-アダム

algorithm tags nlp stemming

Adam Davis

2009-02-27T15:00:06.700

0 投票する

1 に答える

1751 参照

ruby-on-rails - Ruby/Rails の自然言語日付パーサー

Ruby のDate.jsに似たものを知っている人はいますか? 「今日から2週間」のようなものから日付オブジェクトを返すことができるもの。Remember the Milk ウェブアプリは、この機能をシステムに組み込んでおり、非常に使いやすいです。

私は Date.js ライブラリ自体を使用しますが、クライアント側にあるため、制限があります。ユーザーが JavaScript を有効にしていない場合、機能は失われます。これは、理想的にはテキストメッセージ (SMS) 経由でシステムを使用する携帯電話ユーザーに影響を与えます。

すでに存在するソリューションを使用したいのですが、そうでない場合、このコードを Ruby に移植するのはどれほど難しいでしょうか? 自然言語の解釈についてはよくわかりませんが、時間がかかりそうです。

ありがとう。

ruby-on-rails ruby datetime nlp

vrish88

2009-03-03T06:55:50.153

0 投票する

8 に答える

7282 参照

nlp - NLP で固有名詞を認識するための戦略

自然言語処理(NLP)についてもっと学ぶことに興味があります。現在、辞書認識に基づかないテキスト内の固有名詞を認識する方法があるかどうか知りたいです。また、現在の辞書ベースの方法を説明するリソースを説明したり、リンクしたりできますか? NLP の権威ある専門家は誰ですか、またはこのテーマに関する決定的なリソースは何ですか?

nlp named-entity-recognition part-of-speech

VirtuosiMedia

2009-03-03T23:56:45.487

0 投票する

2 に答える

5397 参照

nlp - 特定の単語に関連する単語 (特に物理的なオブジェクト) を検索する

1 つの単語に関連する単語 (具体的には物理的なオブジェクト) を見つけようとしています。例えば：

テニス: テニスラケット、テニスボール、テニスシューズ

スヌーカー: スヌーカーキュー、スヌーカーボール、チョーク

チェス: チェス盤、チェスの駒

本棚: 本

私はWordNet、特にメロニムのセマンティック関係を使用しようとしました。ただし、以下の結果が示すように、この方法には一貫性がありません。

テニス：サーブ、ボレー、フットフォールト、セットポイント、リターン、アドバンテージ

スヌーカー:なし

Chess : チェスの動き、チェッカー盤

本棚: シェルフ

最終的には項の重み付けが必要になりますが、それは今のところあまり問題ではありません。

これを行う方法について何か提案はありますか？

ただの更新：ジェフとストンプチキンの両方の回答を組み合わせて使用することになりました。

ウィキペディアから得られる情報の質は優れており、具体的には (当然のことながら) 関連情報が非常に多くあります (「ブログ」や「iPod」などの用語が存在しない一部のコーパスと比較して)。

ウィキペディアからの結果の範囲は最良の部分です。このソフトウェアは、次のような用語を照合できます (簡潔にするためにリストを省略しています)。

ゴルフ: [ボール、アイアン、ティー、バッグ、クラブ]
写真: [カメラ、フィルム、写真、アート、イメージ]
釣り: [魚、ネット、フック、トラップ、餌、ルアー、ロッド]

最大の問題は、特定の単語を物理的なアーティファクトとして分類することです。デフォルトの WordNet は、多くの用語 (「ipod」や「トランポリン」など) が存在しないため、信頼できるリソースではありません。

nlp semantics wordnet

user63899

2009-03-04T12:51:25.530

0 投票する

4 に答える

2187 参照

java - 単語のクラスのオンライン (できれば) 検索 API

単語のリストがあり、それをフィルタリングして、その単語のリストから名詞のみを取得したい (Java を使用)。これを行うために、単語のデータベースにそのタイプを照会する簡単な方法を探しています。

私の質問は、単語の意味定義ではなく、単語のクラスを見つけることができる、無料で簡単な単語検索 API を知っている人はいますか?

ありがとう！

ベン。

編集：言葉のクラスによって、私は「品詞」を意味しましたこれを片付けてくれてありがとう

java web-services nlp

Ben Page

2009-03-04T19:37:13.823

0 投票する

4 に答える

3477 参照

java - 自然言語解析、実践例

シンプルなチャットボットに自然言語解析ライブラリを使用したいと考えています。品詞タグを取得できますが、いつも疑問に思っています。POSで何をしますか。スピーチの部分を知っている場合は、どうすればよいですか?

回答の参考になると思います。しかし、どのデータ構造とアーキテクチャを使用できるでしょうか。

java nlp

Berlin Brown

2009-03-07T14:06:59.443

0 投票する

4 に答える

1204 参照

internationalization - 小数点としてドットを使用する国とコンマを使用する国があるのはなぜですか?

一部の国ではカンマ区切りとドット区切りがあるのはなぜですか? その理由は何か分かりますか？これを使うべきか、これを使うべきかを毎回チェックするのは非常に面倒です。

internationalization nlp

tomaszs

2009-03-17T10:11:58.190

問題タブ [nlp]

Reference