問題タブ [nltk]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
32129 参照

python - NLTKとWordNetの使用; 単純な時制動詞を現在形、過去形、過去分詞形に変換するにはどうすればよいですか?

NLTKとWordNetを使用して、単純な時制動詞を現在形、過去形、または過去分詞形に変換するにはどうすればよいですか?

例えば:

次のように、期待される形で動詞を与える関数を書きたいと思います。

0 投票する
1 に答える
1764 参照

python - この Python2.6 関数を Unicode で動作させるにはどうすればよいですか?

この関数は、オンライン NLTK ブックの第 1 章の資料から変更したものです。とても役に立ちましたが、Unicode の章を読んでも、以前と同じように途方に暮れています。

先日、Zarathustra の会話で試してみたところ、o と u の上にウムラットが付いた単語が上書きされました。どうしてこうなったかわかる方もいらっしゃると思います。また、修正が非常に簡単であると確信しています。トークンをユニコード文字列に再エンコードする関数を呼び出すだけでよいことはわかっています。もしそうなら、その関数定義内ではまったく起こらないように思えますが、ここでは、ファイルに書き込む準備をしています:

ファイルから文字列を読み取った後、文字列を Unicode にエンコードする必要があると聞きました。私は次のように関数を修正しようとしました:

しかし、ハンガリー語で使用すると、このエラーが発生しました。ドイツ語で使用したとき、エラーはありませんでした。

次のようにデータをファイルする関数を修正しました。

ただし、ドイツ語を提出しようとすると、次のエラーが発生しました。

...これは、u'\n'.join されたデータを書き込もうとしたときに得られるものです。

0 投票する
1 に答える
611 参照

nlp - NLTK のカスタム ファイル/コードを使用してエンティティの命名を改善する

私たちは最近のプロジェクトで NLTK ライブラリを使用しており、主に名前付きエンティティの部分に関心があります。

一般に、NEChunkParser クラスを使用すると、良い結果が得られます。ただし、パーサーに独自の用語を提供する方法を見つけようとしていますが、成功していません。

たとえば、私の名前 (Shay) がいくつかの場所に表示されるテスト ドキュメントがあります。ライブラリは私を GPE として見つけますが、私は PERSON として見つけてもらいたいのです...

パーサーが名前付きエンティティを必要に応じて解釈できるように、ある種のカスタム ファイル/コードを提供する方法はありますか?

ありがとう!

0 投票する
11 に答える
230869 参照

python - Pythonで単語が英単語かどうかを確認するには?

単語が英語の辞​​書にあるかどうか、Python プログラムでチェックインしたいと考えています。

nltk wordnet インターフェイスが最適な方法であると思いますが、そのような単純なタスクにそれを使用する方法がわかりません。

将来的には、単語の単数形が辞書にあるかどうかを確認したいと思うかもしれません (例: プロパティ -> プロパティ -> 英単語)。どうすればそれを達成できますか?

0 投票する
1 に答える
7119 参照

python - nltk plaintextcorpusの単語をより速くカウントするにはどうすればよいですか?

一連のドキュメントがあり、各タプルに特定のドキュメントの日付と、特定の検索語がそのドキュメントに表示される回数が含まれるタプルのリストを返したいと思います。私のコード(以下)は機能しますが、遅く、私はn00bです。これをより速くする明白な方法はありますか?主に私がより良いコーディングを学ぶことができるように、そしてまた私がこのプロジェクトをより速く終わらせることができるように、どんな助けでも大いに感謝されるでしょう!

0 投票する
2 に答える
4016 参照

python - nltk カスタムトークナイザーとタガー

これが私の要件です。次のことを実現できるように、段落をトークン化してタグ付けしたいと考えています。

  • 段落内の日付と時刻を識別し、日付と時刻としてタグ付けする必要があります
  • 段落内の既知のフレーズを特定し、それらを CUSTOM としてタグ付けする必要があります
  • また、残りのコンテンツはトークン化する必要があります。デフォルトの nltk の word_tokenize および pos_tag 関数でトークン化する必要がありますか?

たとえば、次の文

そのカスタム フレーズが「I am not interested」の場合は、次のようにタグ付けしてトークン化する必要があります。

どんな提案も役に立ちます。

0 投票する
1 に答える
614 参照

python - Nltkのインストール

個別にダウンロードする必要なしに、開発システムから本番サーバーに簡単にコピーできるように、Pythonのnltkライブラリをセットアップしたい。wordnetwordnet

どんな提案も役に立ちます...

0 投票する
1 に答える
244 参照

nlp - Named Entity Recognition を使用してイントラネット ページのコンテンツを識別できますか?

私は自然言語処理が初めてで、簡単なプロジェクトを作成してもっと学びたいと思っています。NLTKは NLP で人気があると提案されたので、プロジェクトで使用します。

これが私がやりたいことです:

  • 会社のイントラネット ページをスキャンしたい。約3Kページ
  • これらのページのコンテンツを、人事、エンジニアリング、企業ページなどの特定の基準に基づいて解析および分類したいと考えています。

これまで読んだことから、名前付きエンティティ認識でこれを行うことができます。ページの各カテゴリのエンティティを記述し、NLTK ソリューションをトレーニングし、各ページを実行してカテゴリを決定できます。

これは正しいアプローチですか?方向性やアイデアに感謝します...

ありがとう

0 投票する
1 に答える
870 参照

python - NLTKパーサーの端末として整数/日付を使用する

NLTKのEarleyパーサーを使用して、次のような文を解析しようとしています。

日付が2010年12月21日より前の場合、シリアル= 10

これを行うには、CFGを作成しようとしていますが、問題は、特定の値ではなく、日付と整数の一般的な形式を端末として使用する必要があることです。プロダクションルールの右辺を正規表現として指定する方法はありますか?これにより、この種の処理が可能になりますか?

何かのようなもの:

これはすべての整数を処理します。

0 投票する
3 に答える
429 参照

python - Python nltkで特定の単語の異なるPOS単語を抽出する

特定の単語に対してすべての異なる品詞の単語を生成できるpython nltkのパッケージはありますか。たとえば、add(動詞) を指定すると、addition(名詞)、additive(adj) などを生成する必要があります。誰でも教えてもらえますか?