問題タブ [nltk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonモジュールがリロードされるたびに計算を回避する方法
私は巨大な辞書グローバル変数を利用するPythonモジュールを持っています。現在、計算コードを一番上のセクションに配置しています。モジュールのインポートまたはリロードに1分以上かかるたびに、これはまったく受け入れられません。次のインポート/リロードで計算する必要がないように、計算結果をどこかに保存するにはどうすればよいですか?cPickleを試しましたが、ファイル(1.3M)から辞書変数をロードするのに計算とほぼ同じ時間がかかります。
私の問題についてもっと情報を与えるために、
c++ - C++ で Python ライブラリを使用するにはどうすればよいですか?
C++ でnltkライブラリを使用したいと考えています。
これを行うために使用できるグルー言語/メカニズムはありますか?
理由: しばらくの間、C++ で本格的なプログラミングを行っていないため、同時に NLP の概念を修正したいと考えています。
ありがとう
python - NLTK の実際の使用例
自然言語ツールキット(NLTK)をいじっています。
そのドキュメント ( BookおよびHOWTO ) は非常に分厚く、例は少し高度な場合があります。
NLTK の使用/アプリケーションの良いが基本的な例はありますか? Stream HackerブログのNTLK 記事のようなものを考えています。
python - Python: 文字列を prefixStringSuffix に置き換えて元の大文字と小文字を維持しますが、一致を検索するときに大文字と小文字を無視します
だから私がやろうとしているのは、文字列「キーワード」を
"<b>keyword</b>"
より大きな文字列に置き換えることです。
例:
myString = "こんにちは。あなたはその人をその仕事に就かせるべきです。こんにちは、こんにちは。"
キーワード = 「こんにちは」
私が望む結果は次のようになります。
result = "<b>HI</b> there. You should higher that person for the job.
<b>Hi</b> <b>hi</b>."
ユーザーがキーワードを入力するまで、どのキーワードかはわかりません。また、クエリが実行されるまでコーパス (myString) もわかりません。
ほとんどの場合は機能する解決策を見つけましたが、誤検知がいくつかあり、
namely it would return "<b>hi<b/>gher"
これは私が望んでいるものではありません。また、元のテキストの大文字と小文字を維持しようとしており、大文字と小文字に関係なく照合が行われることに注意してください。したがって、キーワードが「こんにちは」の場合は、置換する必要があります
HI with <b>HI</b> and hi with <b>hi</b>.
私が最も近いのは、これのわずかに派生したバージョンを使用することです: http ://code.activestate.com/recipes/576715/ しかし、文字列の2番目のパスを実行してすべてのfalseを修正する方法をまだ理解できませんでした上記のポジティブ。
または、NLTK の WordPunctTokenizer (句読点のようなものを単純化します) を使用しますが、逆の機能がなく、myString の元の句読点を保持したい場合、文を元に戻す方法がわかりません。本質的に、すべてのトークンを連結しても元の文字列は返されません。たとえば、元のテキストに「7 - 7」があった場合、トークンを元のテキストに再グループ化するときに、「7 - 7」を「7-7」に置き換えたくありません。
それが十分に明確であることを願っています。簡単な問題のように思えますが、思ったより難しい問題でした。
python - PythonのNLTKでカスタムテキストからランダムな文を生成しますか?
PythonでのNLTK、特に.generate()メソッドに問題があります。
generate(self、length = 100)
トリグラム言語モデルを使用して生成されたランダムなテキストを印刷します。
パラメーター:
これが私が試みているものの簡略版です。
これは常に生成されます
単語からランダムなフレーズを作成するのとは対照的です。
これが私の出力です
再び同じテキストから始めますが、それからそれを変えます。また、オーウェルの1984年の最初の章を使用してみました。これも、常に最初の3つのトークン(この場合はスペースの1つ)から始まり、ランダムにテキストを生成します。
私はここで何が間違っているのですか?
linguistics - nltk ではどの単語ステマーを使用すればよいですか?
私の目標は、コーパス (今のところは twitter) の感情的なコンテンツを分析することです。ちょうど今日、感情的な語幹の完全なリストを用意するのではなく、語幹を検索する方が少し意味があることに気付きました。そのため、nltk.stem を調べたところ、4 つの異なるステマーがあることがわかりました。LancasterStemmer、PorterStemmer、RegexpStemmer、RSLPStemmer、または WordNetStemmer のいずれが最適かについて、stackoverflow の言語学者に理由を付けて質問したいと思います。
python - Google AppEngineでPythonNLTK(2.0b5)を使用する
NLTK(Natural Language Toolkit)をGoogleAppEngineで動作させるようにしています。私が従った手順は次のとおりです。
- インストーラーをダウンロードして実行します(Macを使用しているので.dmgファイル)。
- python site-packagesディレクトリからnltkフォルダをコピーし、プロジェクトフォルダのサブフォルダとして配置します。
- nltkサブフォルダーを含むフォルダーにPythonモジュールを作成し、次の行を追加します。
from nltk.tokenize import *
残念ながら、起動後にこのエラーが発生します(このエラーはNLTKの奥深くで発生し、GAEプロジェクトのサブフォルダーにあるものとは対照的にPythonのシステムインストールで表示されることに注意してください):
注:これは、GAEにアップロードしたときにログでエラーがどのように表示されるかを示しています。ローカルで実行すると、同じエラーが発生します(ただし、NLTKのサイトパッケージインスタンス内で発生しているようです...違いはありません)。また、「xxxx」はプロジェクト名を示します。
要約すると:
- 私がやろうとしていることは可能ですか?NLTKはAppEngineでも実行できますか?
- 見逃したことはありますか?つまり、「nltk」をGAEプロジェクトにコピーするだけでは不十分ですか?
編集:タイプミスを修正し、不要な手順を削除しました
python - ドイツ語での POS タグ付け
次のコマンドで始まるテキスト文字列から名詞を抽出するために NLTK を使用しています。
英語でうまくいきます。ドイツ語でも機能させる簡単な方法はありますか?
(自然言語プログラミングの経験はありませんが、これまでのところ素晴らしい python nltk ライブラリを使用することができました。)
nlp - 名前と場所を抽出するためにLingPipeまたはNLTKを使用する必要がありますか?
テキストの例の非常に短いバーストから名前と場所を抽出しようとしています
このデータは現在MySQLデータベースにあり、名前のつづりが間違っているなどの場合もありますが、私は(ほとんど)アスリートごとに個別のレコードを持っています。
選手と場所を抽出したいと思います。私は通常PHPで作業していますが、エンティティ抽出用のライブラリを見つけることができませんでした(将来、NLPとMLについてさらに深く知りたいと思うかもしれません)。
私が見つけたものから、LingPipeとNLTKが最も推奨されているようですが、どちらが本当に私の目的に合っているのか、それとも他の何かがより良いのかはわかりません。
私はJavaとPythonのどちらでもプログラミングしていないので、新しい言語を学び始める前に、どのルートをたどるべきか、またはその他の推奨事項についてアドバイスをもらいたいと思っています。
python - nltk でのトークナイザー エラー
私は Python を初めて使用し、nltk を使用して学習しようとしています。
私はいくつかの例に従ってテストを行ってきましたが、Python からエラーが返されたため、できることが非常に限られているようです。
このコードが機能するため、nltkがインストールされ、正常にインポートされていることを知っています
ただし、「from nltk.tokenizer import *」は戻ります
何らかの種類の「TOKEN =」を使用すると、同様のエラーが発生するか、何かのトークン化を推測しています。別のバージョンまたはより良いインストールが役立つことを期待して、過去数日間に何度もpythonをインストールしました。
ActivePython2.6 を使用して windows7 でこのエラーが発生していますが、python 3.1、activePython3.1 および Python 2.6 でも同様のエラーが発生しました。Python 2.5 を搭載した Mac OSx 10.5 でも同様です。
Mac は、「インポート エラー: トークナイザーという名前のモジュールがありません。
オンラインで nltk の入門デモをいくつか試しているだけで、まだ独自のコードを作成しようとはしていません。成功よりも多くのエラーが発生しています。