問題タブ [nltk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - NLTK で新しいコーパスを作成する
多くの場合、自分のタイトルに対する答えはドキュメンテーションを読んで読むことだと思いましたが、NLTK の本を一通り読みましたが、答えが得られませんでした。私はPythonが初めてです。
多数の.txt
ファイルがあり、NLTK がコーパスに提供するコーパス関数を使用できるようにしたいと考えていますnltk_data
。
私は試しましPlaintextCorpusReader
たが、それ以上のことはできませんでした:
newcorpus
punkt を使用して文を分割するにはどうすればよいですか? PlaintextCorpusReader
punkt 関数を使用してみましたが、punkt 関数はクラスを読み取れませんでしたか?
また、セグメント化されたデータをテキスト ファイルに書き込む方法を教えてもらえますか?
python - Python の NLTK におけるオランダ語文法
私はオランダ語のコーパスに取り組んでいますが、NLTK にオランダ語の文法が埋め込まれているかどうかを知りたいので、文章を解析できますか? 一般に、NLTK は英語でのみ機能しますか? Alpino オランダ語のコポラがあることは知っていますが、関数 (CFG を使用した解析など) がオランダ語用にも作成されていることを示すものはありません。ありがとう
python - NLTKで独自のコーパスを作成する利点
Mysqlテーブルに大量のテキストがあります。NLTKツールキットを使用して、統計分析を行い、後でテキストのNLPを実行したいと思います。私には2つの選択肢があります:
- DBテーブルからすべてのテキストを一度に抽出し(必要に応じてファイルに入れる場合もあります)、NLTK関数を使用します
- テキストを抽出し、NLTKで使用できる「コーパス」に変換します。
後者は非常に複雑に見え、実際にその使用方法を説明する記事は見つかりませんでした。これだけを見つけました。 データベースとしてMongoDBを使用するMongoDBでバックアップされたコーパスリーダーを作成し、コードは非常に複雑で、MongoDBを知っている必要があります。一方、前者は本当に簡単に見えますが、DBからテキストを抽出するオーバーヘッドが発生します。
ここで問題となるのは、NLTKのコーパスの利点は何ですか?言い換えれば、私が挑戦して、MySQLデータベースから読み取ることができるようにNTLKメソッドを上書きすることを掘り下げた場合、それは面倒な価値がありますか?テキストをコーパスに変換すると、通常のNLTK関数では実行できない(または非常に困難な)何かが得られますか?
また、MySQLをNLTKに接続する方法についてご存知の場合は、お知らせください。ありがとう
python - テキスト機能を見つけて印刷するにはどうすればよいですか?
工学部のプロジェクトの一環として、Natural Language Toolkit (NLTK) の使用を開始しました。入力段落テキストを読む方法を教えてください。
1) テキストの構成要素に分解します。つまり、特定の段落内の文の数、単語の数、文字の数、多音節または複雑な単語の数に分解します。
と
2)上記の決定された値も出力します。
python - IMS オープン ソース コーパス ワークベンチと NLTK 可読コーパスを構築する方法は?
現在、私はたくさんの.txtファイルを持っています。各 .txt ファイル内で、各文は改行で区切られています。CWB で読み取れるように IMS CWB 形式に変更するにはどうすればよいですか? nltk形式にも。
誰かがそれを行うためのハウツーページに私を導くことができますか? またはそれを行うためのガイドページがありますか、マニュアルを読んでみましたが、よくわかりません。www.cwb.sourceforge.net/files/CWB_Encoding_Tutorial.pdf
データおよびレジストリ ディレクトリを作成してから cwb-encode コマンドを実行すると、すべて vrt ファイルに変換されるということですか? 一度に1つのファイルを変換しますか? ディレクトリ内の複数のファイルを実行するスクリプトを作成するにはどうすればよいですか?
python - スパース表現を使用した nltk.cluster
私はPythonでかなり新しいです。
nltk.cluster パッケージを使用して、単純な kMeans を単語ドキュメント マトリックスに適用しようとしています。マトリックスがnumpy配列のようなオブジェクトのリストである場合は機能しますが、スパースマトリックス表現(csc_matrix、csr_matrix、lil_matrixなど)では機能しませんでした。
私が見つけたすべての情報は次のとおりです。
ベクトルは numpy 配列のようなオブジェクトを使用する必要があることに注意してください。nltk_contrib.unimelb.tacohn.SparseArrays は、必要に応じて効率化のために使用できます
これが何を意味するのかわかりません。誰でもこの問題で私を助けることができますか?
前もって感謝します!
python - ファイル内の文、単語、文字の数をどのようにカウントしますか?
ファイルsamp.txtからの入力段落をトークン化するために、次のコードを記述しました。誰かがファイル内の文、単語、文字の数を見つけて印刷するのを手伝ってくれますか?私はこれのためにPythonでNLTKを使用しました。
python - Python NLTK タグ付け AssertionError
PlainTextCorpusReader で NLTK を使用して約 5000 件の投稿を処理すると、奇妙なアサーション エラーが発生します。一部のデータセットでは、大きな問題はありません。ただし、まれに次のように遭遇します。
私のコードは(基本的に)次のように機能します。
nltk がファイル バッファ内での位置を失っているように見えますが、100% ではありません。これが起こる原因は何ですか?私が処理しているデータと何か関係があるように思えます。もしかしてファンキーキャラ?
python - Python を使用した官報からの固有表現認識
NLTK を使用して、Python で名前付きエンティティの認識を試みています。スキルの個人リストを抽出したい。スキルのリストがあり、求人でそれらを検索し、スキルにタグを付けたいと考えています。NLTK には、Person、Location などの事前定義タグ用の NER タグがあることに気付きました。使用できる Python の外部ガゼッター タガーはありますか? 用語の検索よりも洗練された方法(複数の単語の用語)を行う方法はありますか?
ありがとう、アサフ
linux - テキスト ファイルを介して hunpos のスクリプトを作成するにはどうすればよいですか?
私の目的は、POSパーサーHunPos http://code.google.com/p/hunpos/wiki/UserManualIを使用していくつかのテキストファイルを解析することです
一連のテキスト ファイルを介してスクリプト hunpos を bash する方法はありますか?