問題タブ [treetagger]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Tomcat が TreeTagger バイナリを見つけられない
TreeTagger を使用する Java アプリケーション (忍者フレームワーク) があります。TreeTagger のルート ディレクトリは、環境変数 TREETAGGER_HOME によって設定されます。ninja 経由でアプリケーションを実行すると、すべて正常に動作しますが、war ファイルを tomcat にデプロイすると、Tree Tagger バイナリが見つかりません。
例外で指定された場所 (/home/jarino/treetagger/bin/tree-tagger) は有効です - バイナリ ファイルが存在します。Tomcat アプリケーションが既存のファイルを認識できないのはなぜですか?
python - パンダ列の関数計算を最適化していますか?
次の pandas データフレームがあるとします。
次のような新しい pandas POS タグ付き列を作成したいと思います。
ドキュメントのチュートリアルから、いくつかのアプローチを試しました。特に:
と
したがって、この POS タグ セル関数を作成しました。
上記の関数は以下を返します。
問題は、多数の意見があると、取得に時間がかかることです。
pandas と treetagger を使用して、より効率的に、より Pythonic な方法で pos-tagging を実行するにはどうすればよいですか? . この問題は、pandas のデータフレームから treetagger だけで非常に迅速に意見をタグ付けしたため、pandas の知識が限られていることが原因であると考えています。
python - Python-Treetaggerwrapper によるチャンキング
Treetagger は、次のドイツ語の例のように、POS タグ付けとテキスト チャンキングを行うことができます。これは、動詞節と名義節を抽出することを意味します。
Python で Treetaggerwrapper を使用してこれを行う方法を理解しようとしています (Treetagger を直接呼び出すよりも高速であるため) が、その方法がわかりません。ドキュメントでは、チャンクを前処理と呼んでいるので、これを使用してみました:
しかし、出力は情報が追加されていない単なる単語のリストです。Wrapper が Chunking と呼んでいるものは、実際の tagger が Chunking と呼んでいるものとは何か違うと思い始めていますが、何かが足りないのでしょうか? どんな助けでも大歓迎です。