問題タブ [uima]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - C++ での自然言語処理
既に C++ ベースのプロジェクトに取り組んでいます。自然言語処理用のプラグインが欲しいです。私はGATEが本当に好きですが、JVM を起動してプロジェクトを C++ と Java の部分に分割する価値があるかどうかはわかりません。UIMAには C++ フレームワークがあることに気付きましたが、試したことはありませんが、GATE より機能が少ないようです。
GATE を何らかの方法で C++ でラップしようとするよりも優れたオプションを知っている人はいますか (たとえば、C++ のより優れた NLP ライブラリ)? GATE を C++ でラップする場合、最善の方法は何ですか? SOA?
ありがとう
solr - このオープンソース プロジェクト 'solr-uima' に関する適切なドキュメントはどこにありますか
データに注釈を付けることができることに本当に興味があります。どこから始めればよいかよくわからないので、Solr で Apache Uima を使用することを考えました。私が正しい道ではないかどうかはまだわかりません。とにかく、Solr-Uima と呼ばれるこのコンポーネントに関する優れたドキュメントを探しています。
http://code.google.com/p/solr-uima/
ありがとう、J
java - Java プログラムで Apache UIMA を使用する例
Java プログラムで Apache UIMA を使用する例を探しています。サンプルのアノテーターを Java プログラムで使用する方法の例はありますか?
solr - UIMAをSOLRDataimporthandlerにどのように結び付けますか?
ApacheUIMAを使用していくつかのテストを行っています。結果は素晴らしいです!
私たちの理想的なセットアップは、UIMAとSOLRの緊密な統合です。理想的には、追加のメタデータのために、UIMAを過ぎてインデックスを作成するすべてのコンテンツを渡したいと思います。
UIMAをSOLRUpdateハンドラーと統合する方法の例とドキュメントがありますが、理想的には、既存のDataImportHandler(DIH)を使用したいと思います。すべてのデータはJDBC接続を介してインポートされるため、インデックスを作成する前にUIMAに渡す必要があります。
誰かがこれを達成する方法に光を当てることができますか?
ありがとう、
レネ
classpath - UIMA AS アプリケーション用のサード・パーティー・ライブラリーのセットアップ
サードパーティのライブラリを使用している UIMA AS アプリケーションがあります。次のことを知りたいです: 1. デプロイされたアプリケーションがそれらを認識し、「ClassNotFoundException」をスローしないように、これらの 3 番目のライブラリをどこ (場所) に追加できますか? 私にとっての強引な解決策は、それらを UIMA AS "lib/" フォルダーに直接追加することでしたが、この解決策はテスト用であり、運用環境では受け入れられません。2. PEAR ファイルを生成するときに、このサード パーティ ライブラリをどのようにセットアップすれば、アプリケーションのデプロイ時にサード パーティ ライブラリが考慮され、それらをクラスパスに手動で追加する必要がなくなりますか?
私はあなたの答えを楽しみにしています。ありがとうございました。
installation - ConceptMapperAnnotatorを使用する場合のPearファイルの生成
ConceptMapperAnnotatorを使用するUIMAプロジェクトがあります。以下の設定方法を教えてください。
TokenizerDescriptionPath
?を指定する方法
マクロを使用しました$main_root/descriptors/conceptMapper/primitive/OffsetTokenizer.xml
が、pearファイルをインストールしようとすると、インストーラーがファイル$main_root/descriptors/conceptMapper/primitive/OffsetTokenizer.xml
が見つからないという例外をスローします。DictionaryFileName
(辞書を含むファイル)の値を設定するにはどうすればよいですか?
このリソースを設定するためのGUIウィンドウで、URL値に$main_root/data/dict/concepts.xml
(辞書ファイル)を入力しましたが、インストール時に、インストーラーは、uima-pipelinesの検証が失敗したことを示す例外をスローします。org.apache.uima.resource.ResourceInitializationException: Initialization of annotator class "org.apache.uima.conceptMapper.ConceptMapper" failed. Caused by: org.apache.uima.resource.ResourceAccessException: The Resource /ConceptDetector/ConceptMapper/DictionaryFile requires parameters, none were specified. at org.apache.uima.resource.impl.ResourceManager_impl.getResource(ResourceManager_impl.java:221) at org.apache.uima.impl.UimaContext_ImplBase.getResourceObject(UimaContext_ImplBase.java:295) at org.apache.uima.analysis_engine.impl.AnnotatorContext_impl.getResourceObject(AnnotatorContext_impl.java:175) ... 33 more
java - CBE で実行される JVM はありますか?
Apache-UIMA を使用して質問応答システムを設計しています。システムは最終的に IBM Cell-Broadband-Engine プロセッサ (PS3) で動作するはずです。Javaで全体を設計する予定です。しかし、Java アプリを CBE 上で実行できるかどうかはわかりません。CBE で実行される JVM はありますか?
java - ドキュメント内のすべてのHTMLタグの文字位置を取得するための推奨される方法
したがって、正規表現には副作用がある可能性があります。それでは、ドキュメント内のすべてのHTMLタグの開始文字と終了文字の位置を取得するための推奨される方法は何ですか?JsoupやNekoHTMLなどの解析ライブラリはこの情報を提供していないようです。XMLLocatorでさえ、現在のドキュメントイベントの終わりを提供するだけなので、適用されていないようです。
タグのタイプや名前、その属性、またはテキストから何かを取り除くことには興味がありません。どこから始まりどこで終わるのか知りたいだけです。
この質問の目的上、ソースHTMLが有効であると想定できます。
java - 文字列内の「[」のインスタンスを検索するJava正規表現
私は現在UIMAベースのプロジェクトに取り組んでおり、使用しているデータセットには、Matcherユーティリティを使用してUIMA注釈に変換しようとしているいくつかの事前定義されたプレーンテキスト注釈があります。
私の問題は、注釈が[ANNO] [/ ANNO]の形式であり、正規表現として「[」または「]」を記述する方法がわからないことです。
いろいろな場所を検索してみましたが、答えが見つかりませんでした。最も近いのは、8進数または16進数の値の表現を使用することですが、実際にはその文字の表現を見つけることができません。
乾杯
uima - UIMA:異なるチームのチェーン用のプラグアンドプレイアノテーター
次のようなことを行うUIMAツールチェーンがあると仮定します。
トークン化->POSタグ付け->カスタムタグ/注釈の割り当て->カスタムタグを使用してさらにタグを割り当てます->さらに処理します。
POSタグ付けの直後、2つのカスタム項目の間、またはその後に、サードパーティ、たとえばエンティティ認識(POSタグを使用しますがそれ以上は必要ありません)を使用することは可能でしょうか?
型システムによる複雑さを見ることができるので、私はこの質問をしています。特に最も難しいケースは、カスタムのものの間またはその直後にサードパーティのERアノテーターを接続することです。サードパーティのアノテーターは、カスタムタグがそこにあることを期待しません。
ただし、注釈を確認したり変更したりせずに、注釈を「通過」させる必要がある追加の注釈があります。ですから、原則として、これは可能だと思います。UIMAがこれをサポートしているのか、それともどこでも厳密に入力して完全なチェーンを自分で作成するのかどうかはわかりません。
これが箱から出して不可能な場合は、他の注釈が存在するかどうかに関係なく、POSタグが利用できる場所ならどこにでもプラグインできるようにカスタム注釈を作成できますか。つまり、アノテーターの作成者は、必要な注釈、追加する注釈、および存在するかどうかに関係なく、それらを気にせずに通過するだけの注釈がいくつもある可能性があることに注意しますか?