問題タブ [uima]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - SOLR を使用した基本 UIMA
UIMA と Solr を接続しようとしています。Solr 3.5 distをダウンロードし、cygwin経由でsolrcellとcurlを使用して、Windows 7でnutchとtikaで正常に実行しています。まず、6 つの jar をsolrsolr/contrib/uima/lib
で作業する場所にコピーしました。/lib
次に、readme.txtファイルを読み込んで、 solrconfig.xmlとschema.xmlsolr/contrib/uima/lib
の両方を編集しましたが、役に立ちませんでした。次に、 Alchemyや OpenCalais を使用することを気にしなかったので、もう少し適切と思われるこのリンクを見つけました。
それでも、solrcell 経由で pdf をインポートする curl コマンドを実行すると、追加の UIMA フィールドが取得されず、ログにも何も取得されません。ただし、test.pdfは解析され、Solrで次を使用してpdfが表示されます。
SolrConfig.XML
そして、私はrequestHanderも調整しました:
スキーマ.XML
私がやろうとしているのは、UIMA にテキストから名前を引き出してもらい (デモとして開始するためだけに)、何が間違っているのかを理解できないことだけです。これを読んでくれてありがとう。
nlp - UIMA ConceptMapper で他の型を使用する方法
私は自分で作成した辞書で UIMA ConceptMapper をうまく使用しています。TokenAnnotation パラメーターを uima.tt.TokenAnnotation に、SpanFeatureStructure パラメーターを uima.tt.SentenceAnnotation に設定します (参照例に基づく)。これらの型は、OpenNLP パーサーから来ていると私は信じています。しかし、私は medkatp を使用して別の解析も行い、それらの型を使用したいと考えています。これまでのところ、私はそれを行う方法を理解していません。これら 2 つのパラメーターのいずれかを変更すると、型が見つからないと言って全体が失敗します。
ネットで何時間も検索しましたが、これら 2 つのタイプ以外を使用する ConceptMapper の例は見つかりませんでした。どんな提案でも大歓迎です。
java - Eclipse で UIMA Framework を使用してアノテーターを作成する
Eclipse で UIMA フレームワークを使用しようとしていますが、最初のチュートリアルの 1 つを自分で実行できませんでした...
(私は最初に単語などを使って独自のアノテーターを作成しようとしましたが、次のようにまったく同じエラーが発生しました: Annotator クラス "*" が見つかりませんでした。それでもこの種のエラーが発生します:/)
ここに私のファイル/ディレクトリ構造があります
RoomNumber.java & RoomNumber_Type.java は、typeSystemDescriptor.xml / Open With / Component Descriptor Editor => JCasGen によって自動生成されます。
RoomNumberAnnotator.xml と typeSystemDescriptor.xml の両方に必要なものが正確にあると思います(以下を参照)
RoomNumerAnnotator.java は、チュートリアルの 1 つのコピー アンド ペーストです ( http://uima.apache.org/d/uimaj-2.3.1/tutorials_and_users_guides.html#d4e236 )
正しい環境変数 UIMA_HOME を設定したと思います。
サンプル ディレクトリ プロジェクトと、そこにある DocumentAnalyzer を使用して、独自の RoomNumerAnnotator をチェックします。
そして、私は常に次のようになります:
* org.apache.uima.resource.ResourceInitializationException: Annotator クラス "RoomNumberAnnotator" が見つかりませんでした。(記述子: file:/D:/eclipseWorkspace/uima0/descriptors/RoomNumberAnnotator.xml) org.apache.uima.analysis_engine.impl.PrimitiveAnalysisEngine_impl.initializeAnalysisComponent(PrimitiveAnalysisEngine_impl.java:207) で org.apache.uima.analysis_engine.impl .PrimitiveAnalysisEngine_impl.initialize(PrimitiveAnalysisEngine_impl.java:156) [...]*
何を忘れた、または見逃したのですか?
(私の RoomNumberAnnotator.java がある場所と uimaj-examples で提供される組み込みの DocumentAnalyzer の間のリンクがいくつか見落とされているように見えますか? ところで、Eclipse や UIMA 構成ファイルでそれを言う/修正する方法がわかりませんでした)
---8<--- RoomNumberAnnotator.xml:
---8<--- typeSystemDescriptor
uima - UIMAConceptMapperがドキュメント内の辞書用語を見つけられない
私はUIMAConceptMapperの新しいユーザーです。デバッグモードで実行すると、辞書にいくつかの項目がロードされていることがわかりますが、processTokenList()からのdict.getEntries(word)呼び出しは常にnullを返します。どんな提案も歓迎します。
html-parsing - UIMA を使用した HTML の処理
私は UIMA アーキテクチャーについて理解を深めようとしています。
HTML マークアップで始まるパイプラインを作成したいと考えています。これをプレーンテキストに変換する必要があるため、POS、チャンキング、エンティティ検出などのさまざまなアノテーターで処理できます。ただし、リンクや段落などの元の html タグに対応する領域も追跡したいと考えています。 、em など。基本的には、(html からの) 構造アノテーションと (他のコンポーネントからの) セマンティック アノテーションを一度に利用する最終的なアノテーターが必要です。
したがって、html マークアップを削除し、関心のあるタグを追跡するために注釈を追加するコンポーネントから始めることを想像できます。そのようなコンポーネントは既に存在しますか? 多くの人が欲しがる商品のようです。
ゼロから作成する必要がある場合、それはどのようなコンポーネントですか? SOFA を変更する必要があるため、単なるアノテーターではありません。マークアップをプレーン テキストに置き換える必要があります。
それとも、ドキュメントの新しいビューを作成して、ドキュメントのマークアップ ビューとプレーン テキスト ビューを維持する必要がありますか? マークアップ ビューを二度と気にしないことを考えると、これは奇妙に思えます。また、他のアノテーター (私自身はコーディングしません) がマークアップ ビューではなく、ドキュメントのプレーン テキスト ビューで動作するようにするにはどうすればよいでしょうか?
uima - UIMA pear fle のクラスが見つかりません
私は UIMA の初心者です。PubMed xml ファイルからの注釈目的で梨ファイルを使用しています。Julie Lab medline リーダー UIMA コレクション リーダー ファイルと Lingpipe ガゼティアを分析エンジンとして既にインストールしています。CPE ジェネレーターを実行して、適切な注釈付きの単語を取得しようとしましたが、失敗しました。次のエラーが発生しました:
The class de.julielab.jules.reader.reader.MedlineReader could not be found
Descripotor file=file/C:/apache-uima/examples/descriptor/collection reader/julie-medline-reader 1.7/desc/Medlinereaderdesciptor.xml
causedBy: org.apache.uima.ResourceInitializationException:The class de.julielab.jules.reader.reader.MedlineReader could not be found
caused by: Java.lang.classNotFound exception
de.julielab.jules.reader.reader.MedlineReader
このエラーの解決策を教えていただければ大変助かります。
java - 4つの異なるタイプのシステム記述子xmlファイルを使用してCASを表示する方法
CASビューアーを使用してCASのコンテンツを表示しようとしています(http://uima.apache.org/downloads/releaseDocs/2.1.0-incubating/docs/html/tutorials_and_users_guides/tutorials_and_users_guides.html#ugr.tug.cpe.configurator_and_viewer)
単一型システム記述子XMLを使用して作成されたCASでは完全に正常に機能します。しかし、複数の型システム記述子XMLを使用して作成されたCASを表示する方法がわかりません。
対応する型システムパッケージ/クラスもクラスパスで生成されていますが、その使用方法がわかりません。
または、Eclipse CASビューア(UIMAプラグイン)を使用してみました。それにも、単一の型システム記述子XMLが必要でした。
何かがはっきりしていないことを教えてください。
visual-c++ - カスタムICUを使用したBoostforWindowsVisualStudioの構築と使用
私は数日間、UIMA C ++フレームワーク(http://uima.apache.org/)に基づいたプロジェクトを構築しようとしています。私は現在、バージョン2.4.0のリリース候補6を使用しています。これには、LinuxとWindowsのバイナリが付属しており、すべての依存関係を簡単にバンドルできます。
特に、ICU用のバイナリライブラリが付属しています(3.6だと思います)。
私のプロジェクトでは、C ++ UIMAアノテーターを構築しており、コードはBoostC++ライブラリv1.51.0を使用しています。
すべてが正常にコンパイルされますが、実行時に、使用を開始するとアクセス違反の例外が発生します。たとえば、演算子<<(ostream&、const icu :: UnicodeString&)を使用します。BoostとUIMAC++の間のバージョンの非互換性の問題である可能性があります。
だから、私は自分のマシンでBoostを再コンパイルして、UIMA C ++に付属するICUを再利用するように指示しようとしていますが、ビルド時に使用可能なICUがないというメッセージが常に表示されるため、MSVCツールセットに問題があるようです。ブースト:
-sICU_PATHオプションとMSVCを使用してBoostを構築できた人はいますか?
ありがとう、シルヴァン
hadoop - Behemoth を使用して Hadoop で UIMA ジョブを実行する
簡単な注釈を行う完全に機能する UIMA ジョブがあります。ローカルの CAS GUI から正常に起動できます。
Apache Behemoth を使用して Hadoop で UIMA ジョブを実行しようとしています。誰かがこれに取り組んだのだろうか?ジョブは正常に実行されますが、hadoop 出力ディレクトリで実行されます。UIMA ジョブからの出力はありません。Hadoop ジョブ トラッカーの出力で、ジョブが正常に完了し、入力データが最終的な出力ディレクトリにコピーされたことを確認できます。
ここで何が起こっているのか誰か教えてもらえますか? また、UIMA コードに追加の変更を加える必要はありますか?
ありがとう
eclipse - UIMA JCasGen を Eclipse で実行するにはどうすればよいですか? (OSX)
UIMA プラグインをインストールしましたが、正常に動作しているようです。また、正常に動作する UIMA SDK もインストールしました。
私が抱えている問題は、UIMA メニューに JCasGen を実行するオプションがあるのに、決して起動しないことです。
実行構成で SDK から JCas Gen を手動で実行することはできますが、このメニュー オプションを機能させたいと考えています。
OSX 用に設定する必要がある追加機能はありますか?