問題タブ [crf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
crf - CRF++のテンプレートファイルの作り方は?
私はCRF ++が初めてです。私はそのマニュアルを見て独学しています: http://crfpp.googlecode.com/svn/trunk/doc/index.html?source=navbar#templ
そして、私はこれが何を意味するのか理解していません:
これは、ユニグラムの機能を記述するためのテンプレートです。あなたが与えるとき
テンプレート "U01:%x[0,1]"、CRF++ は一連の機能を自動的に生成します
関数 (func1 ... funcN) のような:
func1 = if (output = B-NP and feature="U01:DT") return 1 else return 0
func2 = if (output = I-NP and feature="U01:DT") 1 を返す そうでなければ 0 を返す
func3 = if (output = O and feature="U01:DT") return 1 そうでなければ return 0
.... funcXX = if (output = B-NP and feature="U01:NN") return 1 else return 0
funcXY = if (output = O and feature="U01:NN") return 1 else return 0. テンプレートによって生成された機能関数の数
(L * N) になります。ここで、L は出力の数です。
Unigram 機能に多くの行があるのはなぜですか? また、それらは何を意味するのですか?
linux - CRFSuite を Mac OS X で動作させる方法は?
CRFSuiteを Mac OS X で動作させようとしています。著者は Windows と Linux のバイナリしか持っていませんが、ソース パッケージを提供しています。どうにかしてソースを Mac OS X 実行可能ファイルにコンパイルする必要があると思いますか? これはどうすればいいのかわかりません。これについていくつかの調査を行いましたが、実際には何も機能しません。また、大学の博士課程の学生にこの問題について具体的に尋ねたところ、非常に難しいとのことでした。
WineSkin を使用して CRFSuite を動作させることができましたが、これは回避策であり、実際の解決策ではありません。
理想的には、ターミナルを開いたときに、「crfsuite」と入力するだけで CRFSuite を呼び出すことができ、フープを介してコマンドを WineSkin Windows ターミナルにパイプする必要はありません。
algorithm - 線形チェーン CRF をトレーニングする方法は?
シンプルな直鎖CRFを作りたいです。私のプロジェクトからいくつかの機能を作成するように依頼するジャーナルを探しています。次のような機能:
- f1(s, i, li, li-1), = 1 if li = ADVERB で、i 番目の単語が「-ly」で終わる場合。それ以外の場合は 0。
- f2(s, i, li, li-1), = 1 if i=1, li= VERB, そして文が疑問符で終わる場合; それ以外の場合は 0
- 等
s=センテンス; i=単語の位置; li=現在の単語のラベル; li-1=前の単語のラベル。
私のプロジェクトは、インドネシア語の文章への POS タグ付けです。その機能から重量を計算する方法は?
java - CRF 内の ClassNotFoundException
このリンクhttp://sourceforge.net/projects/crf/から CRF パッケージをダウンロードしました。残念ながら、実行するとこのエラーに直面しています。クラスパスを変更しようとしましたが、まだ機能していません。
エラー:
nlp - CRF++ のユーザー定義機能
CRF++ テンプレートに機能を追加しようとしました。
How can I tell CRF++ classifier that a word x is captilized or Understanding punctuations? によると、
トレーニング サンプル
機能テンプレート
トレーニング フェーズは問題ありません。しかし、crf_testで出力が得られません
上記の形状の懸念を無視すれば、すべてうまくいきます。どこで私は間違えましたか?
xml - Named Entity Recognition (NER) のトレーニング セットとして使用する XML の変換
スタンフォード NLP パッケージ用の CRF モデルをトレーニングするために、XML 形式の構造化情報を活用したいと考えています。XML は次のようになります。
http://nlp.stanford.edu/software/crf-faq.shtml#aによると、使用できます
私のトークンを取得します。しかし、XML カプセル化を利用して、トークンに適切なクラスを自動的にタグ付けするにはどうすればよいでしょうか?
スタンフォード NLP パッケージにそのようなサポート/プロセスはありますか?それとも、トークン ファイルを手動で (たとえば XSLT を使用して) 作成する必要がありますか?
neural-network - コンテキスト依存のテキスト分類 (HMM、CRF、ANN など)
私の目標は、学生フォーラムのメッセージをコーディングするために教育で使用される一般的なコーディング機器を理解し、おそらく自動化するために使用されるテキスト分類システムを構築することです。
コーディング スキームには 4 つのコード (T、E、I、R) があり、各オンライン フォーラム メッセージにはそのうちの 1 つのみを割り当てることができます。これらのコードは生徒の学習サイクルの段階を表しており、モデルによって、生徒の学習がメッセージに反映される 4 つの段階を経るという理論が立てられています。人間のコーダーによってコード化された 1750 のメッセージがあり、これらの各フェーズ (T、E、I、および R) を定義するものについての洞察を提供できるモデルを構築したいと考えています。
私たちの最初の目標は、重要だと考えたさまざまな機能に基づいて「典型的な」分類器を構築することでした。ただし、回答 (およびその内容) は前のメッセージに依存するため、何らかの方法で「スレッド コンテキスト」を含めたいと考えています。基本的に、議論の前のメッセージのクラスと、特定の作成者の前のメッセージをどうにかして考慮したいと思います。このようなもの:
今、私はこれを始めたばかりで、この問題をモデル化する方法についてさまざまなアイデアを模索しています。私はどういうわけかこれに隠れマルコフ モデルを使用することを考えていましたが、正しい軌道に乗っているのでしょうか?
問題は、これがラベル付けされたデータセットであることを考えると、状態が不明ではないということです。状態を知っており、遷移と放出の確率を推定し、それらを「不明なデータ」の分類に使用したいと考えています (折りたたみまたは本当に新しいメッセージを保持)。
また、状態ごとに複数の観測値があり、使用する機能によっては、多数のテキスト抽出機能がある場合があります。
最後に、各状態は 2 つの以前の状態に依存します。1) スレッド内の以前のメッセージの状態、および 2) 作成者の以前の状態です。これがどういうわけかモデル化できるかどうかはわかりません:)
編集:条件付きランダムフィールドについて学びましたが、今のところ、この種の問題により適しているようです。それらについてのアドバイスはありますか? :)