問題タブ [crf++]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1495 参照

nlp - 地名辞典や辞書をcrf ++の機能として表現する方法は?

CRF++の機能として地名辞典や辞書を使用する方法は?

詳しく説明すると: 人名に対して NER を実行したいとします。一般的に見られる人名を含む地名辞典 (または辞書) を持っているとします。この地名簿を crf++ への入力として使用したいと思います。

名前付きエンティティ認識タスクを実行するために、条件付きランダム フィールド パッケージ crf++ を使用しています。crf ++で一般的に使用される機能を表現する方法を知っています。たとえば、Capitalization を機能として使用したい場合、crf の機能テンプレートに別の列を 1 つ追加して、単語が大文字かどうかを示します。

0 投票する
1 に答える
55 参照

crf++ - 中国語のcrf ++の1単語トークンと複数単語トークンの違いは何ですか?

中国語の固有表現認識に crf++ を使用しています。train ファイルの最初の列は、現在の単語を表すトークンです。最初の列で漢字を 1 つしか使用していない人もいますが、中国のように多くの漢字を使用している人もいます。

0 投票する
1 に答える
307 参照

nlp - ターゲット ラベルを CRF++ の機能として使用するには?

この論文のように、中国語の単語セグメンタを構築しようとしています。私の理解が正しければ、彼らは CRF++ で 2 タグ セグメンテーション アプローチを使用しています。私の質問は、CRF++ の機能テンプレートとして、その論文 (egT(-1)C(0)T(0)) でタグ遷移を行う方法ですか? たとえば、そのようなトレーニング データの場合:

共B

同 M

創B

造M

美B <- 現在の単語

好M

B

新B

世B

紀M

CRF++ で機能 T(-1)C(0)T(0) -> M/美/B を持つことは可能ですか? U01:%x[-1,1]/%x[0,0]/%x[0,1] などの機能テンプレートを追加しようとしましたが、失敗しました。B/I タグはテスト データ (生の中国語の文章など) でタグ付けしたいタグであるため、私も混乱しています。なぜこのタグを論文の特徴として使用できるのでしょうか? それとも私は何かを誤解しましたか?

0 投票する
0 に答える
377 参照

python - CRF++ ツールを Python にバインドする

自然言語処理用の CRF++ ツールを使用してプログラムを作成しましたが、そのコードの出力を Python に渡したいと考えています。どうやってやるの?助けてください...

0 投票する
1 に答える
136 参照

stanford-nlp - Stanford Ner CRF Training データを作成するための規則

NER CRF ベースの優れたモデルを作成する必要があります。私は広大なドメインをターゲットにしており、ターゲットにしているクラスの総数は 17 です。また、多くの実験を行うことで、うまく機能する一連の機能セット (austen.prop) を作成しました。NERは良い結果を出していません。トレーニング データ サイズなどのコンテキストに基づいた CRFである NER の制限を知る必要があります。

私はたくさん検索しましたが、今までトレーニングデータを作成する際に従うべき規則を見つけることができません.

(注:モデルの作成方法と使用方法を完全に知っています。各ターゲットクラスの何パーセントかが存在する必要があるという規則があるかどうかを知る必要があるだけです。)

誰かが私を導くことができれば、私はあなたに感謝します.

0 投票する
0 に答える
296 参照

stanford-nlp - スタンフォード NER の官報

このリンクで与えられた規則に従って、CRF ベースのスタンフォード NER の独自のモデルを作成しています。ガゼットを追加し、同じリンクからこれ

をたどりたいです。このプロパティを使用してすべてのガゼットについて言及していますが、gasette=file1.txt;file2.txtであり、austen.propでuseGazettes =trueについても言及しています。ガゼットからのデータをテストしているときにモデルを作成した後、正しくタグ付けされません。私がファイルに記載したタグが正しく来ていません。Stanford NER はこれらのファイルに記載されているのと同じタグを付けていないため、これらは私にとって少し驚くべき結果です。

ガゼットを使用したスタンフォード NER にはいくつかの制限がありますか、それともまだ何か不足していますか? 誰かが私を助けることができれば、私はあなたに感謝します.

0 投票する
1 に答える
565 参照

machine-learning - 条件付きランダム フィールドを使用したシーケンス学習?

私はシーケンシャル ラーニング (および機械学習) が初めてで、条件付きランダム フィールドを使用して問題を解決する方法を理解しようとしています。

アプリケーションのエンド ユーザーがいつ、どこで作業したかの連続ログであるデータセットがあります。たとえば、次のデータセットには User1 の値のみが含まれます。

私は次の問題を解決しようとしています: ユーザーが勤務した曜日と施設が与えられた場合、次にどの施設と平日に勤務しますか?

この問題を解決するために、Conditional Random Fields を調べ始めましたが、どのライブラリでもそれを使用するには苦労しています..

次のライブラリで作業しようとしました: 1. PyStruct ( https://pystruct.github.io/ ) しかし、これはこの問題のために機能しませんでした: 範囲外のインデックス: Pystruct を使用した SSVM のフィッティング

  1. CRFSuite ( http://www.chokkan.org/software/crfsuite/ ) (これは libBFGS に依存しています。エラーなしで ubuntu ボックスに libbfgs をインストールすると、CRFSuite の「make install」を実行しても失敗し、 libBFGS を認識できません)

だから私は別のライブラリに目を向けました.. 3. CRF++ ( https://taku910.github.io/crfpp/ )

私は CRF++ をインストールすることができました & また、彼らのディストリビューションで与えられた例を実行することもできます. しかし、ユースケースに合わせてテンプレート ファイルを変更する方法を理解するための助けが必要です...

また、ラベルは上記のデータセットからの施設 + 平日の連結文字列になると考えていました。

私はシーケンス学習が初めてで、現在、この問題を解決する方法を一生懸命研究しています...

私はここで少し立ち往生しているように見えるので、どんなアドバイスも非常に役に立ちます..

ありがとう!

0 投票する
0 に答える
158 参照

visual-studio-2013 - Visual Studio 2013でCRF++を使う方法を教えてください

Visual Studio 2013 での CRF++ の使い方を教えてください。

OS:Windows7 64ビット

SDK:ビジュアルスタジオ 2013

Visual Studio 2013 で CRF++-0.54 を使用するには?

0 投票する
2 に答える
556 参照

machine-learning - CRF (Conditional Random Fields) を使用して文全体にラベルを付けることはできますか?

機械学習を使用して文にラベルを付けようとしています (各文には単一のラベルが付いています。文は互いに独立していると想定しています)。この場合、線形 CRF モデルで問題ないと思いましたが、いくつか質問があります。

私はCRF++を使用してみました (私が見た他の実装には類似した形式があるようです)。文を入力として使用しますが、出力ラベルは各トークンに割り当てられます。文全体に単一のラベルを使用する方法は? (私が考えたハックは、テスト データのドットのみに重要なラベルを割り当て、それを文全体の出力ラベルとして扱うことです。)

異なる長さの文はどのように使用できますか? トレーニング構成では、現在のトークンを分析するときにどのトークンを考慮するかを指定する必要があります。しかし、文には多数または少数のトークンが含まれる可能性があり、情報全体を利用するために、文のすべてのトークンを (多かれ少なかれ) 使用したいと考えています。

この質問から、私がやろうとしていることは可能だと思われます (シーケンス全体の単一ラベル) が、そのためのトレーニング データをフォーマットする方法がわかりません。

0 投票する
1 に答える
173 参照

file-writing - CRF++ ツールの結果をファイルに書き込む方法

私は CRF++ を使用しています。次のコマンドは、テストに使用されます:-

結果をファイルに書き込むオプションはありません。別のファイルで結果が必要ですが。