問題タブ [crfsuite]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - CRFSuite の例の実行
CRFSuite を使おうとしていますが、example/ner.py と pos.py の使い方がわかりません。
正確には、フォームの入力を行うにはどうすればよいですか:
また
たとえば、「yw pos」は CoNNL モデルから取得できますが、「chk」部分と pos.py のすべてのフィールドは実際には取得できません。
また、トレーニング済みのモデルがある場合、CRFSuite を使用して生のテキスト (これらすべてのタグなし) を処理する方法はありますか?
image-processing - CRF++ または CRFSuite
私はcrf ++とcrfsuiteを使い始めています(どちらも非常によく似たファイル形式を使用しています)。画像に関すること(セグメンテーション、アクティビティ認識など)をしたいです。私の主な問題は、トレーニング ファイルを作成する方法です。誰もcrfと画像を扱っていますか? 誰かが私に説明したり、学ぶためにいくつかのファイルを提供したりしていますか? 前もって感謝します。
model - CRFSuite で k 分割交差検証を使用し、モデル ファイルに保存する
私は CRFSuite ライブラリを初めて使用しますが、「-m」オプションのおかげで、モデルをトレーニングしてファイルに保存する方法を知っています。ただし、k分割交差検証をマスターしようとしましたが、「-m」オプションはプロセスをファイルに保存するために機能していないようです。このコマンドは単にモデル ファイルを作成しません。
プロセスをファイル (ログ ファイルではなくモデル ファイル) に書き込む CRFSuite での k 分割交差検証の適切な使用例を簡単に挙げることができますか。ドキュメントでは、作成者は k 分割交差検証を行う方法を説明していますが、モデルを保存するファイルを指定していません。後で生成されたモデルを保存しないのに、なぜ交差検証を実行するのか、本当に不思議です...
ここで CRFSuite に関するドキュメントを見つけました: http://www.chokkan.org/software/crfsuite/manual.html
しかし、それは私のニーズには十分ではありません。ありがとう。
java - jcrfsuite トレーニング ファイル形式
jcrfsuiteの例にあるPOSタグ付けの例から私が理解していることから。トレーニング ファイルはタブ区切りで、最初のトークンはラベルです。しかし、BigCluster| を取得できません。もの。トレーニング ファイルでトークンを指定する方法を教えてください。
以下の例:
o BigCluster | 00 BigCluster | 0000 BigCluster | 000000 BigCluster | 00000000 BigCluster | 0000000000 BigCluster | 0000000000 BigCluster | 000000000000 BigCluster | 00000000000000 |V 1gramSuff|i 1gramPref|前の単語| prevcurr||i nextword|predict nextword|predict currnext|i|predict Word|I Lower|i Xxdshape|X charclass|1, first-shortcap prevnext||predict t=0
テスト ファイル形式:
! BigCluster | 01 BigCluster | 0110 BigCluster | 011011 Bigcluster | 01101100 Bigcluster | 0110110011 Bigcluster | 011011001100 Bigcluster | 01101100110000 Bigcluster | 01101100110000 nextbigcluster | 10001000の| 1000100万bigの| mnn 4gramSuff|mmnn 5gramSuff|mmmmnn 6gramSuff|ammmnn 7gramSuff|aammmnn 8gramSuff|aaammmmnn 9gramSuff|daaammmmnn 1gramPref|d 2gramPref|da 3gramPref|daa 4gramPref|daaa 5gramPref|daaam 6gramPref|daaamm 7gramPref|daaammm 8grammnnwordPref|daaammnwordPref|daaammnn単語 prevcurr||daammmmn nextword|。次の単語|。現在の次|だああむん|。Word|Daaammmnn Lower|daaammmmnn Xxdshape|Xxxxxxxxx charclass|1,2,2,2,2,2,2,2,2, first-initcap prevnext||. t=0
machine-learning - 文の境界なしで CRF をトレーニングする
HTML ドキュメント内のテキストの一部にタグを付ける必要があります。ただし、ほとんどの場合、日付、会社名、住所などの形式のテキストで構成されています。CRF (sklearn-crfsuite) を使用する予定です。
私の問題は、データセットを文に分割するのが難しいことです。すべてを単一のシーケンスとして扱い、文の境界なしで CRF モデルをトレーニングできますか? CRFSuite または sklearn-crfsuite のチュートリアルでは、これについて説明していません。
文の分割なしではできない場合、そのようなテキストを文に分割する方法についてのヒントはありますか?