コロケーションを抽出する必要があるワードネットベースのドキュメントサマライザーでプロジェクトを開発しています。できる限り調査を試みましたが、Mahout を使用したことがないため、CollocDriver.java が (API コンテキストで) どのように機能するかを理解するのに苦労しています。
ウェブを精査しているときに、これにたどり着きました: Mahout Collocations
これが問題です: POSTagged の入力テキストがあります。私はそれでコロケーションを識別する必要があります.私はcollocdriver.Javaコードを持っています..今、私はそれをどのように使用するかを知る必要がありますか? サマライザー内のサブタスクには、generateAllGrams() メソッドを使用するか、generateCollocations() メソッドのみを使用するかで十分です..??
そして最も重要なことは、それをどのように使用するのですか?私は認めますが、この質問を提起します.APIについてよく知りません.
collocdriver のgrepcode バージョンも取得しました。2つの実装は少し異なるようです。入力は、grepcode バージョンの文字列であり、元の Path オブジェクトの形式です...
私の質問:入力パラメーターの構成オブジェクトとは何ですか?また、その使用方法は?? ソース/宛先は文字列(grepcodeのように)またはパス(オリジナルのように)になりますか?? 出力はどうなりますか?
私は collocdriver プログラムでさらに研究開発を行いました...私はそれがシーケンスファイルを使用し、次にベクトル生成を使用することを発見しました...私はこのシーケンスファイル/ベクトル生成がどのように機能するか知りたいです..plz help..