mahout - 私には何が適切ですか？generateAllGrams() または generateCollocations() で十分ですか?

Question

コロケーションを抽出する必要があるワードネットベースのドキュメントサマライザーでプロジェクトを開発しています。できる限り調査を試みましたが、Mahout を使用したことがないため、CollocDriver.java が (API コンテキストで) どのように機能するかを理解するのに苦労しています。

ウェブを精査しているときに、これにたどり着きました： Mahout Collocations

これが問題です: POSTagged の入力テキストがあります。私はそれでコロケーションを識別する必要があります.私はcollocdriver.Javaコードを持っています..今、私はそれをどのように使用するかを知る必要がありますか? サマライザー内のサブタスクには、generateAllGrams() メソッドを使用するか、generateCollocations() メソッドのみを使用するかで十分です..??

そして最も重要なことは、それをどのように使用するのですか？私は認めますが、この質問を提起します.APIについてよく知りません.

collocdriver のgrepcode バージョンも取得しました。2つの実装は少し異なるようです。入力は、grepcode バージョンの文字列であり、元の Path オブジェクトの形式です...

私の質問:入力パラメーターの構成オブジェクトとは何ですか?また、その使用方法は?? ソース/宛先は文字列(grepcodeのように)またはパス(オリジナルのように)になりますか?? 出力はどうなりますか？

私は collocdriver プログラムでさらに研究開発を行いました...私はそれがシーケンスファイルを使用し、次にベクトル生成を使用することを発見しました...私はこのシーケンスファイル/ベクトル生成がどのように機能するか知りたいです..plz help..

score 0 · Accepted Answer

mahout を使用してコロケーションを取得するには、いくつかの簡単な手順に従う必要があります

1) 入力テキストファイルからシーケンスファイルを作成する必要があります。

/bin/mahout seqdirectory -i /home/developer/Desktop/colloc/ -o /home/developer/Desktop/colloc/test-seqdir -c UTF-8 -chunk 5

2)配列ファイルからコロケーションを生成するには、2 つの方法があります。

a)Convert sequence file to sparse vector and find out the collocation
b)Directly find out the collocation from the sequence file (with out creating the sparse vector)

3) ここでは選択肢 b を考えています。

/bin/mahout org.apache.mahout.vectorizer.collocations.llr.CollocDriver -i /home/developer/Desktop/colloc/test-seqdir -o /home/developer/Desktop/colloc/test-colloc -a org.apache .mahout.vectorizer.DefaultAnalyzer -ng 3 -p

出力フォルダーをチェックしてください。必要なファイルはそこにあります!!! (順ファイル形式)

/bin/mahout seqdumper -s /home/developer/Desktop/colloc/test-colloc/ngrams/part-r-00000 >> out.txt は ua テキスト出力を提供します !!!

mahout - 私には何が適切ですか？generateAllGrams() または generateCollocations() で十分ですか?

1 に答える 1

Related

Reference