java - TextRank ランタイム

Question

java で textrank を実装しましたが、かなり遅いようです。期待される性能について知っている人はいますか？

遅いと予想されない場合は、次のいずれかが問題である可能性があります。

1）JGraphT時間にエッジを作成して同時に重みを追加する方法がないように見えたので、重みを計算し、それが0より大きい場合はエッジを追加します。後で重みを再計算して、エッジをループしながら追加します。それはひどい考えですか？

2) JGraphT を使用しています。それは遅いライブラリですか？

3) 高速化するために他にできることはありますか?

score 1 · Accepted Answer

「かなり遅い」の意味によって異なります。少しグーグルでこの段落を見つけました：

「RAKE と TextRank が 500 のアブストラクトの Inspec テストセットからキーワードを抽出するのにかかる合計時間 (100 回の反復の平均として) を計算しました。アブストラクトがファイルから読み取られ、メモリにロードされた後です。RAKE は 500 のアブストラクトからキーワードを抽出しました。 160 ミリ秒。TextRank は 1002 ミリ秒でキーワードを抽出しました。これは、RAKE の 6 倍以上の時間です。」

(コンテキストについては、 http://www.scribd.com/doc/51398390/11/Evaluating-ef%EF%AC%81ciencyを参照してください。)

したがって、このことから、適切な TextRank 実装は、約 1 秒で約 500 のアブストラクトからキーワードを抽出できるはずであると推測します。

java - TextRank ランタイム

1 に答える 1

Related

Reference