問題タブ [pylucene]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2318 参照

search - lucene インデックスからフィールドのトークンを取得する

Lucene インデックスから内でTokenStream使用されたトークン (トークンのリスト、 、またはその他のもの)を取得するにはどうすればよいですか? つまり、(例から) で使用されたトークンをインデックスから取得することは可能ですか? (からトークンを取得する方法は知りません)FieldDocumenttokensTokenStream

ドキュメントにはありますがField.tokenStreamValue()doc.getFieldable(field_name)そうすると単に返されますnull

私も試しました(luceneの3番目のコメントから- Fieldable.tokenStreamValue()):

しかし、私は得る

0 投票する
1 に答える
502 参照

lucene - LuceneまたはPyLuceneでJythonを使用する必要がありますか?

Luceneで情報検索を行う必要があるプロジェクトに取り組んでいます。私はPythonでコーディングしていますが、Javaに精通していません。データセットには4000のドキュメントが含まれます。

これを調べたところ、JythonをLuceneまたはPyluceneと一緒に使用できるようです。プロジェクトの期限は1か月です。私はこれまでJythonをセットアップしたことがありません。

JythonまたはPyluceneの使用をお勧めしますか?LuceneとPyLuceneを使用したJythonの学習曲線はどのくらいですか?LuceneとPyLuceneでJythonをセットアップするのはどれほど難しいですか?

ありがとう!

0 投票する
1 に答える
237 参照

python - c:\windows\system32 とは別のディレクトリにある dll

最後に、Windows7マシンでピルセンを動作させることができました。これにより、より一般的な質問が発生
しました。パス内のディレクトリにdllがある場合、pythonはそれを見つけることができず
、dllをcに入れるとどうなりますか? \windows\system32 - うまくいきましたか?

Windows 7 32ビットを使用

0 投票する
0 に答える
509 参照

python - PyLucene による対数尤度比統計

現在、私はかなりの量のテキストを分析しています。前景コーパスと規範コーパスの用語の頻度偏差を特定するために、2 つの単語リストで対数尤度比を実行したいと考えています。Python で対数尤度をコーディングしましたが、バイグラムでコードを実行すると、コンピューターが遅くなり、待ち時間が長くなります。PyLucene を使用してコーパスのインデックスを作成できることを読んだところです。これにより、コーパスでのタスクの実行が高速化されます。インデックスを作成する方法については十分なドキュメントがありますが、PyLucene に対数尤度比関数が存在する場所を読みました。この関数について何か知っている人はいますか?前もって感謝します。

0 投票する
2 に答える
1664 参照

python - ピルセン 3.5 で StandardAnalyzer をインスタンス化するにはどうすればよいですか? Version オブジェクトはどこにありますか?

PyLucene を使用しようとしていますが、現在のバージョンで実際に実行されるコード例が見つかりません。(たとえば、http://nullege.com/codes/search/PyLucene.StandardAnalyzerを参照してください)。

ある時点で、アナライザーをインスタンス化する必要があります。これは、lucene.StandardAnalyzer() を呼び出して行う必要があるようです。ただし、エラーが発生します。

エラーの理由は明らかです。http://lucene.apache.org/core/old_versioned_docs/versions/3_0_3/api/core/index.htmlにある StandardAnalyzer のドキュメントには、バージョン オブジェクトである引数が必要であると記載されています。 .

では、Version オブジェクトはどこで取得できますか?

次の内容はコード サンプルに表示されていますが、実際には機能しません。

  • lucene.Version.LUCENE_CURRENT
  • lucene.Version.LUCENE_30

これらの名前は未定義です。私の lucene.Version クラスの内容は次のとおりです。

0 投票する
0 に答える
290 参照

lucene - PyLucene でカスタマイズされたアナライザーを構築するために、ShingleFilter を使用する

私はルセンとピルセンにかなり慣れていません。これは、ピルセンを使用してカスタマイズされたアナライザーを作成し、テキストをバイグラムにトークン化するときに問題になります。

アナライザー クラスのコードは次のとおりです。

LowerCaseTokeinizer によって生成された TokenStream で、ShingleFilter を使用しました。tokenStream 関数を直接呼び出すと、次のように機能します。

しかし、このアナライザーを使用してクエリ パーサーを作成しようとすると、次のような問題が発生しました。

クエリには何もありません。

tokenStream 関数に print ステートメントを追加した後、parser.parse(str) を呼び出すと、tokenStream の print ステートメントが実際に 3 回 (str 変数に 3 語) 呼び出されることがわかりました。パーサーは、渡した str を前処理し、前処理の結果で tokenStream 関数を呼び出しているようです。

アナライザーをどのように機能させるべきかについての考えはありますか?それをクエリパーサーに渡すと、パーサーは文字列をバイグラムに解析できますか?

前もって感謝します!

0 投票する
1 に答える
627 参照

python - pyLuceneで蛍光ペンを使用する方法は?

Luceneでの検索語の強調表示に関するチュートリアルをいくつか読み、次のようなコードを思いつきました。

しかし、それはすべてエラーで終わります:

したがって、Luceneのこの部分はpyLuceneではまだ実装されていないと思います。それを行う他の方法はありますか?

0 投票する
1 に答える
1063 参照

django - from _jcc import initVM DLL load failed:指定されたモジュールが見つかりませんでした

こんにちは私は、Pyluceneを使用するDjango v1.3アプリケーションを、同じWindowsXPマシンでエラーが発生するmod_wsgiを使用してDJANGODevサーバーからApacheに移植しようとしています。

Djangoデバッグからのエラーメッセージ:

/ Administration /feeds/にあるViewDoesNotExist

plunk4.feeds.viewsをインポートできませんでした。エラーは次のとおりです。DLLのロードに失敗しました:指定されたモジュールが見つかりませんでした。

リクエストメソッド:GETリクエストURL:localhost / Administration / feeds / Djangoバージョン:1.3例外タイプ:ViewDoesNotExist例外値:

plunk4.feeds.viewsをインポートできませんでした。エラーは次のとおりです。DLLのロードに失敗しました:指定されたモジュールが見つかりませんでした。

例外の場所:c:\ Python27 \ lib \ site-packages \ django \ core \ urlresolvers.py in _get_callback、line 167 Python実行可能ファイル:C:\ Program Files \ Apache Software Foundation \ Apache2.2 \ bin \httpd.exePythonバージョン:2.7.1 Pythonパス:

['c:\ Python27 \ lib \ site-packages \ south-0.7.3-py2.7.egg'、'c:\ Python27 \ lib \ site-packages \ django_admin_tools-0.4.0-py2.7.egg' 、'c:\ Python27 \ lib \ site-packages \ jcc-2.8-py2.7-win32.egg'、'c:\ Python27 \ lib \ site-packages\lucene-3.1.0-py2.7-win32。卵'、' c:\ Python27 \ lib \ site-packages \ oauth2-1.5.170-py2.7.egg'、' c:\ Python27 \ lib \ site-packages\httplib2-0.7.2-py2.7。卵'、' c:\ Python27 \ lib \ site-packages \ django_social_auth-0.6.0-py2.7.egg'、' c:\ Python27 \ lib \ site-packages\python_openid-2.2.5-py2.7。卵'、' c:\ Python27 \ lib \ site-packages \ python_dateutil-1.5-py2.7.egg'、' c:\ Python27 \ lib \ site-packages \ distribution-0.6.24-py2.7.egg ' 、'c:\ Python27 \ lib \ site-packages \ django_chronograph-0.2.0.dev-py2.7.egg'、'c:\ Python27 \ lib \ site-packages\pyofc2-0.1.5dev-py2。7.egg'、' c:\ Python27 \ lib \ site-packages \ anyjson-0.3.1-py2.7.egg'、' c:\ Python27 \ lib \ site-packages\django_pagination-1.0.7-py2。 7.egg'、' c:\ Python27 \ lib \ site-packages \ gdata-2.0.17-py2.7.egg'、' c:\ Python27 \ lib \ site-packages\flickrapi-1.4.2-py2。 7.egg'、' c:\ Python27 \ lib \ site-packages \ threadpool-1.2.7-py2.7.egg'、' c:\ Python27 \ Lib'、' c:\ test \ git_repo \ src'、 'c:\ test \ git_repo \ src \ plunk4'、'c:\ test \ git_repo \ src \ plunk4 \ feeds'、'C:\ Python27 \ Lib \ site-packages \ lucene-3.1.0-py2.7- win32.egg \ lucene'、' C:\ Python27 \ Lib \ site-packages \ lucene-3.1.0-py2.7-win32.egg \ lucene \ lib'、' C:\ Program Files \ Java \ jdk1.6.0 _30 \ jre \ bin'、' C:\ Program Files \ Java \ jdk1.6.0_30 \ jre \ bin \ client'、' C:\ Program Files \ Apache Software Foundation\Apache2。2'、' C:\ WINDOWS \ system32 \ python27.zip'、' c:\ Python27 \ DLLs'、' c:\ Python27 \ lib \ plat-win'、' c:\ Python27 \ lib \ lib-tk ' 、'C:\ Program Files \ Apache Software Foundation \ Apache2.2 \ bin'、'c:\ Python27'、'c:\ Python27 \ lib \ site-packages']

サーバー時間:2012年8月10日金曜日13:14:36 -0700

これがapacheerror.logです

[2012年8月10日金曜日13:03:03][警告]mod_wsgi:Python/2.7用にコンパイルされました。[2012年8月10日金曜日13:03:03][警告]mod_wsgi:Python/2.7.1を使用したランタイム。[2012年8月10日金曜日13:03:03][通知]Apache/ 2.2.22(Win32)mod_wsgi / 3.3 Python/2.7.1が構成されました-通常の操作を再開します[2012年8月10日金曜日13:03:03][通知]サーバー構築:2012年1月28日11:16:39[2012年8月10日金曜日13:03:03][通知]親:子プロセス6780を作成[2012年8月10日金曜日13:03:03][警告]mod_wsgi:Python用にコンパイル/2.7。[2012年8月10日金曜日13:03:03][警告]mod_wsgi:Python/2.7.1を使用したランタイム。[2012年8月10日金曜日13:03:03][通知]子6780:子プロセスが実行中です[2012年8月10日金曜日13:03:04] [通知]子6780:開始ミューテックスを取得しました。[2012年8月10日金曜日13:03:04][通知]子6780:64個のワーカースレッドを開始しています。[2012年8月10日金曜日13:03:04][通知]子供6780:ポート80でリッスンするスレッドを開始しています。[FriAug1013:03:45 2012] [error] [client 127.0.0.1] mod_wsgi(pid = 6780):ターゲットWSGIスクリプト'C:/temp/wsgi_test.py' Pythonモジュールとしてロードされます。[2012年8月10日金曜日13:03:45][エラー][クライアント127.0.0.1]mod_wsgi(pid = 6780):WSGIスクリプト「C:/temp/wsgi_test.py」の処理中に例外が発生しました。[2012年8月10日金曜日13:03:45][エラー][クライアント127.0.0.1]トレースバック(最後の最後の呼び出し):[2012年8月10日金曜日13:03:45][エラー][クライアント127.0.0.1]ファイル" C:/temp/wsgi_test.py "、8行目、[Fri Aug 10 13:03:45 2012] [error] [client 127.0.0.1] 1] mod_wsgi(pid = 6780):WSGIスクリプト'C:/temp/wsgi_test.py'の処理中に例外が発生しました。[2012年8月10日金曜日13:03:45][エラー][クライアント127.0.0.1]トレースバック(最後の最後の呼び出し):[2012年8月10日金曜日13:03:45][エラー][クライアント127.0.0.1]ファイル" C:/temp/wsgi_test.py "、8行目、[Fri Aug 10 13:03:45 2012] [error] [client 127.0.0.1] 1] mod_wsgi(pid = 6780):WSGIスクリプト'C:/temp/wsgi_test.py'の処理中に例外が発生しました。[2012年8月10日金曜日13:03:45][エラー][クライアント127.0.0.1]トレースバック(最後の最後の呼び出し):[2012年8月10日金曜日13:03:45][エラー][クライアント127.0.0.1]ファイル" C:/temp/wsgi_test.py "、8行目、[Fri Aug 10 13:03:45 2012] [error] [client 127.0.0.1]
import jcc [Fri Aug 10 13:03:45 2012] [error] [client127.0.0.1]
ファイル"c:\ Python27 \ lib \ site-packages \ jcc-2.8-py2.7-win32.egg \ jcc \ __ init__ .py "、34行目、[Fri Aug 10 13:03:45 2012] [error] [client 127.0.0.1] from _jcc import initVM [Fri Aug 10 13:03:45 2012] [error][client127.0。 0.1] ImportError:DLLのロードに失敗しました:指定されたモジュールが見つかりませんでした。

LuceneはPythonShellから動作しているようです。

これがpython-mjcc.__main__の出力です。

mod_WSGIが正しくインストールされていることを示すには、次のようにac:\ temp\wsgi_test.pyファイルを作成しました。

それは戻ります:

sys.version = '2.7.1(r271:86832、2010年11月27日、18:30:46)[MSC v.1500 32ビット(Intel)]' sys.prefix ='c:\ Python27' sys.path = [ 'c:\ Python27 \ lib \ site-packages \ south-0.7.3-py2.7.egg'、'c:\ Python27 \ lib \ site-packages \ django_admin_tools-0.4.0-py2.7.egg'、 'c:\ Python27 \ lib \ site-packages \ jcc-2.8-py2.7-win32.egg'、'c:\ Python27 \ lib \ site-packages \ lucene-3.1.0-py2.7-win32.egg '、' c:\ Python27 \ lib \ site-packages \ oauth2-1.5.170-py2.7.egg'、' c:\ Python27 \ lib \ site-packages \ httplib2-0.7.2-py2.7.egg '、' c:\ Python27 \ lib \ site-packages \ django_social_auth-0.6.0-py2.7.egg'、' c:\ Python27 \ lib \ site-packages \ python_openid-2.2.5-py2.7.egg '、' c:\ Python27 \ lib \ site-packages \ python_dateutil-1.5-py2.7.egg'、' c:\ Python27 \ lib \ site-packages\distribute-0.6.24-py2.7。卵'、' c:\ Python27 \ lib \ site-packages \ django_chronograph-0.2.0.dev-py2.7.egg'、' c:\ Python27 \ lib \ site-packages\pyofc2-0.1.5dev-py2。 7.egg'、' c:\ Python27 \ lib \ site-packages \ anyjson-0.3.1-py2.7.egg'、' c:\ Python27 \ lib \ site-packages\django_pagination-1.0.7-py2。 7.egg'、' c:\ Python27 \ lib \ site-packages \ gdata-2.0.17-py2.7.egg'、' c:\ Python27 \ lib \ site-packages\flickrapi-1.4.2-py2。 7.egg'、' c:\ Python27 \ lib \ site-packages \ threadpool-1.2.7-py2.7.egg'、' c:\ Python27 \ Lib'、' c:\ test \ git_repo \ src'、 'c:\ test \ git_repo \ src \ plunk4'、'c:\ test \ git_repo \ src \ plunk4 \ feeds'、'C:\ Python27 \ Lib \ site-packages \ lucene-3.1.0-py2.7- win32.egg \ lucene'、' C:\ Python27 \ Lib \ site-packages \ lucene-3.1.0-py2.7-win32.egg \ lucene \ lib'、' C:\ Program Files \ Java \ jdk1.6.0_30 \ jre \ bin'、' C:\ Program Files \ Java \ jdk1.6.0_30 \ jre \ bin \ client'、' C:\ Program Files \ Apache Software Foundation\Apache2。 2'、' C:\ WINDOWS \ system32 \ python27.zip'、' c:\ Python27 \ DLLs'、' c:\ Python27 \ lib \ plat-win'、' c:\ Python27 \ lib \ lib-tk ' 、'C:\ Program Files \ Apache Software Foundation \ Apache2.2 \ bin'、'c:\ Python27'、'c:\ Python27 \ lib \ site-packages'、'C:/ Python27 / Lib / site-packages '、' C:/Python27/Lib/site-packages/lucene-3.1.0-py2.7-win32.egg/lucene'、' C:/Python27/Lib/site-packages/lucene-3.1.0-py2 .7-win32.egg / lucene / lib'、' C:/Python27/Lib/site-packages/JCC-2.8-py2.7-win32.egg/jcc.dll'、' C:/Python27/Lib/site -パッケージ'、' C:/Python27/Lib/site-packages/lucene-3.1.0-py2.7-win32。eg / lucene'、' C:/Python27/Lib/site-packages/lucene-3.1.0-py2.7-win32.egg/lucene/lib'、' C:/ Python27 / Lib / site-packages / JCC- 2.8-py2.7-win32.egg / jcc.dll'] wsgi.multithread = Truemod_wsgi.process_group =''

問題を解決するために次のリファレンスを試しました: http ://code.google.com/a/apache-extras.org/p/pylucene-extra/wiki/PyLucene

インポートできませんでした/ApacheでDjangoエラーという名前のモジュールがありません

lists.osafoundation.org/pipermail/pylucene-dev/2007-November/002070.html

grokbase.com/t/lucene/pylucene-dev/125t3g2ph6/jcc-dll-loading-error

0 投票する
1 に答える
973 参照

python - ピルセン インストール メイクファイル エラー

ピルセン環境を構築すると、この問題が発生します。Windows プラットフォームで makefile を構成する方法がわかりません。Windowsでピルセンを構築する例があれば、誰か助けてください。

は、次のcmdことを示しています。

メイクファイルは次のとおりです。

0 投票する
2 に答える
906 参照

pylucene - ピルセンの一部しか利用できませんか?

Java Luceneコードをpylucene(v 2.3.1)に移植しようとしています。http://svn.apache.org/viewcvs.cgi/lucene/pylucene/trunk/samples/の例を使用していますが 、ほとんどのpyluceneがPythonに組み込まれているようです(ubuntu 12.04、pydev 2.6.0、eclipse 3.7.2)環境は問題ありません。たとえば、lucene.initVM()(JCCが配置されていることを示す)を実行し、... / samples/PorterStemmerAnalyzer.pyから取得した例に従ってPorterステマーを定義できます。

しかし、新しいIndexWriterを作成しようとすると、コンストラクターの最後の引数でつまずきます。

このエラーが発生します:

これは私が現時点で困惑しているエラーですが、他にもいくつかのハックがあります(それらのバージョンから... /サンプル)私も作成しました(しかし心配もします):

  • lucene.Version.LUCENE_CURRENTをlucene.LucenePackageに置き換えます

  • lucene.SimpleFSDirectoryとlucene.MMapDirectory

ここまで到達するために。

http://lucene.apache.org/pylucene/features.htmlには、「PyLucene APIは、PyLuceneモジュールのフラットな名前空間ですべてのJavaLuceneクラスを公開します」と記載されています。これは完全には正しくないようです。lucene.StopAnalyzer.ENGLISH_STOP_WORDS_SETはpydevに認識されていますが、lucene.ENGLISH_STOP_WORDS_SETは認識されていません。

だから私は/の一部/古いバージョンを取得しているようです/...?ピルセンは正しくかみ合ったが、全部ではない!?なぜこれなのか?