php - PHP 用のオープンソースのテキスト分析ライブラリはありますか?

Question

この Web ページとほぼ同じことを行う PHP ライブラリを探しています: http://textalyser.net/

Python や Java で人気のあるライブラリがあることは知っていますが、PHP 版を探しています。ご協力いただきありがとうございます！

score 3 · Accepted Answer

簡潔な答え

私の知る限り、1 つも存在しないか、少なくともよく知られている/よく配布されているものはありません。

長い答え

私が遭遇した事実上のクローズコードは Dave Childによるphp-text-statistics ですが( PEAR バージョンは何年もメンテナンスされていないため)、読みやすさと文、単語、音節のカウントのみを処理します。、、、などで自分で取得する必要があるその他のデータ。もちろん、すべてのパーセンテージを計算するための数学のスキルも必要です。count_charsstr_word_countsubstr_countpreg_match_all

そうは言っても、ライブラリに何をさせたいのか、またはhttp://textalyser.net/が何をしたいのか正確にはわかりません... （とにかくストップリストとは何ですか？または網羅的なポリワードフレーズ、そのことについては...？）

score 3 · Accepted Answer

かなり古い質問...
とにかく、与えられた2つの文字列の類似性を見つけたい場合、PHPには組み込み関数がありますsimilar_text。

構文： similar_text ($first, $second, &$percent = null);

//*Find the similarity/difference between two strings in percentage
$pc = 0;
similar_text('You rock!', 'I Rock too!!',$pc);
print $pc;

出力: 57.142857142857

上記のように、この値は 2 つの文字列が類似しているパーセンテージです。

注: この関数は大文字と小文字を区別します

$pc = 0;
similar_text('you', 'YOU',$pc);
print $pc;

0になります！

私が遭遇したさらに2つのそのような関数は次のとおりです。
レーベンシュタイン距離とサウンデックス

詳細については、公式ドキュメントを確認してください

score 2 · Accepted Answer

現時点で同様のものを探していますが、これまでに見つけたオプションは、Zend Lucene Search 機能を利用することです。

http://www.opendocs.net/php/zend/ZendFramework-0.1.5/documentation/end-user/pl/zend.search.extending.html

または、Open Calais API を調べることもできます。http://www.opencalais.com/ (トムソン・ロイターから)

私はまだどちらのオプションも詳細に調べていませんが、動的リンクを構築したり、Web ページをハイパー (con)textualizing するために、ある程度のマイレージがあると思います。

php - PHP 用のオープンソースのテキスト分析ライブラリはありますか?

3 に答える 3

簡潔な答え

長い答え

Related

Reference