この Web ページとほぼ同じことを行う PHP ライブラリを探しています: http://textalyser.net/
Python や Java で人気のあるライブラリがあることは知っていますが、PHP 版を探しています。ご協力いただきありがとうございます!
この Web ページとほぼ同じことを行う PHP ライブラリを探しています: http://textalyser.net/
Python や Java で人気のあるライブラリがあることは知っていますが、PHP 版を探しています。ご協力いただきありがとうございます!
私の知る限り、1 つも存在しないか、少なくともよく知られている/よく配布されているものはありません。
私が遭遇した事実上のクローズ コードは Dave Childによるphp-text-statistics ですが( PEAR バージョンは何年もメンテナンスされていないため)、読みやすさと文、単語、音節のカウントのみを処理します。、、、などで
自分で
取得する必要があるその他のデータ。もちろん、すべてのパーセンテージを計算するための数学のスキルも必要です。count_chars
str_word_count
substr_count
preg_match_all
そうは言っても、ライブラリに何をさせたいのか、またはhttp://textalyser.net/が何をしたいのか正確にはわかりません...
(とにかくストップリストとは何ですか?または網羅的なポリワードフレーズ、そのことについては...?)
かなり古い質問...
とにかく、与えられた2つの文字列の類似性を見つけたい場合、PHPには組み込み関数がありますsimilar_text
。
構文: similar_text ($first, $second, &$percent = null);
//*Find the similarity/difference between two strings in percentage
$pc = 0;
similar_text('You rock!', 'I Rock too!!',$pc);
print $pc;
出力: 57.142857142857
上記のように、この値は 2 つの文字列が類似しているパーセンテージです。
注: この関数は大文字と小文字を区別します
$pc = 0;
similar_text('you', 'YOU',$pc);
print $pc;
0になります!
私が遭遇したさらに2つのそのような関数は次のとおりです。
レーベンシュタイン距離とサウンデックス
詳細については、公式ドキュメントを確認してください
現時点で同様のものを探していますが、これまでに見つけたオプションは、Zend Lucene Search 機能を利用することです。
または、Open Calais API を調べることもできます。http://www.opencalais.com/ (トムソン・ロイターから)
私はまだどちらのオプションも詳細に調べていませんが、動的リンクを構築したり、Web ページをハイパー (con)textualizing するために、ある程度のマイレージがあると思います。