1

さまざまなソースからのフリー テキストからタグ クラウドを生成できるようにしたいと考えています。明確にするために、重要なタグ/フレーズが既に発見された後にタグクラウドを表示する方法について話しているのではありません。意味のあるフレーズ自体を発見できることを望んでいます... PHP/MySQLスタックで望ましい.

これを自分で行う必要がある場合は、単語/フレーズの「通常の」頻度を与える単語/フレーズのある種のインデックスを確立することから始めます。たとえば、「Constantinople」は、平均して 1,000,000 単語ごとに 1 回発生します (通常の頻度「0.000001」)。次に、テキストの本文を分析するときに、個々の単語/フレーズを見つけ (別の課題です!)、入力内のそれぞれの頻度を見つけ、予想される頻度を測定します。予想される頻度に対して比率が最も高い単語は、クラウドでの優先度が高くなります。

他の誰かがすでにこれを行っていると信じたいのですが、私が期待するよりもはるかに優れていますが、それを見つけることができれば、私は気が遠くなるでしょう.

推奨事項はありますか??

4

1 に答える 1

1

全文検索エンジンで使用される逆索引が必要です。Lucene や Xapian などのテキスト検索ライブラリが役立つはずです。そのようなライブラリの多くには PHP バインディングがあります。

于 2010-04-08T21:15:13.767 に答える