URL の大規模なデータ セットがあり、URL から単語を解析する方法が必要です。
realestatesales.com -> {"real","estate","sales"}
私はPythonでそれを行うことを好みます。これは、ある種の英語の辞書で可能であるように思われます。あいまいなケースもあるかもしれませんが、どこかに解決策があるはずです。
三分探索木は、単語辞書で満たされている場合、一致する用語 ( words ) の最も複雑なセットをかなり効率的に見つけることができます。これは私が以前に使用したソリューションです。
ここで tst の C/Python 実装を取得できます: http://github.com/nlehuen/pytst
例:
import tst
tree = tst.TST()
#note that tst.ListAction() assigns each matched term to a list
words = tree.scan("MultipleWordString", tst.ListAction())
その他のリソース:
「Solr」と呼ばれるオープンソースの検索エンジンは、「Word-Boundary-Filter」と呼ばれるものを使用して、この問題に対処しています。
これはあなたに役立つかもしれません: http://www.clips.ua.ac.be/pattern
システムによっては、すでにインストールされているモジュールのセットです。それはあらゆる種類の興味深いことを行います。必要なことを正確に実行しない場合でも、正しい道を歩み始めることができます.