3

URL の大規模なデータ セットがあり、URL から単語を解析する方法が必要です。

realestatesales.com -> {"real","estate","sales"}

私はPythonでそれを行うことを好みます。これは、ある種の英語の辞書で可能であるように思われます。あいまいなケースもあるかもしれませんが、どこかに解決策があるはずです。

4

3 に答える 3

4

三分探索木は、単語辞書で満たされている場合、一致する用語 ( words ) の最も複雑なセットをかなり効率的に見つけることができます。これは私が以前に使用したソリューションです。
ここで tst の C/Python 実装を取得できます: http://github.com/nlehuen/pytst

例:

import tst
tree = tst.TST()
#note that tst.ListAction() assigns each matched term to a list
words = tree.scan("MultipleWordString", tst.ListAction())

その他のリソース:

「Solr」と呼ばれるオープンソースの検索エンジンは、「Word-Boundary-Filter」と呼ばれるものを使用して、この問題に対処しています。

于 2013-06-13T18:38:28.767 に答える
2

これはあなたに役立つかもしれません: http://www.clips.ua.ac.be/pattern

システムによっては、すでにインストールされているモジュールのセットです。それはあらゆる種類の興味深いことを行います。必要なことを正確に実行しない場合でも、正しい道を歩み始めることができます.

于 2013-06-13T17:28:49.757 に答える