用語抽出アルゴリズム/サービスを探しています。これは編集者への単なる提案であるため、抽出された用語は不完全である可能性があります。したがって、テキストを使用可能な用語のリストと比較する必要があり、このリスト以外の用語を提案することはありません。
タスクは簡単に思えます。用語ごとに、テキストに表示される数を数え、上位の用語をフィルタリングします。しかし、ここに数万の用語のリストがあります。このタスクは不可能のように見えます。それを行うサービスまたはアルゴリズムを知っていますか?
もう1つの詳細は、用語抽出サービス(リストに基づいてそれらの用語をフィルタリングする)には非常に満足していますが、これは英語以外の言語であり、ほとんどの単語は複合語であるため、有用なサービスがわかりません。
ありがとう。
編集:例
HômthứHai31/1/2011、EricssonchobiếtđãtrìnhdiễnmạngHSPA(高速パケットアクセス)vớitốcđộtảixuốnglênđến168Mbit/giây Buổitrìnhdiễnsửdụngmộtnguyênmẫuthiếtbịngườitiêudùngvàthiếtbịmạngthươngmại、vỡ
Đểđạttốcđộ168Mbit/giây、Ericssonđãsửdụngmộtsốthủthuậtvôtuyến、baogồmcôngnghệanMI MIMOsửdụngnhiềuantentạitrạmgốcvàtrênthiếtbịđểtăngtốcđộ。
Theo Ericsson、cũngsẽcómộtbuổitrìnhdiễnnhưvậyđượctiếnhànhtạitriểnlãmMobileWorldCongresssắptớiở
そして、提案リストは次のようになります:Ericsson、trìnhdiễn、HSPA、anten(とりわけ)