algorithm - 利用可能な用語のリストによる用語抽出

Question

用語抽出アルゴリズム/サービスを探しています。これは編集者への単なる提案であるため、抽出された用語は不完全である可能性があります。したがって、テキストを使用可能な用語のリストと比較する必要があり、このリスト以外の用語を提案することはありません。

タスクは簡単に思えます。用語ごとに、テキストに表示される数を数え、上位の用語をフィルタリングします。しかし、ここに数万の用語のリストがあります。このタスクは不可能のように見えます。それを行うサービスまたはアルゴリズムを知っていますか？

もう1つの詳細は、用語抽出サービス（リストに基づいてそれらの用語をフィルタリングする）には非常に満足していますが、これは英語以外の言語であり、ほとんどの単語は複合語であるため、有用なサービスがわかりません。

ありがとう。

編集：例

HômthứHai31/1/2011、EricssonchobiếtđãtrìnhdiễnmạngHSPA（高速パケットアクセス）vớitốcđộtảixuốnglênđến168Mbit/giây Buổitrìnhdiễnsửdụngmộtnguyênmẫuthiếtbịngườitiêudùngvàthiếtbịmạngthươngmại、vỡ

Đểđạttốcđộ168Mbit/giây、Ericssonđãsửdụngmộtsốthủthuậtvôtuyến、baogồmcôngnghệanMI MIMOsửdụngnhiềuantentạitrạmgốcvàtrênthiếtbịđểtăngtốcđộ。

Theo Ericsson、cũngsẽcómộtbuổitrìnhdiễnnhưvậyđượctiếnhànhtạitriểnlãmMobileWorldCongresssắptớiở

そして、提案リストは次のようになります：Ericsson、trìnhdiễn、HSPA、anten（とりわけ）

score 0 · Accepted Answer

最初のラウンドでは、すべての単一の単語を抽出し、それらのどれがリストにあるかを調べることができます。リストが注文されている場合は、バイナリ検索を介して。

第2ラウンドでは、すべての単語ペア（Hômthứ、thứHai、Ericsson cho、chobiết）などを抽出し、それらの用語をリストで検索します。

等

後のすべてのステップは、最初のステップよりもそれほど複雑ではありません。最初のステップでは、テキスト内のさまざまな単語と同じ数のルックアップがあり、2番目のステップでは、ルックアップする単語の組み合わせの数がおそらく近くなります。テキスト内の単語の総数に。しかし、それでも複合語は実際にはそれほど問題を複雑にしないと思います。最初のステップでの単語抽出の結果に基づいて、2番目のステップのリストのサイズを大幅に縮小することが可能である可能性があります。

それとも私はこれが単純すぎると思っていますか？

algorithm - 利用可能な用語のリストによる用語抽出

1 に答える 1

Related

Reference