「to the」、「and the」などの平凡な一般的なフレーズと、「pick up」、「fall in love」、「red herring」などの独自の語彙的意味を持つ定型句やイディオムを区別できる手法は何ですか? "、 "デッドエンド"?
辞書がなくても成功する手法はありますか?たとえば、HMM が大規模なコーパスでトレーニングする統計的手法はありますか?
または、ほぼすべての単語と共起する可能性のある「乱雑な」単語と、単独または特定の限定された慣用句のセットで発生する単語を無視または重み付けするなどのヒューリスティックがありますか?
そのようなヒューリスティックが存在する場合、「beat up」、「eat up」、「sit up」、「think up」に「up」などの乱雑な単語が組み込まれている決まり文句や言葉のフレーズをどのように考慮に入れるのでしょうか?
アップデート
オンラインで興味深い論文を見つけました:慣用表現の教師なし型とトークン識別