インターネット上での使用頻度をヒューリスティックとして使用して、2 つの単語または語句の良い方をプログラムで選択したいと思ったことは、これまで何度もありました。
明白な方法、および手動で行う方法は、各用語を検索エンジンに入力し、「ヒット」数を記録することです。
しかし、大手検索エンジンは検索 API を非推奨にするか、API キーを使用しても 1 日あたり 100 件のクエリを無料に制限しています。無料のプロジェクトに取り組んでいる場合は、あまり良くありません。また、大手検索エンジンには、利用規約に「スクレイピング禁止」条項があります。
任意の言語、おそらく未確認の言語で、ストレージが限られているデバイスから動作する必要があります。これは、ローカルのコーパスまたはデータベースを持つことを除外します。
アプリケーションの 1 つの領域は、ウィクショナリーの編集者向けのツールであり、言語を知らなくても、いくつかのバリアントの主なスペルを選択するのに役立ちます。私が今考えているのは、頻度をヒューリスティックとして使用して、外国のスクリプトのスペルとラテン アルファベットの損失のある音訳との間の最適な変換を選択することです。