dictionary - CMU発音データベースの韻辞書

Question

無料またはオープンソースの押韻データベースを探しています。

CMU の発音「データベース」とその一連のアプリを見つけましたが、それらを理解することも、データがどこから来ているのかを理解することもできません。

必要なのは、単語とその音素を含む単純なテキストファイルだけです。

どこで見つけられるか、または CMU ファイルからそのようなリストを導き出す場所を知っている人はいますか?

score 6 · Accepted Answer

cmudict

cmudict はテキストファイルで、その形式は非常に単純です。まず、単語がリストされます。次に、2 つのスペースがあります。2 つのスペースに続くすべてが発音です。単語に 2 つの異なる話し方がある場合、次のような単語の 2 つのエントリが表示されます。

word
word(1)

ファイルの先頭に、記号と句読点がリストされています。シンボルの後には、そのシンボル名の英語のスペルが続き、その間にスペースはありません。これに続いて、2 つのスペース区切りとアルパベットコードが続きます。韻だけを探しているので、記号セクションで特別なことをする必要はありません。...ELLIPSIS

ARPAベット

ARPAbet コードが IPA にどのようにマッピングされるかについての情報は、ウィキペディアhttp://en.wikipedia.org/wiki/Arpabetにリストされており、各マッピングには単語の例が示されています。この 2 つが互いにどのように関連しているかを理解するのは非常に簡単で、IPA に精通している場合は ARPAbet コードの読み方を理解するのに役立つかもしれません.

概要

基本的に、すでに cmudict を見つけている場合は、求めていたもの、つまり単語とその発音のデータベースを既に取得しています。韻を踏む単語を見つけるには、フラットファイルをテーブルに解析し、クエリを実行して、同じ ARPAbet コードで終わる単語を見つける必要があります。

モノをモノにする一般理論

パート：スタッフ

新しいデータベースを作成する
index、word、arpabet の 3 つのフィールドを持つデータベースにテーブルを作成する
cmudict ファイルを 1 行ずつ読み取る
各行を 2 つの部分に分割し、2 つの連続したスペースが見つかった場合、および
インデックスカウントをインクリメントしてから、インデックス番号、単語、およびアルパベットコードを挿入します。

それからうーん...

選択した種類のデータベースにデータを取得したら、そのデータベースを使用して、arpabet コード間の相関関係を見つけることができます。韻、子音、類韻、およびその他の記憶装置を見つけることができます。それは次のようになります

部位：モノ

韻を見つけたい単語を取得する
単語に相当するアルパベットをデータベースに問い合わせる
スペースがあるすべての場所で分割することにより、arpabet コードを断片に分割します
コードの最後の部分を取得し、アルパベットコードの末尾がその部分と一致する単語をデータベースにクエリします
韻で派手なことをする

ショートカットとネタバレ

退屈して、上記の「パート: スタッフ」をカバーする Node.js モジュールを作成しました。マシンに Node.js がインストールされている場合は、READMEについてhttps://npmjs.org/package/cmudict-to-sqlitenpm install cmudict-to-sqliteを参照するか、ドキュメントのモジュールを参照して、モジュールを取得できます。

score -1 · Accepted Answer

小さなデモサブセットのみを使用している場合は、いつでもhttp://www.rhymezone.com/を使用して単語を検索し、その韻の一致をテキストファイルに入れることができます。単語の完全なデータベースが必要な場合。辞書をzombieJS UIオートメーションに接続し、単語をスクリーンスクレイピングして独自のデータベースに入れることができます。これにより、独自の韻データベースを作成できます。正直なところ、それはあなたの最初の要求にとってはかなりの仕事ですが