無料またはオープンソースの押韻データベースを探しています。
CMU の発音「データベース」とその一連のアプリを見つけましたが、それらを理解することも、データがどこから来ているのかを理解することもできません。
必要なのは、単語とその音素を含む単純なテキスト ファイルだけです。
どこで見つけられるか、または CMU ファイルからそのようなリストを導き出す場所を知っている人はいますか?
無料またはオープンソースの押韻データベースを探しています。
CMU の発音「データベース」とその一連のアプリを見つけましたが、それらを理解することも、データがどこから来ているのかを理解することもできません。
必要なのは、単語とその音素を含む単純なテキスト ファイルだけです。
どこで見つけられるか、または CMU ファイルからそのようなリストを導き出す場所を知っている人はいますか?
cmudict はテキスト ファイルで、その形式は非常に単純です。まず、単語がリストされます。次に、2 つのスペースがあります。2 つのスペースに続くすべてが発音です。単語に 2 つの異なる話し方がある場合、次のような単語の 2 つのエントリが表示されます。
word
word(1)
ファイルの先頭に、記号と句読点がリストされています。シンボルの後には、そのシンボル名の英語のスペルが続き、その間にスペースはありません。これに続いて、2 つのスペース区切りとアルパベット コードが続きます。韻だけを探しているので、記号セクションで特別なことをする必要はありません。...ELLIPSIS
ARPAbet コードが IPA にどのようにマッピングされるかについての情報は、ウィキペディアhttp://en.wikipedia.org/wiki/Arpabetにリストされており、各マッピングには単語の例が示されています。この 2 つが互いにどのように関連しているかを理解するのは非常に簡単で、IPA に精通している場合は ARPAbet コードの読み方を理解するのに役立つかもしれません.
基本的に、すでに cmudict を見つけている場合は、求めていたもの、つまり単語とその発音のデータベースを既に取得しています。韻を踏む単語を見つけるには、フラット ファイルをテーブルに解析し、クエリを実行して、同じ ARPAbet コードで終わる単語を見つける必要があります。
選択した種類のデータベースにデータを取得したら、そのデータベースを使用して、arpabet コード間の相関関係を見つけることができます。韻、子音、類韻、およびその他の記憶装置を見つけることができます。それは次のようになります
退屈して、上記の「パート: スタッフ」をカバーする Node.js モジュールを作成しました。マシンに Node.js がインストールされている場合は、READMEについてhttps://npmjs.org/package/cmudict-to-sqlitenpm install cmudict-to-sqlite
を参照するか、ドキュメントのモジュールを参照して、モジュールを取得できます。
小さなデモ サブセットのみを使用している場合は、いつでもhttp://www.rhymezone.com/を使用して単語を検索し、その韻の一致をテキスト ファイルに入れることができます。単語の完全なデータベースが必要な場合。辞書をzombieJS UIオートメーションに接続し、単語をスクリーンスクレイピングして独自のデータベースに入れることができます。これにより、独自の韻データベースを作成できます。正直なところ、それはあなたの最初の要求にとってはかなりの仕事ですが