問題タブ [transcription]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2486 参照

php - Arpabet をストレスで IPA に変換する

私は辞書を作成していますが、単語のArpabet表現を強調してIPA (International Phonetic Alphabet)に変換する際に問題があります。

Arpabetでは、母音の後の数字でどの母音に強勢があるかがわかります。たとえば、「upstairs」という単語には、次のアプラベット表現がありますAH0 P S T EH1 R Z1後の数字EHは、この母音にストレスがかかっていることを意味します。

問題:
Arpabet を強勢を維持したまま IPA に変換する必要がありますが、IPA 形式では強勢は母音の前ではなく音節全体の前に置かれ (下の図を参照)、場合によっては複数の子音で始まることがあります。したがって、プログラムでそれを行う方法がわかりません。

ここに画像の説明を入力

質問:アクセントを付けて入ってくる単語の IPA 表現を示す最良の方法は何ですか? 私はどのプログラミング言語でも解決策に興味がありますが、PHP が最も望ましいです。

PS私の英語でごめんなさい。ただ学ぶ:)

0 投票する
1 に答える
217 参照

ios - Apple の文字起こしを使用する

Apple が Siri と Dictation に使用しているものを、自分の IOS アプリで使用できるかどうか疑問に思っていました。

これが可能であれば、どうすればよいですか?

Apple がサードパーティを使って音声ファイルを書き起こすとしたら、それは何ですか? APIはありますか?

Apple が独自の文字起こしを行っていて、私がそれを使用できないとしたら、それは残念なことです。

ご回答ありがとうございます。すべて大歓迎です!

0 投票する
2 に答える
420 参照

android - IBM Watson websocket インターフェイスを使用して、Android のメモリに保存されているオーディオ ファイルを書き起こすにはどうすればよいですか?

チュートリアルやその他の質問を確認しましたが、事前に録音されたオーディオ ファイルのパスを選択し、書き起こしのためにサービスに送信する方法に関するドキュメントは見つかりませんでした。チュートリアルでこのコードに出くわしました

curl -X POST -u <username>:<password> --header "Content-Type: audio/flac" --header "Transfer-Encoding: chunked" --data-binary @<path>0001.flac "https://stream.watsonplatform.net/speech-to-text/api/v1/recognize?continuous=true"

現在websocketインターフェースを実装しているandroid sdkで同様のことを行うことはできますか?

0 投票する
0 に答える
329 参照

speech-to-text - インタビューを書き起こすための Google Cloud Speech API の設定

テキストに書き起こす必要があるドキュメンタリーのビデオ インタビューに関連する 100 時間以上の音声を持っています。うまくいけば、30 秒ごとに何らかのタイムコード マーカーを付けて、ビデオを編集中のテキストと簡単に一致させることができます。スイート。

ファイルは BWAV 24 ビット 96khz および WAV 16 ビット 48khz で、20 分から 2 時間続きます。

この種のアクティビティを実行するには、VM でどのような種類のリソースをセットアップする必要がありますか? かなり計算量が多いため、VM には 32 個のコアとかなりの量のメモリが必要になると思われますが、リアルタイムの応答は必要ないため、優先度が低く、ファイルの処理に数時間かかる場合でも問題ありません。私の予算はごくわずかです。$300 は、すべてのファイルに対して余裕のある最高額です (これが、これらのファイルを $75+/時間でトランスクリプション サービスに送信しない理由の 1 つです)。

すでに Cloud Platform アカウントを持っていますが、使用したことはありません。誰かがすでに同様のことを行っていて、私に助けを与えることができる場合、私がもがき回しても意味がありません。

0 投票する
0 に答える
73 参照

youtube - YouTube トランスクリプトから字幕への同期はどのように機能しますか?

Youtubeには、ビデオで話されているすべてのものをテキストとして送信できる機能があり、YouTubeはそれを字幕に自動的に書き起こします。音声認識が使用されているか、オーディオスペクトルの変位によって同期を把握しています。オンラインでも同様のサービスがいくつかあります。

そのようなシステムはどのように開発できますか?