問題タブ [transcription]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
2403 参照

audio - 自動転記ソフトウェア

最近のスタック オーバーフロー ポッドキャストの一部の wiki の文字起こしが、ちょっと弱いことに気付きました。明らかに、このタスクにはコンピュータ プログラムが必要です。オーディオをテキストに転記することは (誰が何を言ったかわかるように話者ラベルを付けるのが理想的です)、ソフトウェアで実現可能なものですか? そのような機能を実装しようとしているアクティブなオープンソース ソフトウェア プロジェクトはありますか?

0 投票する
1 に答える
168 参照

php - ビデオの保存とコンテンツのインデックス作成

誰かが提案を持っている場合にこれを再検討します:

次の要件を満たすシステムを作成するか、見つけるように依頼されました...

1)ビデオファイルのアップロードを許可する-現在の解決策:PHPをWebルートの上のディレクトリにアップロードしてから、ストリームへのアクセスを許可する前にユーザーを確認します。

2)後で検索できるように、ビデオの参加者に関するメタ情報(これらは調査です)でファイルにタグを付けます。-現在の解決策:アイテムを「;」で区切るキーワードテキスト領域 次に、後で検索するために、アイテムをDBの「キーワード」テーブルに解析します。

3)後で全文検索のためにテキストを書き写します。したがって、参加者が「泳ぐ、自転車に乗る、走るのが好き」と言った場合、後で「走る」を検索すると、この結果が見つかります(トライアスロンはおそらくメタフィールドに入力されているはずです)。 )-現在の解決策:サービスを使用して文字起こしを行います。次に、全文索引フィールドにテキストをアップロードします。

サブスクリプションを持つクライアントが情報を利用できるようになるため、上記の例では、水泳、サイクリング、ランニングを扱う会社はこの結果を取得できる場合がありますが、アイスクリームベンダーは取得できない場合があります。-現在の解決策:サインアップとチェックインの段階で、チャンネル登録者と動画にカテゴリを割り当てます。それらが一致することを確認してください。

手動での設定が多いようですので、自動化や制御についてもっと良いアイデアがあれば教えてください。

提案をありがとう。

0 投票する
2 に答える
70 参照

php - PHP から ASP.NET へ

このphpをASP.NETに転記してくれる親切な人はいますか??

よろしくお願いします。

jJ

0 投票する
1 に答える
2517 参照

voice-recognition - ジュリアスによる音声認識。.vocaファイルの作り方は?

私は音声認識システムを作っていますが、ジュリアスはこの作品で悪くない結果を示しています。サンプルの.vocaファイルの単語は完全に認識されていますが、ファイルに独自の単語と文字起こしを配置するにはどうすればよいですか?

前回のリリースでVoxForge( http://www.voxforge.org/ )を試し、その語彙を使用して音響モデルのナイトリービルドを試しましたが、ジュリアスの開始時に次のように多くのエラーが発生しました。

.vocaファイルの単語転記のルールを知っている人はいますか?

0 投票する
3 に答える
6349 参照

php - Audio-to-Text API?

PHPで使用できる(無料の)音声認識APIはありますか?(私はPHPとhtml / cssしか知りません。)

音声ファイルを送信してから、音声文字変換を返送してもらいたいのですが。

0 投票する
5 に答える
3541 参照

java - Java での Wav ファイルの音楽転写

私は Java を使用した音楽のトランスクリプションに関するプロジェクトを持っています。つまり、音を録音して WAV ファイルに保存するアプレットを作成しました。プレーヤーは、トランスクリプションしたい曲だけを再生する必要があります。その時点で、保存された WAV ファイルから情報を取得し、この情報を使用して MIDI ファイルを作成する必要があり、MIDI ファイルを作成した後、そのための楽譜 (楽譜) を生成する必要があり、これらすべてを実行する必要がありました。 Javaで。

これらのことをどのように行うことができるかについての明確な説明を求めてどこでも検索しましたが、直接的なものは見つかりませんでした:(私はJavaが初めてなので、誰かに助けてもらいたいです。それは:

  1. WAV ファイルで再生中のノートに関する情報を取得します。
  2. ノートを知る。
  3. WAV ファイルに相当する MIDI ファイルを作成します。
  4. MIDI ファイルから SCORE を生成します。

読み取られているデータに対してセグメンテーションを実行した後、高速フーリエ変換も試しましたが、それは完全に間違った方向に進んだと思います:(

上記のトピックと、これらをJavaでのみプログラミングする方法について誰かが私を助けてくれれば、本当に高く評価されます:)

ちなみに、このプロジェクトは:
プレーヤーがピアノで音符を弾く >> 演奏を記録する >> プレーヤーが演奏のスコアを取得するというものです。

0 投票する
2 に答える
1614 参照

speech-recognition - CMU の sphinx4 を使用して数字以外のデータを転記する

私は最近、書き起こしに CMU の sphinx4 を使用することに取り組んでおり、最終的に強制的に整列させます。つまり、音声をその書き起こしに合わせます。

基本的に私が開発したいことを実行するAutoCapというプロジェクトを見つけました。ということで、インストールしましたがダメでした。微調整してみましたが、取得したのは間違ったタイムスタンプだけでした。

そこで、sphinx4 を使って自分でやってみようと思いました。Sphinx の Transcriber.jar ファイルを使用して、wav ファイルの書き起こしに成功しました。しかし、数字以外のデータを含むオーディオでは機能しませんでした。readmeページには、「数字以外のデータを転記したい人は、正しい文法、言語モデル、および言語学者を使用して config.xml ファイルを変更する必要があります」と記載されています

それで、誰でもこれらのいずれかについて私に助けを提供できますか:

  • オートキャップ
  • Sphinx4 を使用して数字以外のデータを転記する
  • 強制整列

ありがとう。

0 投票する
0 に答える
310 参照

android - Androidで転写文字を表示する方法

次のような転写文字を含むsqlite DBデータを持っています

しかし、それらのいくつかは Android では表示されません。正しく表示するにはどうすればよいですか? ヨーロッパのさまざまなアルファベットの別の特殊文字を表示する必要があります。

お時間をいただきありがとうございます。

解決しました!!! 誰かにとって興味深い場合は、Lucida Sans Unicode など、TextView に特別なフォントを使用できます。

0 投票する
1 に答える
70 参照

telephony - 電話の録音を書き起こす

「ホットライン」で定期的に録音メッセージの形で情報を提供している組織があります。この情報を Web ページにテキスト形式で表示できるオープン ソース ソリューション (または「接続」できるコンポーネントのセット) はありますか?

0 投票する
1 に答える
225 参照

android - 文字起こしにはどのエンコーディングを選択すればよいですか?

私の友人と私は、iPhone と Android 用のアプリを開発しています。単語の書き起こしを処理する必要があります。アプリケーションで正しい単語の書き起こしを表示するには、どのエンコーディング (または特殊なフォント) を選択する必要がありますか?

更新 (2011 年 12 月 14 日):詳細情報を提供したいと思います。Muller 辞書 ( http://sourceforge.net/projects/xdxf/files/dicts-XDXF/sdict05/comn_sdict_axm05_mueller24.tar.bz2/download )からいくつかの文字起こしを読み取ろうとすると、いくつかの文字で問題が発生しました。辞書ファイルのエンコーディングをチェックしますenca

問題のある単語の 1 つに「画家」があります。emacs で辞書ファイルを開くと、次のように表示されます。

ここに画像の説明を入力

Ruby で記述されたスクリプトは、データを使用して機能します。この書き起こしを辞書から解析し、データベースに保存します。その後、この文字起こしをデータベースから取得し、json としてファイル (utf-8) に書き込みます。このファイルをテキスト エディターで開くと、この文字列として表示されます\u0445peInt\u255a

アプリで解析して画面に表示すると、次のようになります。

ここに画像の説明を入力

間違いはどこですか?辞書ファイルの解析に問題があると思います。それを正しく解析する方法よりも?