C# アプリから PDF ファイルを解析し、そこからオーディオ ファイルを作成したいと考えています。どうすればいいですか?
私は特に、優れた pdf からテキストへのライブラリ、または pdf ファイルからテキストを取り除く方法を探しています。
C# アプリから PDF ファイルを解析し、そこからオーディオ ファイルを作成したいと考えています。どうすればいいですか?
私は特に、優れた pdf からテキストへのライブラリ、または pdf ファイルからテキストを取り除く方法を探しています。
タグ付きの PDFドキュメントを入力ドキュメントとして使用することをお勧めします。これは、ドキュメントの論理構造をマークアップするためのタグがドキュメントに含まれていることを意味します (通常、PDF ドキュメントには視覚情報のみが含まれます)。
この PDF は、デジタル録音図書の標準であるDAISY形式、つまり書籍のテキストを論理構造とナビゲーション機能と共に格納する中間 XML 形式に変換できます。
このデイジー XML 形式は、音声形式に変換することも、MP3 プレーヤーのような物理デバイスであるデイジー リーダーを使用して本を聞くこともできます。
Daisy の Web サイトには、このツールチェーンの原理を説明するプレゼンテーションがあります。
Text to Speech にはFestivalを使用します。さまざまな PDF からテキストへの API が存在します...
PDF から音声合成されたテキストを聞くことが唯一のタスクである場合、「表示」メニューの下部にある Acrobat の「読み上げ」機能はどうですか?
Microsoft の Speech SDK が必要です。ここで指示を読む
他のポスターが概説したように、まず .pdf ファイルからテキストを抽出する必要があります。PDF ファイルは現在オープン フォーマットであるため、おそらく Google でパーサーを見つけることができます。
次に、図のタイトル、ページ ヘッダー、目次などを無視して、音声に変換するテキストをファイルから抽出する必要があります。
テキストを取得したら、それを音声に変換する必要があります。これはおそらく最も難しい部分です。
私は腐った声優なので、少し前にゲーム MOD の音声ファイルの生成をいじっていました。
Cepstral には、私が見つけた最高の TTS コンバーターがありました。(無料のものはスピーチにケプストラル広告を挿入するという厄介な傾向がありましたが、私がやっていることのために手動でこれを編集することができました。)
アクセントを配置する音節などについて、TTSコンバーターに手がかりを提供するために使用できる音声合成マークアップ言語があることがわかりました。ここにリンクがあります:
http://www.w3.org/TR/speech-synthesis/
SSML をテキストに自動的に追加する方法は、私には少しわかりません。
いずれにせよ、TTS コンバーターはオーディオ ファイルを生成し、最後のステップはオーディオを目的のビット レートで mp3 形式に圧縮することです。
やりにくい事かと思います。まず、その pdf のテキストを読み、次に合成音声生成のメカニズムを使用して音声コンテンツを作成する必要があります。次に、mp3 として保存する必要があります。
Mac OS X では、pdf のテキストを抽出し、それを「say」でパイプできます。他の OS で同等のシンセサイザーを見つける必要があります。
車輪を再発明するのではなく、既存のテクノロジー (フェスティバルのようなテキストから音声へのエンジン) と OCR エンジンを再利用して PDF ファイルを処理するのであれば、それほど複雑ではありません。
おそらく最も複雑なのは、さまざまな PDF レイアウト (列、行、埋め込みグラフィック、脚注、URL など) を操作することであり、テキスト認識プロセスがわかりにくくなる可能性があります。
ただし、一般的に (これが学習経験ではない場合)、既存のソフトウェア ソリューションを使用する方が確実に簡単です。