新しい「プレビューオーディオ」と「ポーズ」機能でより多くのコントロールを体験
Jan 12, 2025

高品質なビデオコンテンツの提供は、単語の発音や劇的なポーズのタイミングなど、細部にかかっています。私たちは、プレビューオーディオとポーズという2つの新機能を導入し、完全なビデオを生成する前に、より精密で柔軟なコントロールを提供します。
なぜプレビューオーディオが必要なのか?
プレビューオーディオは、テキスト読み上げ(TTS)ナレーションがビデオを作成する前に正確に聞こえることを確認したい人にとって、画期的な機能です。以前は、スクリプトを入力してから最終製品を生成するまでの流れが便利でしたが、微調整の余地が少なく、誤りを見つけた場合にはすでにクレジットを消費していました。プレビューオーディオを使用することで、以下のことが可能になります:
- 発音とトーンの確認
テキストから生成されたオーディオトラック全体を聞いて、希望するスタイルに合っているか確認します。 - クレジットの節約
ビデオをレンダリングする前にオーディオのエラーを見つけることで、不要な支出を避けることができます。 - ストリーミングアーティファクトの回避
オーディオがビデオと同期するためにリアルタイムで生成される場合(「ストリーミングパイプライン」)、一部のAIボイスは最初と最後にわずかな音量の不一致を示すことがあります。プレビューオーディオを最初に使用することで、これらのアーティファクトを回避し、より洗練された最終結果を得ることができます。
一般的な落とし穴とテキストの考慮事項: TTS技術は大きく進歩しましたが、特定の複雑さは依然として課題をもたらすことがあります。特に注意すべき点は以下の通りです:
- 専門用語や技術用語: 医療、法律、科学の専門用語は、追加の句読点やスペルの調整が必要な場合があります。
- 略語: TTSが正しく展開または発音することを確認してください。
- 通貨と数字: ナレーターが数字を予期しない形式で話したり、通貨記号を無視したりすることがあります。
- 重い句読点: ピリオド、コンマ、コロンは、TTSがイントネーションやペースを処理する方法に影響を与えることがあります。
問題を発見した場合は、テキストを修正し、プレビューオーディオを再実行して、完璧であることを確認してから「トーキングビデオを生成」をクリックしてください。
ポーズ機能の紹介
時には、劇的な効果を狙ってスローダウンしたり、フレーズを強調したり、難しい単語を正確に処理したりしたいことがあります。新しいポーズオプションは、スクリプトの任意の場所に短い休止を挿入できる「⏱ +0.5」アイコンを介してアクセスできます。長い休止が必要な場合は、テキストに複数のポーズアイコンを含めるだけです。この手動ポーズは以下のことを可能にします:
- 明瞭さの向上: 長い文を分割して、リスナーが各セグメントを明確に理解できるようにします。
- 強調の強化: 重要な発言やコメディのパンチラインの前に期待を高めます。
- デフォルトのTTSポーズの上書き: テキスト読み上げエンジンが望む場所でポーズを取らない場合や、意図しない休止を追加する場合、手動でポーズを追加することで、最終的なナレーションが思い描いた通りに流れるようにします。
重要なヒント
プレビューオーディオは、サブスクリプションのティアに応じて毎月リセットされる文字ベースのクォータを使用します。一般的なガイドラインとして、1分のスピーチは約1,000文字です:
- 無料: 500文字(約0.5分のオーディオ)
- ライト: 1,000文字(約1分のオーディオ)
- プロ: 10,000文字(約10分のオーディオ)
- アドバンスト: 50,000文字(約50分のオーディオ)
- ウルトラ: 100,000文字(約100分のオーディオ)
ストップウォッチ機能のヒント:
- ストップウォッチ機能を使用する際、各ストップウォッチは0.5秒のポーズを表し、連続して使用することで最大3秒までの長いポーズを作成できます。
- 注意: 単一のテキストセグメント内で2つ以上の連続したポーズを使用しないようにしてください。これにより、AIが予期しない音やアーティファクトを生成する可能性があります。
ユースケースと実際の利点
- マーケティングと広告
マーケターは短くてインパクトのあるラインで好奇心を刺激するのが好きです。よくタイミングを合わせたポーズの後に続きます。今では、ブランドメッセージを磨き、クレジットを無駄にすることなく異なるラインのデリバリーをプレビューできます。 - eラーニングと教育ビデオ
教育コンテンツでは、複雑な用語や略語が日常的です。それらがどのように読み上げられるかをすばやくプレビューし、適切なポーズを挿入し、学習者が快適にフォローできるようにします。 - ストーリーテリングとナレーション
劇的なボイスオーバーは正確なペース配分に依存しています。完璧に配置されたポーズは、サスペンスや感情のニュアンスを伝えることができます。TTSの自動生成されたペース配分では常にうまくいかないことがあります。 - プロフェッショナルなプレゼンテーション
財務レビューや企業のプレゼンテーションでポイントを明確にする必要がある場合、名前や数字の誤発音は信頼性を損なう可能性があります。プレビューとポーズの追加により、スムーズでプロフェッショナルなボーカルトラックを確保できます。