
少し前までAIで楽曲制作にハマっていた私(佐藤)。その熱が少し冷めて、最近は読み上げに挑んでみている。「SUNO」でも読み上げをできなくはないのだが、基本が曲作りに最適化されたAIであるため、どうしても音楽がついてきてしまう。場合によっては、序盤こそスムーズに読み上げてはくれるけど、後半が近づくと急に歌い出すこともしばしば……。
そこでGoogleのツールを使って、純粋な読み上げに挑戦してみたところ、SUNOよりもはるかに自然な語り口で読み上げられると判明。そこで過去にGeminiが作った漫才台本を読み上げさせてみた。
・使用したツール
使用したツールは「Google AI Studio」と「Google Cloud Agent Platform」である。それぞれの特徴と違いをカンタンに説明すると、まずGoogle AI Studioは個人開発者やクリエイターが、「Geminiの能力を手軽に試せる実験室」だ。個人がAIを使った実験を行ったり、個人的なアプリの試作に適している。
一方のGoogle Cloud Agent Platformは、Google Cloudが企業向けに展開している、組織全体の業務を自動化する「AIエージェントを構築・管理するための企業用プラットフォーム」である。社内業務の自動化や高度なカスタマーサポートAIの構築などに向いている。
Google AI Studioは無料ですぐに使えるのに対して、Google Cloud Agent PlatformはGoogle Cloud(従量課金制)の契約が必要となっている。私はGoogle Cloudの無料トライアルで今回実験を行った。
さて、まずはじめに、Google AI Studioの「Speech and Music」機能で、「Gemini 3.1 Flash TTS Preview」を用いて読み上げを試した。これは「テキスト読み上げ(Text-to-Speech = TTS)」に特化した専用のAIモデルである。
話者(Speaker)の設定ができるので、2つの異なる声を使って読み上げさせたつもりだったが、生成された音声の違いはよくわからなかった。
また約2分30秒の漫才台本を、1度に全文生成することができなかったので、4つに分けてファイルをダウンロードし、それをつないで1本にまとめなければならなかった。ファイルごとに声質が変わってしまったため、ややまとまりがないように感じられる。
続いてGoogle Cloud Agent Platformでも同じくGemini3.1 Flash TTS Previewで同じく読み上げに挑む。こちらは話者を切り替える機能がなかったため、漫才の2人の声は同じものとなっている。
AI Studioよりもさらに自然な発話ではあるけど、話が進むにつれて声質が変わってしまっている。始めと終わりで声の感じが全然違うな。
そして今一度、以前生成したSUNOのバージョンを、しゃべりの部分(ボーカルパート)だけを分離して聞き比べてみた。
SUNOで生成した当初は、かなり自然なやり取りでなおかつしっかりとした抑揚で聞きやすいと思っていたのだが、Googleの2つのツールと比べると、SUNOは明らかに機械的な声であると感じられた。
しかしながら、漫才っぽさは2つのツールを凌駕している。音楽生成に特化しているためだろうか、展開を重視したやり取りができている気がする。
3つのツールで読み上げを試みた結果、漫才はまだまだ人間の領域からはほど遠い気がする。とはいえ、AIの進化は日進月歩。1年後には遜色のないレベルにまで到達していても不思議ではないだろう。
参考リンク:SUNO、Google AI Studio、Google Cloud Agent Platform
執筆:佐藤英典
イラスト:Gemini
▼SUNOでテレビショッピング
▼SUNOで落語の「寿限無」