【AI漫才】Googleの読み上げ専用モデルの実力は？漫才台本の読み上げを「SUNO」とガチ比較してみた！

約1時間前

少し前までAIで楽曲制作にハマっていた私（佐藤）。その熱が少し冷めて、最近は読み上げに挑んでみている。「SUNO」でも読み上げをできなくはないのだが、基本が曲作りに最適化されたAIであるため、どうしても音楽がついてきてしまう。場合によっては、序盤こそスムーズに読み上げてはくれるけど、後半が近づくと急に歌い出すこともしばしば……。

そこでGoogleのツールを使って、純粋な読み上げに挑戦してみたところ、SUNOよりもはるかに自然な語り口で読み上げられると判明。そこで過去にGeminiが作った漫才台本を読み上げさせてみた。

・使用したツール

使用したツールは「Google AI Studio」と「Google Cloud Agent Platform」である。それぞれの特徴と違いをカンタンに説明すると、まずGoogle AI Studioは個人開発者やクリエイターが、「Geminiの能力を手軽に試せる実験室」だ。個人がAIを使った実験を行ったり、個人的なアプリの試作に適している。

一方のGoogle Cloud Agent Platformは、Google Cloudが企業向けに展開している、組織全体の業務を自動化する「AIエージェントを構築・管理するための企業用プラットフォーム」である。社内業務の自動化や高度なカスタマーサポートAIの構築などに向いている。

Google AI Studioは無料ですぐに使えるのに対して、Google Cloud Agent PlatformはGoogle Cloud（従量課金制）の契約が必要となっている。私はGoogle Cloudの無料トライアルで今回実験を行った。

さて、まずはじめに、Google AI Studioの「Speech and Music」機能で、「Gemini 3.1 Flash TTS Preview」を用いて読み上げを試した。これは「テキスト読み上げ（Text-to-Speech = TTS）」に特化した専用のAIモデルである。

話者（Speaker）の設定ができるので、2つの異なる声を使って読み上げさせたつもりだったが、生成された音声の違いはよくわからなかった。