【検証】楽曲制作AIに古典落語『寿限無』を流し込んだらどうなる？現状は微妙だが1年後、AI寄席の未来が見えた

AIに漫才はできるのか？　その疑問を晴らすために私（佐藤）は、Geminiに書かせた台本を楽曲制作AI「SUNO」に流し込んで、読み上げさせることに挑んだ。そうしたところ、AIの性質上、どうしても音楽をのせてしまうのだが、それでも緩急のある掛け合いができることを確認した。

では、落語はどうだろうか？　古典落語の「寿限無」を流し込んで、寄席を再現できるか挑戦してみたのである。やはり楽曲制作のクセは抜けきれなかったが、それでも落語らしさを感じさせる語り口を再現することはできたのだった。

・SUNOは落語をできるのか？

落語の「寿限無」は、最も有名な前座噺のひとつである。子どもが生まれた父親が、名前が決まらずにお寺の和尚に相談して、縁起の良い名前を全部くっつけて、とてつもなく長い名前になってしまうという話だ。

SUNOは漢字を読み間違えることがあるので、以下のように全文開いて、歌詞として入力する。

「じゅげむじゅげむごこうのすりきれ　かいじゃりすいぎょのすいぎょうまつうんらいまつふうらいまつ　くうねるところにすむところ　やぶらこうじのぶらこうじ　ぱいぽぱいぽぱいぽのしゅーりんがん　しゅーりんがんのぐーりんだい　ぐーりんだいのぽんぽこぴーのぽんぽこなーの　ちょうきゅうめいのちょうすけ」

これが噺に出てくる名前だ。本来の落語の内容は、この名前を繰り返し口上するためにとても長いので、約4分で収まるように短縮した上で、まずは以下のようにプロンプト（AIへの指示）でスタイルを固める。

◆プロンプト1
「Traditional Japanese rakugo performance, Yose live atmosphere, shamisen and taiko opening, traditional storytelling style, deep mature male spoken word, no background music during talk」
（伝統的な日本の落語公演、寄席のライブ感あふれる雰囲気、三味線と太鼓のオープニング、伝統的な語り口、深みのある成熟した男性の語り、話中はBGMなし）

寄席の興行、三味線と太鼓の出囃子の後に噺が始まるように指示。話している間のBGMはなしに指定したのだが、こうなった……。

冒頭から導入部分まではかなりいい。渋みのある男性の声で上手く始まるのだが、名前を読み上げるところで突然大合唱。落語で始まったはずなのに、どこからともなく「その他大勢」が高座に駆け上がったみたいになってしまった。

そこで次は、1人で話していることを強調するために「完全アカペラでの語り」をプロンプトに入れて再度作成に挑んだ。

◆プロンプト2
「A single male storyteller, solo spoken word, dry mono voice, no echo, no reverb, no backing music, completely acapella talk, no singing, non-musical, narrative monologue」
（男性一人語り、独唱、無味乾燥なモノラル音声、エコーなし、リバーブなし、伴奏なし、完全アカペラでの語り、歌なし、非音楽的、物語的なモノローグ）

だが、意図が上手く伝わらず、むしろ「アカペラ」だけが強調される結果に……。

アカペラを「無伴奏」と捉えて、冒頭から後ろでずっと誰かがビートを刻んでしまっている。そのまま最後まで駆け抜けるかと思ったら、サビでドラムとベースが入ってないか？　アカペラですらない……。でも曲はカッコいいという困った状態になってしまった。

そこで改めて落語であることをわからせるために「日本の伝統的な落語」をプロンプトに入れ、なおかつ「音楽なし」「言葉のみ」を入れて、メロディとビートをのせない方向を示す。

◆プロンプト3
「Traditional Japanese rakugo, single male voice, monotone storytelling, fast-paced chanting, non-musical, spoken word, no melody, zero singing, plain talking」
（日本の伝統的な落語。男性一人による単調な語り口、速いテンポの詠唱、音楽なし、言葉のみ、メロディーなし、歌なし、率直な語り）

今度こそ！　と期待したが、やはりそうなるか……。

冒頭から背後に楽隊を従えて話し始める。そしてサビは今までにも増してノリノリのビートを刻んで、合いの手に「ヘイ！」とか聞こえる始末。落語だって言ってんのに……。

落語は不成立と言わざるを得ないのだが、言葉のリズムを汲んで上手く音楽に仕立てている。それから語り口そのものは「落語」を理解しているように感じられる。漫才のときもそうだったが、語彙的な流れはある程度、わかっているのではないだろうか。

おそらく現バージョンではこれが限界かと思われるが、将来的にはもっとリアルなAI落語、AI寄席ができるようになるかもしれない。実際、他の読み上げに特化したAIサービスは、よりリアルでスムーズに話すことができる。聞きようによっては、それほど人間と変わらないところまで来ている。

はたして、1年後にどうなっているだろうか？　さらなる進化が楽しみだ。

執筆：佐藤英典
イラスト：Gemini

カテゴリー

ロケットニュース24