コンピューターのプログラムで「人が理解できる音声を合成出力して人工的に作る」システムのことは、「音声合成」、「Text-To-Speech(テキスト・トゥー・スピーチ, TTS)」と呼ばれています。スマートフォンやタブレットも日本語を話し、アレクサがお役立ち情報をお茶の間で教えてくれる時代になっていますので、私たちの周りには日常的に音声合成のシステムが活躍しています。コールセンターでも様々な仕方で活用されており、弊社へのお問い合わせも少なくありません。CBA(弊社)でも、電話やコールセンターと音声合成を組み合わせたシステムを納品していますし、ラボでは人型ロボットエージェントによる応答システムも研究、販売しています。今回の記事では、音声合成の歴史と最新の製品やオープンソースの原状などをご紹介します。

リコーのVC2という音声合成の先駆者

私事で恐縮ですが、私が最初に音声合成プログラムを動かして試したのは、プログラマー向け雑誌、「C Magazine」1994年3月号が最初でした。その号には、「テキスト音声合成ソフトVC2のシステムと応用」(山崎信英(株)リコー 情報研究所/北川博雄(株)リコー 情報通信研究所、協力:株式会社リコー)という衝撃的な記事が掲載されており、なんと付録のフロッピーディスクには、フリーウェアとして、日本語テキストを漢字混じりで入力すると、自動的に音声合成までしてくれる、PC-9801用のMS-DOSプログラムが添付されていました。「リコーが新たに開発した音声合成システムは、非常に少ない処理量で音声合成を実現します」とPC-98が話し出すのを聞いて、新しい時代の幕開けに胸がときめきました。なお当時の雑誌と記事はAmazonで購入でき、試し読みでそのページも最初の数ページを確認できるようでした。Web.archive.org の情報によると、このフリーウェアは2004年ぐらいまでリコーのWebページで公開されていたようです。こちらによると、VC2を手掛けた作者の方は、今でも株式会社アクエストで音声合成の製品の販売をしておられます。

Web APIによる音声合成

現在、業務で音声合成をはじめるいちばん手軽な方法は、Webで公開されているAPIを利用する方法です。費用などはそれぞれのページでご確認ください。

■ Microsoft の “Text to Speech”

お試しページ:https://azure.microsoft.com/ja-jp/services/cognitive-services/text-to-speech/#features
「人間の声のパターンやイントネーションと一致する、滑らかで自然に聞こえる音声を実現し」、「スピード、声の高さ、発音、間などを簡単に調節し、シナリオに合わせて音声出力を調整でき」るということです。CBAの社内評価でも、その音質に驚きの声が上がっています。(CBA社内では、音声:圭太[Neural]、読み上げ速度:0.80、ピッチ:0.70にして色々朗読させることがはやりました。)

■ Google の Text-to-Speech

お試しページ:https://cloud.google.com/text-to-speech/?hl=ja
「40 以上の言語と方言で 220 種類以上の音声から選択でき」、もちろん日本語の音声も複数準備されています。「Google の画期的なテクノロジーを導入すれば、人間のような自然なイントネーションの音声を生成できます。DeepMind の音声合成に関する専門技術を基に構築された API は、人間にかなり近い音声を実現します」ということです。

■ IBM Watson Text to Speech (IBM ワトソン)

「最新のニューラル音声合成技術により、テキストを自然音声に変換します。」「Watson Text to Speechを利用すると、テキストから人間のような音声を合成できます。複数の言語やトーンでユーザーとやり取りでき、顧客体験とエンゲージメントの向上をサポートします。ユーザーがそのレベルに関係なくコンテンツにアクセス アクセスできたり、不注意運転をしないように音声オプションを提供したり、あるいは効率性向上のためにカスタマーサービスを自動化したりできます。」
製品ページ:https://www.ibm.com/jp-ja/cloud/watson-text-to-speech
デモサイト:https://text-to-speech-demo.ng.bluemix.net/

■ Amazon Polly(アマゾン・ポリー)

音声サンプルページ:https://aws.amazon.com/jp/polly/
「Amazon Polly は、標準 TTS 音声に加えて、新しい機械学習アプローチによる音声品質の高度な改善を実現するニューラルテキスト読み上げ (NTTS) 音声を提供します。Polly のニューラルテキスト読み上げテクノロジーは、話し手の配信スタイルをアプリケーションにより一致させる 2 つの発話スタイルをサポートします。ニュースナレーションのユースケースに合わせたニュースキャスターの発話スタイルと、電話アプリケーションのような通信発話スタイルの双方にとって理想的な会話の発話スタイルです」と書かれています。

■株式会社エーアイ AICloud

「AITalk 声の職人」、「AItalk webAPI」、「AItalk web読み職人」といった製品がラインナップされています。「AIcloud(エーアイクラウド)シリーズAItalk webAPIはWEBサービスなどから、高品質音声合成エンジンAITalk®をSaaS型で利用できるサービスです。自社で音声合成用のServer構築や運用をする必要がないため、WEBサービスやスマートフォンアプリ、キャンペーン他、様々なサービスで手軽に音声合成を利用したサービスを開始することができます」と書かれてありました。
https://www.ai-j.jp/cloud
音声サンプルページ:https://www.ai-j.jp/about/
お試しページ1:http://cloud.ai-j.jp/webapi-demo/index.php
お試しページ2:https://www.ai-j.jp/cloud/webapi/

■HOYA株式会社 MD部門 ReadSpeaker

「ReadSpeakerは、数十の言語とリアルな音声を提供するグローバルな音声合成スペシャリストです。HOYAの業界をリードする独自の最新テクノロジーにより、さまざまな業界のチャネルやデバイスに幅広いアプリケーションを提供しています。オンライン、組み込み、サーバーまたはデスクトップや、アプリ、音声制作、カスタム音声などの市場で最も自然な音質の合成音声を実現しています。ReadSpeakerは次世代のディープニューラルネットワーク(DNN)テクノロジーを使用して、すべてのレベルで構造的に音声品質を向上させています」と書かれています。音質に定評があります。
製品ページ:https://readspeaker.jp/feature/
VoiceText WebAPIページ:https://cloud.voicetext.jp/webapi
サンプル音声:https://readspeaker.jp/samplevoice/

■ NTTコミュニケーションズ株式会社 COTOHA API

現時点で14タイプの話者が準備されていました。「NTTグループは40年以上にわたり自然言語処理をはじめとするさまざまAI関連技術(corevo®(コレボ))に関する研究を続けてきました。
その成果を集約し、法人向けサービスとして2016年10月、COTOHA® Virtual AssistantからCOTOHA® の歴史が始まりました。それ以降、翻訳、音声認識、音声合成、要約、映像解析など最新の技術を取り入れた新たなサービスを増やしていき、『コミュニケーションAI』によるさまざまな課題解決に取り組んでいます。」とのことです。
解析デモ: https://api.ce-cotoha.com/contents/demo/speech-synthesis.html

■TOSHIBA RECAIUS 音声クリエータ/音声合成サービス

こちらは、「2020年12月31日のAdobe社 Flash Playerのサポート終了とともにサービス終了」となったようです。「コエステ株式会社が提供する『コエステーション™ 法人向けサービス』をご利用ください」とアナウンスされていました。
https://www.toshiba-sol.co.jp/pro/recaius/lineup/creator.html

■コエステ株式会社 コエステーション・法人向けサービス

「Web API コエとセリフを指定するとコエステクラウドが音声合成処理しリアルタイムに音声生成
チャットボットや毎日情報が変わる天気予報の読み上げなど、あらかじめ音声を作り置きできず都度音声合成が必要なユースケースで利用するREST API。コエとセリフを指定してリクエストすれば、コエステーションのクラウドで音声合成処理が行われ、音声データがリアルタイムに取得できる」と書かれています。
製品ページと音声サンプル:https://coestation.jp/business/

ミドルウェアによる音声合成

Windows, Mac, Linux 用の音声合成プログラムは、非常に多くの製品が発売されています。音声品質、合成スピード、価格などでそれぞれの特徴がありますので、必要になっているソリューションをよく探すことが必要です。現在は、OS自体にも音声合成の機能が含まれていますので、場合によっては、OSの機能そのものを使用するだけで要件が事足りる場合さえあるかもしれません。さらにオープンソースで音声合成プログラムも
公開されています。下記のような公開されているプログラムの実力を検証し、そこをベンチマークとして、「商用製品はどこがすごいのか」を理解することにもメリットがあります。

公開されているオープンソースの音声合成

既に過去のものとなっているプロジェクトもあります。

■ OpenJtalk(オープンジェイトーク)

日本語テキストを準備すると、それを音声ファイルにしてくれるところまでがパッケージになっている、大変使用しやすいプログラムです。弊社でも、コールセンター用にPBXの中で動作させて音声ファイルを作らせる実験などを過去にもテストしたことがあります。
プロジェクトページ:http://open-jtalk.sourceforge.net/
デモページ:http://open-jtalk.sp.nitech.ac.jp/index.php

■ eSpeak(イースピーク)

プロジェクトページ:http://espeak.sourceforge.net/

■ Festival(フェスティバル)

プロジェクトページ:http://festvox.org
デモページ:http://festvox.org/voicedemos.html

■ MBROLA

プロジェクトページ:https://github.com/numediart/MBROLA

オープンソースによるプログラムの品質にがっかりされたでしょうか。それとも、今後の発展を感じられたでしょうか?ではこちらはどうでしょう。

HSPnet

Qiita:https://qiita.com/kan-bayashi/items/536acaf165344a6d6460
デモ:https://colab.research.google.com/github/espnet/notebook/blob/master/espnet2_tts_realtime_demo.ipynb
ソースコード:https://github.com/espnet
論文:https://arxiv.org/abs/2004.10234
Slideshare: https://www.slideshare.net/JiroNishitoba/20180609-chainer-meetupespnet
ハッカソン:https://www.youtube.com/watch?v=4u1U0gZoi8M

Mozilla TTS

プロジェクトページ:https://github.com/mozilla/TTS
サンプルページ:https://erogol.github.io/ddc-samples/

WaveRNN

プロジェクトページ:https://github.com/fatchord/WaveRNN
サンプル:https://fatchord.github.io/model_outputs/

今後も、音声合成に関する研究は大きく発展していきそうです。
コールセンターでの音声合成については、お気軽にCBAにお問い合わせください。