コールセンターで便利なフリーウェア・シェアウェア【3】- 機械学習による驚きのノイズキャンセリング・音声復元技術 "Krisp"

コールセンター/コンタクトセンターのオペレータにとって、お客様の声をはっきり聞き取るというのは業務の生命線、死活問題です。もし「お客様の後ろの騒音をきれいに消してくれる」アプリがあるとしたら、それは夢のような理想的なツールになります。早速下記のURLから試してみましょう。~~「現在のところ」無料でベータ版を~~ダウンロードして試すことができます。（~~ただし 2018年12月6日現在、Macバージョンのみです。Windowsバージョンは現在準備中だそうです。~~2019年6月に Windows版もリリースされました！）

———————————————————-

Krisp is in Public Beta. Download it for free.

https://krisp.ai/download.html

———————————————————-

実際にどれほどの威力があるのかは下記の動画でご覧ください。

また、サンプルページが下記にあります。こちらでもインタラクティブに技術を確認することができます。弊社内でもみんなで大騒ぎして、Microsoft TeamsやSkypeで試して、「ノイズが消えた！！」と驚いていました。

https://2hz.ai/samples/index.html

開発者用にはAPIもあるようです。

https://2hz.ai/api/index.html

いったいどんな技術を使っているのだろうと興味がわきますが、Blogを見るとかなりの情報量で説明が掲載されています。ディープラーニングを使用したアルゴリズムになっているようです。

・リアルタイムにワイドバンド音声に広げる技術（サンプルあり）

https://2hz.ai/blog/hd-voice-playback/index.html

・パケットロスを修復する技術（サンプルあり）

https://2hz.ai/blog/fixing-voice-breakups/index.html

・ノイズキャンセリングの技術（このページの最後に少し出てきます。）

https://blog.2hz.ai/2018/03/13/noise-cancellation-state-of-the-art/

復元技術については、8kHzのwavファイルを使ってパワースペクトルを計算し、ディープラーニングを通して 16kHz 音声を復元している、ということのようです。Batch Normalizationや過学習を抑制するDropOutを使用。活性化関数ReLU、深層学習の勾配法にAdamを使用していることなども書かれています。”Process of the real time wideband audio reconstruction”とありますね。

処理パフォーマンスとしては、AWSのインスタンス上で、1CPUあたり20同時8kHz音声を処理でき、GPUの場合には2000同時音声まで処理できるそうです。

・NVIDIAでの記事

https://devblogs.nvidia.com/nvidia-real-time-noise-suppression-deep-learning/

Disclaimer:

・コールセンターで便利に利用できるツールをご紹介しておりますが、弊社が開発元ではございません。ソフトウェアに関するご質問等は各開発元にご連絡を取っていただくようお願いいたします。

・コールセンターごとに運営ポリシーが異なるため、拠点によっては使用が禁止されているかもしれません。ご利用の際には拠点の情報システム部などにご相談の上、インストールされるようお勧めいたします。

・弊社ではコールセンター機器・電話システムの構築・開発などを手がけております。こういったことが業務として可能か、といったご相談はどうぞお気軽にコミュニケーションビジネスアヴェニュー（CBA）までご相談ください。

コールセンターで便利なフリーウェア・シェアウェア【3】- 機械学習による驚きのノイズキャンセリング・音声復元技術 “Krisp”

Disclaimer:

執筆者