こんにちは!AI研究所の石川です。
本日のtopicsは、株式会社オトバンクがサービスを開始した、独自のAI音声合成サービス「カタリテ」をご紹介します。
日本最大級の音声配信サービス「audiobook.jp」を運営する株式会社オトバンクは、株式会社PKSHA Technologyの音声関連技術をもとに、急激な需要拡大が見込まれるコンテンツの音声化に対応すべく、独自のAI音声合成サービス「カタリテ」を開発したことを発表しました。
本サービスでは、PKSHAが開発した自然な発音を再現するアクセント推定技術「tdmelodic」を初めて実用化しました。また、『日経電子版』と連携して、活字コンテンツの音声化に関する実証実験を行います。
「カタリテ」開発背景
オトバンクは、本を耳でも聴ける世の中を実現したいという想いをもとに、創業以来オーディオブックを中心とした音声コンテンツの制作・配信を行ってきました。音声コンテンツのニーズは加速し、運営する音声配信サービス「audiobook.jp」は、2021年6月に会員数が200万人を突破するなどユーザー数が急速に伸長しています。
この度、加速する音声化のニーズに対応するべく、アルゴリズム領域の最先端技術の開発からその応用までをワンストップで行うPKSHAと連携し、オトバンクの膨大な音声データを活用しながらクオリティの監修に制作ディレクターが関わるなど、双方の強みをかけあわせたAI音声合成サービスを開発するに至りました。
「カタリテ」概要
本サービスは、PKSHAの開発する最先端の音声合成技術に、オトバンクの保有するオーディオブック音声データベースを学習させることで実現したAI音声合成サービスです。音声合成技術を活用して、収録から編集に必要な制作時間を短縮し、即時性の高いコンテンツも適時に音声化し提供できる環境の実現を目指します。
「カタリテ」の特徴
・独自の音声関連技術に強みを持つPKSHAが開発した音声合成プラットフォーム「PKSHA Phonetics(フォネティクス)」を採用しました。さらにオトバンクのオーディオブックディレクターがチューニングを実施することで、より自然で聴き心地のいい音声を実現しています。
・「PKSHA Phonetics(フォネティクス)」独自のアクセント推定技術「tdmelodic」等により、一般的な音声合成ソフトウェアでは難しいアクセントの制御が可能です。「tdmelodic」を導入したサービスの実用化は、今回が初の取り組みです。
PKSHAは独自の波形特徴量生成技術「DCTTS」やアクセント推定技術「tdmelodic」を音声領域でのトップ学会の一つであるICASSPで発表するなど、音声分野にて最先端のアルゴリズムを開発しています。
・オトバンクが制作したオーディオブックをデータベースとし、抑揚や音色も人が聞き取りやすく長時間聞いても疲れにくいようにチューニングを行っています。
・語り手(朗読者)には、アニメーション作品や報道番組のナレーションなど幅広い作品で活躍する人気声優の浅野真澄さんを起用し、落ち着いた安定感のある声で音声化されます。
『日本経済新聞社』との実証実験について
オトバンクは、7月14日より、『日経電子版』と連携して本サービスの実証実験を開始しました。『日経電子版』の速報コーナーで配信された記事の一部を抽出し、その見出しから生成した音声コンテンツを、オトバンクが運営する「audiobook.jp」の聴き放題プランにて配信します。
・配信内容:AIナレーターのカタリテによる実証実験として、日経電子版で配信された速報ニュースの見出しを読み上げます。
・配信日:毎週月曜~金曜日の平日18時に更新します。
・配信場所:「audiobook.jp」聴き放題プランでの配信から開始します。
▼『AIナレータが読む、日経電子版 きょうの速報ニュース』サンプル
自然な発音を再現するアクセント推定技術を初の実用化した、独自のAI音声合成サービス「カタリテ」に注目です!