TECH Meets BUSINESS
産業技術総合研究所が創出・支援するベンチャービジネス

音声を制する者が次世代ビジネスを切り拓く!
〜AIと音声認識技術の実用化〜

創業から約11年、 前回インタビュー から約6年が経過したHmcomm株式会社。音声認識に加えて新たに異音検知の事業を展開し、さらにデータ解析を加えたワンストップソリューションを目指しています。「音声」から「音」へとステージを上げ、価値の提供範囲を広げながら、音のスペシャリストとしてさらなる研究開発と事業開発に取り組んでいます。

三本幸司 /kouji mimoto

三本幸司/Koji Mitsumoto

Hmcomm株式会社 代表取締役CEO。神奈川県横浜市出身。富士ソフト株式会社で技術畑一筋。ここで多種多様なソフトウェア開発の魅力にはまる。2012年に独立してHmcomm株式会社を創業。2014年に産総研発ベンチャー称号認定を受け、音声処理と人工知能との融合に挑む。

音声認識から異音検知へ、さらにデータサイエンスの領域へ

音声認識から異音検知へ、さらにデータサイエンスの領域へ

― 前回インタビューからの6年間の変化について教えてください。

三本幸司さん(以下、三本):

創業当時から「音声認識を民主化しキーボードレス社会を創造する」というミッションのもと、産総研の音に関する技術や知財を活用して研究成果を社会実装する事業を行ってきました。そして次の事業として、人の身体やモノや動物が発する音の特徴量(データの特徴となる変数)を抽出して、異常を検知・解析・予測する異音検知の事業を立ち上げました。産総研発ベンチャーとして「音」から価値を創造する技術によって社会に貢献することを目指しています。

2017年に本社を移転し熊本AIラボを立ち上げ、2021年には大阪にも西日本支社を設立しました。これらの地方拠点でさまざまな分野の高度専門技術者を採用し、技術者の数は創業当時の倍になっています。その過程で、音声認識技術の延長線上にあるAI音声自動応答システム「Terry」を2020年に、新たな異音検知プラットフォームである「FAST-D」を2021年にリリースしました。2021年にはコロナ禍におけるオンラインミーティングを精度高く音声認識する「ZMEETING」もリリースしました。また、音声の認識・検知のみならず分析や予測や最適化までを行う「Hmcomm.Xi事業」を2022年から推進し、データサイエンス領域にまで価値の提供範囲を広げています。

― 事業を拡大されてきた中で感じた課題や大切なことは何でしょうか?

三本:

事業を推進していく上で資金が重要であることは、当時も今も変わりません。事業会社様と資本提携し資金を調達して研究開発を促進しながら、データをAIの学習精度向上に役立てて事業創出を図ることが大切です。事業会社様との強い密接度は、社会価値と市場を創造していくための我々が生きる道であり、資本提携先とのコラボレーションが成長の一歩と考えています。

資本提携にあたり当社の優位性や技術の専門性の高さを証明するには、ピッチイベントなどの受賞歴もひとつのエビデンスになります。そうしたイベントを産総研からご紹介いただいたり、産総研自体が開催する場に参加したりと、産総研発ベンチャーとして多くのチャンスをいただいております。また、NEDO、JST、東京都といった国家プロジェクトにも採択されました。我々の技術力を高く評価していただき、獲得した助成金をさらなる研究開発や事業拡大に活用しています。

― 産総研発ベンチャーとしての御社の優位性を教えてください。

三本:

初期の研究フェーズでは我々のリサーチャーが研究を進めて0から1を生み出し、そこからプロダクト化フェーズで、モデル開発評価などを1から10へ進め、さらに開発フェーズでは、事業会社様との提携によりデータを使った業務効率化やイノベーティブな実証を行います。そして事業化や社会実装がなされた保守運用フェーズではデータが蓄積し学習モデルの精度が高まることで初期の研究にフィードバックできます。このサイクルを循環させて価値を創造し、研究開発から社会実装へつなげる技術が当社の競争優位性だと考えています。

「自己完結率を強みとするAI音声自動応答、業界特化型SaaSの異音検知」

自己完結率を強みとするAI音声自動応答、業界特化型SaaSの異音検知

― 基盤技術の進化やソリューションについて教えてください。

三本:

当社の先端技術基盤は、音声認識・言語解析のVプラットフォーム、異音検知のFプラットフォーム、データ解析のXIプラットフォームの3つがあります。音声認識+データ解析、異音検知+データ解析とプラットフォームをミクスチャーすることで、認識・検知のみならず分析や業務の最適化などのアウトプットを行い、たとえば営業部門や製造部門といった現場の直接価値につなげます。

これらのプラットフォーム群はエンドユーザーのお客様が利用できるものではありません。そこでお客様がアプリケーションを起動することで先端技術基盤のさまざまな機能を活用できるようにしています。それが「VContact」「Terry」「ZMEETING」などのVシリーズ、「FAST-D」のFシリーズからなるアプリケーション群です。 前回インタビューでもお話しした「VContact」はお客様が希望する機能をマーケットイン型でバンドルしてきており、従来のビジネスモデルと大きくは変わっていません。コールセンターのオペレーターやスーパーバイザーといった人間をAIがアシストするソリューションで、着実に導入企業が増えています。

― 音声認識技術から派生した「Terry」について詳しくお聞かせいただけますか?

三本:

「Terry」は「VContact」の進化形となるAI音声自動応答ボットです。かかってきた電話を自動的に受けてお客様の応答処理をします。たとえば通販の受注処理や役所の住所変更など、ある程度問い合わせ内容が決まっている定型業務をAIが人間に代わって自動的に対応するというソリューションです。これまでコールセンターでの会話のデータを数多く蓄積し、言葉のキャッチボールを学習してボットに生かしてきました。チャットボットを導入している企業が音声ボットを提供するケースがありますが、それはテキストのやりとりをベースに派生したものです。「Terry」はVContactで蓄積してきた大量の音声データをベースにしているため対話破綻が少なく、お客様に違和感を与えることなくオペレーション処理ができます。

音声認識精度はBtoCであればAppleのSiriやGoogleで十分です。しかしBtoBにおいてはその高さがさらに求められます。たとえば製造番号やお客様番号を聞く場面で、英数字は聞き分けにくい。TなのかDなのか、難しい住所や名前も同様です。そういった部分を正しくチューニングして精度を上げるには、音声認識を自社開発していないと困難です。当社は産総研の技術をベースに自社開発しており「Terry」の音声認識精度はこれらの課題をクリアして問題なく、さらに最後まで人間のサポートを必要とせずに確実に電話対応を完了する自己完結率を強みとしています。技術だけでなく経験則も蓄積されており、どういうトークスクリプトで対応すれば自己完結率が向上するかという知見も有しています。

導入事例をいくつか紹介します。DINOS CORPORATION様の通販受注では、人間では対応できない1分間600コール近くの電話に対応し、受注機会損失の減少と売上増加の効果が得られました。ヤマダ電機様の夜間修理依頼受付は他の家電量販店との差別化につながっています。群馬県様保健所では、コロナ対策で帰国者へのヒアリング連絡を行っていた保険職員の業務負担を軽減。アパマン様の物件空室状況の確認、電力会社様の引越し受付業務にも導入いただいています。

─ 続いて異音検知プラットフォーム「FAST-D」について教えてください。

三本:

「FAST-D」は、音声認識において音声解析や処理や周波数特性分析などをする過程で得た知見・技術を生かして立ち上げました。背景雑音が多い環境でも、高精度での目的音抽出を行えるのが強みです。

プラットフォームはアルゴリズムやデータなどAIの技術基盤で構成されており、それをお客様が操作できるコンソールやウェブサイトなどで違和感なく扱えるように、SaaSモデルでどのような音もひとつのエンジンで解析できることを狙っていました。しかし、養豚場、医療現場、ビルメンテナンス現場などの音や背景雑音は全然違うんですね。ひとつのエンジンだと品質が上がらないため、Vertical SaaSとして業界ごとにモデルを分けて提供する形としています。

その成果事例として、たとえばパイプラインの詰まり予兆を検知したり、豚の咳音から呼吸器系疾患の兆候を検知したりと、熟練した職人に代わり検知を行っています。聴診器の音による人間や動物の心肺音異常検知、機器の音による機械室の異常検知、エレベーターなどモーター系駆動音の異音検知などの事例もあります。また、安川電機様の入間工場のモーター検査にも導入されています。

今後としては、いくつか展開を考えています。メンテナンス現場では異常検知や予測がある程度進んできたため、さらに非属人化や点検作業負荷の改善を深耕していきたいと考えています。国立精神・神経医療センター様との共同事業では、声の特徴量からうつ病や認知症の検知を行っており、音も診断のひとつとなっています。先ほど述べた聴診器の事例では赤ちゃんや妊婦さんの音も取れますので、このヘルスケアの領域で異音検知を発展できればと模索しています。たとえば医療サービスが十分に届いておらず、出産自体が大きなリスクを伴うような国はまだまだあります。海外展開を見据え、新興国市場で役に立つ製品開発を「FAST-D」の次のステップにしたいと個人的には思っています。

「FAST-D」は異音によって異常を捉え、点検・管理業務の効率化・省人化を支援する

「FAST-D」は異音によって異常を捉え、点検・管理業務の効率化・省人化を支援する

企業のDX促進や価値創出のワンストップソリューションを提供

― 音声や音を分析する「Xi」はどのような事業なのでしょうか?

三本:

異音検知は当社だけの専売特許ではありません。もっとお客様に我々の技術を使ってもらうためにスタートさせたのが「Xi事業」です。認識・検知は人間でいう耳や聴覚であり、そこに予測・最適化という脳の部分を加え、分析結果も含め、お客様に提供する事業モデルへと今大きく転換を図っています。

通販会社での需要予測で説明します。顧客接点のコールセンターで「Terry」や「VContact」の音声認識は、応対履歴のテキスト化やフォローコール、感情データの蓄積にとどまっていました。そこに「Xi」を組み込むことでVoC分析やAI分析により、顧客の傾向把握や需要予測を行い、デジタルマーケティングプラットフォームをアシストしていく形になります。そうしてビジネスモデルおよびプロダクトの価値を変化させながら社会実装を果敢に進めています。

Vシリーズ+Xi事例:通販会社での需要予測

Vシリーズ+Xi事例:通販会社での需要予測

― 今後の事業展開における展望を教えてください。

三本:

これまで当社は音声認識に主軸を置いてきましたが、時代とともに音声認識はブレイクスルーが起きており、ミッション・ビジョン・バリューを転換していかないといけないと考えています。例えばですが……ミッションはHmcommの名前の由来である「Human Machine Communication 人と機械が共存する社会を創造する」、ビジョンは「音からの価値創造に果敢にチャレンジし世の中の課題をNo.1に解決する音のプロ集団」として、「音声」から「音全域」へとステージを変えていきます。

当初は音声認識単体の事業、つまり産総研の技術移転事業でスタートしました。それをベースにした異音検知も商用化し、売上はまだ小さいですが社会実装を進められる状態にあります。今後は「音」のスペシャリスト集団として、音声認識・異音検知のみならず、データ解析を加えた音声認識+Xi事業、異音検知+Xi事業でDX促進や価値創出までのワンストップソリューションを目指していきます。

音声認識のVシリーズは、子供や老人の幅広い層はもちろん、なまりや方言といった超ドメスティックに特化した我々の純正エンジンがBtoBの現場で貢献するような事業戦略を持っています。異音検知については、言語の国境の壁がありません。もちろん環境は違いますが、たとえば日本の豚とアメリカの豚が発する音に違いはあまりありません。国内のみならず海外でもきちんとスケールしていくビジネスモデルを考えています。音声認識も異音検知もともに市場は拡大傾向にあり、マーケットポテンシャルを踏まえた事業展開を行ってまいります。

※本記事内容は令和5年4月1日現在の情報に基づくものです。

Hmcomm株式会社
〒105-0012
東京都港区芝大門2-11-1
富士ビル 5階
http://hmcom.co.jp/

Pickup注目の産総研発ベンチャー