見出し画像

Web会議ツールRemoteMeetingのPMに聞いた!「Web会議は音声が重要🔑」

簡単・使いやすさが人気のWeb会議ツール「RemoteMeeting (リモートミーティング)」を作っている中の人はどんな人?🤔本日は、開発部門を牛耳っている(😂) 担当PMにインタビューをしてみました!

コロナの終息によりWeb会議の利用は減少傾向にあるといわれていますが、ビジネスチャットやメールと共に、重要なビジネスコミュニケーション手段であることに変わりはありません💡企業では本社・支社間や工場などの生産現場、取引先との会議に、また公共機関でもDX推進の一環として採り入れられています。Web会議のベンダー各社では、AIやアバターなど様々な新技術をいち早く取り入れ、開発を進めるなど競争がさらに加速しています。

”Web会議”ー 違う言い回しで「ビデオ会議」「テレビ会議」‥とも呼ばれますが、この名称だけでみると「映像」が最も重要だと思われがちです。しかし、Web会議ツール「RemoteMeeting」の開発に携わるプロダクトマネージャー (PM) は、最も基本となるもとは「音声」であると語っています🤔。なぜ映像ではなく「音声」なのか、その理由をインタビューを通して探ってみたいと思います🔥

Web会議は、映像より音声が重要!
音声認識99%、遅延ゼロを実現しました 

👨リモートミーティングの中の人

Q. Web会議で「音声」が重要な理由は?

Web会議ツールを比較するとき、差が出るのは、意外にも映像ではなく「音声」です。映像の品質はWeb会議というソフト面よりも、ウェブカメラなどハード面に大きく依存します。Web会議時は相手の顔を見る時間よりも画面上の資料を見ることの方がはるかに多いため、相手の顔がどれだけよく見えるかはあまり重要ではありません。たとえ画面が止まったり、相手の顔が見えなくなってしまっても、声さえ聞こえていれば、会議を続けることができるからです。
コロナによる緊急事態宣言の期間中、多くの方がWeb会議を利用するようになりましたよね。そこで毎回、お馴染みの「聞こえてますか?」からWeb会議がスタートし、最初の数分間はお互いの声が聞こえるかどうかを確認するのに費やしていたのではないでしょうか?そして本題に入る頃になると、2~3人が同時に発言し「音声が重なる」状況が発生します。音声の遅延も問題です。
誰かが話した内容が遅れて伝わり、その間に他の人が話し始めると、二人の話し声が重なるためコミュニケーションが難しくなってしまいます。 人間の脳は40分の1秒までも感知できると言われています。そのためWeb会議中に音が聞こえなかったり話し声が混ざったりすると、私たちの脳は自動的に「何が問題なのか」原因を探そうとします。1~2時間という長丁場の会議中にこのような状況が何度も繰り返されると、私たちの脳はそのたびに緊張して疲れ果ててしまいます。疲れによる集中力の低下は会議の効率も下げてしまうでしょう。
コミュニケーションという側面から見ると、相手の声をどれだけ鮮明に遅れることなく伝えることができるかが、Web会議の性能を決定する「技術的な違い」と言えます。Web会議の開発者が音声品質の改善に熱心に取り組んでいる理由もここにあります。製品の品質と性能を左右するのは、風変わりで面白い機能よりも地道なオーディオ技術であることを知っているからです。

Q. では、「RemoteMeeting」の音声品質はどの程度?

RSUPPORTのWeb会議「RemoteMeeting」はリリース当初から、他のWeb会議製品と比較しても遜色ない音声品質を提供してきました。しかし、RemoteMeetingの開発チームはこれに満足せず、技術開発を続けてきました。最新の独自テストの結果によると、従来に比べて音声の聞き取りやすさが最大で90%向上しています。音声遅延も従来から3秒以下と業界最高レベルでしたが、現在はほぼゼロ (0秒) です。二人が同時に発言すると、一人の声が消失してしまう現象も解決されました😃

Q. 音声品質向上のためにどのような開発を行っているか?

新しい技術の開発だけでなく、Web会議に最適な技術を探し適用することが重要です。RemoteMeetingはWebブラウザで行う会議で高い音声品質を提供するために、特定の技術に集中するのではなくさまざまな技術のメリットとデメリットを比較して融合する方式で技術開発を続けています。

Q. さまざまな技術のメリットとデメリットを比較して融合する方式とは?

RemoteMeetingのように100人以上が同時に接続する、Web(WebRTC)基盤の会議で安定した運用を実現するにはサーバの構造が重要です。Web会議のサーバー方式は、P2P(Peer to Peer)方式、SFU(Selective Forwarding Unit)方式、MCU(Multipoint Control Unit)方式の3つに大きく分けられます。 それぞれのメリットとデメリットについて簡単に説明します。
まず、P2P方式はサーバを利用せずクライアント(会議参加者)同士を直接接続するため、サービス提供企業はサーバ費用がかからないというメリットがあります。その反面、会議参加者のPCには多くの負荷が発生します。Z社製品で採用されているSFU方式は、中央サーバが各クライアントのメディアストリームを中継し、接続されているクライアント数に応じて映像や音声をデコードするため、クライアントPCのリソース使用量が増加すると、スムーズなWeb会議が難しくなってしまいます。Z社製品が会議中、1画面に表示できる人数を25人に制限しているのもこのためです。
MCU方式はサーバリソースを活用して各クライアントの負担を軽減する方式で、通常はクライアントの映像を1つにミキシングしますが、会議参加者が多い場合は2~3グループに分けてミキシングして大規模接続を処理します。RemoteMeetingは当初、MCU方式を採用していましたが、現在はSFU方式とMCU方式を合わせたSFU-MCU混合方式でサービスを提供しています。

Q. RemoteMeetingのSFU-MCU混合方式について教えてください!

MCU方式の長所である映像と画面構成にSFU方式の長所であるオーディオ性能を加えたハイブリッド方式です。MCU方式はすべての参加者を1画面に表示できるなど、映像や画面構成では優れていますが、中央サーバにアップロードした映像と音声ストリームをミキシングした後、クライアントのデータを考慮してエンドポイントに伝達するためオーディオの遅延が発生してしまうことがあります。一方、SFU方式は接続したクライアント数の映像と音声をデコードするため、過負荷になりやすいデメリットはありますが、中央サーバでミキシングせずに直接エンドポイントに伝達するため、よりクリアな音声を利用できます。 MCU方式で設計されたRemoteMeetingの映像や画面構成などはそのまま、オーディオだけをSFU方式に切り替えるのは予想以上に難しい作業でした。例えば、従来のMCU方式では中央サーバで映像と音声をミキシングするためシンクの問題ありませんでしたが、音声だけをSFU方式に切り替えると、音声は自動的にそのままエンドポイント伝達され、映像は中央サーバでミキシングされるため、シンクを合わせる作業が必要でした。何度も試行錯誤と多数のテストを経て、革新的なレベルの音声改善を達成することができました。

Q. 最後にRemoteMeetingのPMとして伝えたいこと

RemoteMeetingは会議参加者の画面共有・遠隔操作による共同作業と生産性向上に役立つ機能をはじめ、3Dアバター、バーチャル背景など様々な機能を提供しています。このインタビューを通して、RemoteMeetingを開発したRSUPPORTがWeb会議の「基本」であり最も重要な音声環境向上のためにどのような努力をしてきたか少しでも知っていただけると嬉しいです😊!

そして、音声検出(Voice Activity Detection, VAD)技術により、Web会議時の音声がさらに聞き取りやすくなる「ノイズ除去」、STT(Speak to Text)技術により発言内容を自動でテキスト化する「AI議事録」機能もおすすめです。会議への集中度や生産性のアップを実感できるWeb会議 RemoteMeetingをぜひお試しください!

AI議事録・AIサマリー機能

Web会議ツール RemoteMeeting 製品サイトはこちら👇
ぜひ、無料で体験してみてくださいね😄

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?