初めて、エンジニアとコンピューター科学者の国際チームが、無線周波数検出と人工知能を組み合わせて唇を読み取り、彼女の動きを識別する技術を開発しました。
今日の補聴器は、周囲のすべての音を増幅することで難聴の人々を助けます。これはいくつかの用途で役立ちます。 ただし、騒がしい環境では、これらのデバイスの幅広い増幅スペクトルにより、ユーザーが特定の音に集中することが難しくなる可能性があります。 例えばある人との会話。
「カクテルパーティー効果」として知られるこの問題の解決策の XNUMX つは、「スマート」な補聴器を作ることです。 従来のオーディオ増幅と、パフォーマンスを向上させるために追加のデータを収集する XNUMX つ目のデバイスを組み合わせた新しいデバイス。
読唇術特異点編
雑誌に本日掲載された新しい記事で ネイチャー·コミュニケーションズ (ここにリンクします)、グラスゴー大学が率いるチームは、最先端のセンシング技術を使用して唇を読み取ることを示しています。 彼らのシステムは、ビデオを悪用せずに無線周波数データのみを収集することによってプライバシーを保護します (したがって、少なくとも画像についてはプライバシーの問題はありません)。
システムを開発するために、研究者は男性と女性のボランティアにXNUMXつの母音(A、E、I、O、およびU)を最初にマスクなしで繰り返し、次にサージカルマスクを着用するように依頼しました. 彼らの顔は、専用のレーダー センサーと Wi-Fi 送信機からの無線周波数信号を使用して、口を閉じているときと発音中の両方でスキャンされました。
スキャンで収集された 3.600 のデータ サンプルを使用して、機械学習とディープ ラーニングのアルゴリズムを「トレーニング」し、特徴的な口の動きを認識して唇を読み取り、各動きを音に関連付けました。
その結果は?
システムは正解率を示した マスクしていない唇は95%、マスクした唇は83%。 印象的です。
医者 カメル・アッバシ ドキュメントの筆頭著者であるグラスゴー大学の教授が、行われた作業を示しています。 「世界人口の約 5%、430 億 XNUMX 万人が、 聴覚障害. 補聴器は、それらの多くに変化をもたらしました。 データを収集して音の増幅を改善する新しいテクノロジーは、決定的な一歩を踏み出す可能性があります。」
要約すると、この研究は、無線周波数信号、さらには Wi-Fi 信号でさえ、マスクで覆われていても唇を読み取ることができることを示しています。 このテクノロジーの「ネガティブな」使用法を熟考し、ポジティブな側面のみに焦点を当てることは、皆さんの想像にお任せします。
将来のマルチモーダル補聴器は、人々の間の違いを解消し、世界の難聴人口の 5% を他のすべての人と同じ「波長」(言うべきです) にもたらします。