ビデオから唇を読み取ることができる人工知能と機械学習アルゴリズムは、実際には並外れたものではありません。
2016年に、グーグルとオックスフォード大学の研究者たちは、46,8%の精度で映画のリップリードと注釈を付けることができるシステムを詳述しました。 それはあなたにはほとんど見えませんか? それはすでにプロの人間の唇リーダーの12,4%の精度を上回っています。 そして、まだLIBSはありませんでした。
しかし、46,8%は、人工知能が今日示すことができる機能と同等ではありません。 最先端のシステムは、唇の動きのあいまいさを克服するのに苦労しており、その結果、そのパフォーマンスはオーディオベースの音声認識のパフォーマンスを超えることができません。
より高性能なシステムを求めて、 アリババ、浙江大学、スティーブンス工科大学 彼らは吹き替え法を考案しました リップバイスピーチ(LIBS)、音声認識から抽出された特徴を使用して補足的な手掛かりとして機能します。 システムはさらに8%バーを上げ、それでも改善できます。
LIBSおよび他の同様のソリューションは、聴覚障害者が字幕なしで動画をフォローするのに役立つ場合があります。 世界中で466億5万人が難聴に苦しんでいると推定されています。これは世界の人口の約XNUMX%です。 世界保健機関によると、2050年までに、その数は900億人を超える可能性があります。
唇を読むためのAIメソッド
LIBSは、いくつかの要因から有用なオーディオ情報を導き出します。熟練した暗号技術者のように、AIは理解可能な単語を探します。 その時点で彼はそれらを唇の対応と比較し、すべての類似した不安定なものを探しに行きます。 しかし、それだけではありません。これらのフレームのビデオ周波数と他の技術的な手がかりを比較して、耳に理解できない言葉でも唇を読むように検索を絞り込みます。
複雑に思われる場合は、もう一度お試しください。ただし、何も約束しません。
から引用 テクノロジープレゼンテーションペーパー。 「音声認識コンポーネントとLIBSリップリーダーコンポーネントはどちらも、入力をシーケンス(オーディオまたはビデオ)にマップする機械翻訳の方法である注意ベースのシーケンスシーケンスアーキテクチャに基づいています。
研究者たちは、BBCが話す45.000を超えるフレーズを含む最初のデータベースと、中国語が100.000万以上の自然なフレーズで読める中国語最大のコーパスであるCMLRでAIをトレーニングしました。
応用分野は聴覚障害者の支援に限定されません。 「社会的に高貴な」使用を各技術に帰する習慣は、これらの技術の主な使用が軍事または安全保障部門であるということを決して忘れてはなりません。
このシステムがセキュリティの監視をさらに確実かつ広範にすることができると誰も考えていません 驚くべき新しい防犯カメラ、または新しい衛星システム?
AIを使用して、 全知眼 聞くのは冗談になります(または再構築)軌道周回衛星からさえささやきます。