ご存知のとおり、人工知能はここ数か月のテーマです。人工知能は爆発を始めたばかりで、その影響がすべて明らかになるのは今後数年間です。
Microsoft もこのテクノロジーの推進に携わっています。同社は最近、アプリの機能を向上させるために AI を使用しており、現在では ChatGPT を開発した OpenAI に 10 億ドルもの投資を行う可能性があります。しかし今日、マイクロソフトの別のプロジェクトについて聞きました。 谷、これは信じられないほどです。
この最先端のツールは、60.000 時間を超える英会話の膨大な音声データに基づいてトレーニングされています。レドモンドの会社によれば、「既存のシステムの数百倍」となるデータセットだという。付属 より高度なもの.
そして、VALL-Eは何をすることを学びましたか? 何も、ささいなこと。 たったXNUMX秒聞くだけで、誰の声も完璧に再現・真似します。
ボイスレプリケーター?
これだけではありません。 VALL-E は、音声人工知能の分野における真の革命です。それは、特定のサンプルに存在する感情、声のトーン、音響環境を驚異的な精度で再現するためであり、既存のテキスト読み上げシステム (TTS) と比較して大きな進歩であるからです。言い換えれば、VALL-E の声は人工知能の声よりも人間の声によく似ています。
彼のLinkedinプロフィールで (それを訪問)、デジタル戦略家 アルベルト・ジャコボーネ VALL-E e によって作成されたボーカル サンプルの小さなライブラリへのリンク オンラインにする GitHub プラットフォーム上で。その結果は驚くべきもので、多くのクリップで話者の声のイントネーションとアクセントが完璧に再現されています。
いくつかの例は説得力に欠けており、これは VALL-E がまだ完成品ではないことを示しています。しかし、全体的な出来は非常に説得力があり、言葉を失うほどです。
大きなリスク、大きな可能性
この技術が個人情報の盗難などの潜在的な悪用のリスクについて懸念を引き起こしていることは明らかです。 VALL-E は、実在の人物と見分けがつかない声のディープフェイクを作成できるようになり、多くのケースと方法で人々を欺くために使用される可能性があります。
この脅威に対抗するために、VALL-E プレゼンテーション ドキュメント (ここにリンクします) Microsoft は、実際の音声と合成音声を区別できる検出モデルの開発に取り組んでいると述べています。
しかし、(大きな)リスクにもかかわらず、VALL-E のようなツールは、事故後に人々が自分の声を見つけたり、より自然なポッドキャストやオーディオブックを簡単に作成したりするのに特に役立つ可能性があります。そして…いつものように、限界はあなたの想像力です。