AudioLMは、Google の研究者によって開発されたシステムであり、あらゆる種類の音を生成します。これには、曲のピアノ音楽や話している人のような複雑なものが含まれますが、最初に送信された断片とほとんど区別がつきません。
この技術は本当に有望であり、さまざまな方法で役立つ可能性があります。たとえば、人工知能のトレーニングプロセスを高速化したり、ビデオに付随する音楽を自動的に生成したりできるようになります。しかし、それはそれだけではありません。
もう一度プレイして、サム
私たちはすでに人工知能によって生成された音声を聞くことに慣れています。 Alexa や Google Nest と毎日口論している人はよくご存知でしょう。Google の音声アシスタントは自然言語を処理します。
確かに、音楽で訓練されたシステムもあります: ジュークボックス OpenAIによる? ここでそれについてお話しました。 ただし、これらのシステムはすべて、多くの「キュー」のカタログ化と管理を含む、長く複雑な「トレーニング」に基づいています。私たちの人工知能はデータに貪欲で、常にさらに多くのデータを求めています。
次のステップは、長時間のトレーニングを必要とせずに、AI が聞いた情報をより迅速に処理できるようにすることで、AI に「思考」させることです。私たちが自動運転システムでやろうとしていることと似ています。
AudioLM の仕組み
オーディオを生成するには、数秒間の歌またはサウンドが AudioLM に供給され、文字通り次に何が起こるかを予測します。 Shazam ではありません。曲全体を検索して再生するわけではありません。彼は記憶の中にある音をコラージュすることはしません。彼がそれらを構築します。このプロセスは私が行った方法と似ています 言語モデル GPT-3 と同様に、フレーズや単語を予測します。
Google チームがリリースしたオーディオ クリップは、非常に自然に聞こえます。 特に、AudioLM によって生成されたピアノ音楽は、現在の人工知能によって生成されたものよりも流動的です。 言い換えれば、彼は私たちが歌や音を生み出す方法を捉えるのが得意です。
「これは本当に印象的です。なぜなら、これらのシステムがある種の多層構造を学習していることを示しているからでもあります」と彼は言います。 ロジャー・ダンネンバーグ、カーネギーメロン大学のコンピューター生成音楽の研究者。
歌だけじゃない
AudioLM に 2 単語話すだけで終わると想像してください。システムは、あなたのリズム、アクセント、間、さらには呼吸を学習することによってスピーチを続けます。要約すると、まさにあなたの話し方です。特別な訓練は必要ありません。彼はほぼ独力でそれを行うことができます。
聞いたことを繰り返すオウムのように。 これだけが、あらゆる音を受け取って発し、途中で残った音を自律的に完成させることができるオウムです。
要約すれば? 私たちは、より自然に話すことができ、歌や音をまったく同じように構成することができるシステムをすぐに(そしてこれらの場合は非常にすぐに意味する)持つでしょう。 ドールE2、MidjourneyAI などが画像を作成する、または ビデオを作ります 入力に基づいてクリップを作成します。
曲の権利は誰のもの?
たとえこれらのシステムがほぼ単独でコンテンツを作成できるとしても、それが「ほぼ」依然として世界に大きな変化をもたらすため、このテクノロジーの倫理的意味を考慮する必要があります。
私が「あの人、『ボヘミアン・ラプソディ』の違う結末を作ってくれ」と言って、その人がそれに沿った曲を作ったら、誰がその曲の権利を主張して印税を徴収できるのでしょうか?言うまでもなく、人間の音声と区別がつかなくなった音声や音声は、はるかに説得力があり、前例のない誤った情報の拡散を引き起こす可能性があります。
この AI を提示するために公開された文書では (ここにリンクします)、研究者は、AudioLM で生成された音と自然な音を区別する方法を挿入することで、これらの問題を軽減する方法を既に検討していると書いています。 私はほとんど信じていません。 この AI が作成された目的の多くは失われます。
より一般的に言えば、そのリスクは、私が「現実への不信感」と呼ぶべき現象を引き起こすことです。すべてが真実であるならば、何も真実ではありません。何も価値がありません。