AudioLMは、Google の研究者によって開発されたシステムであり、あらゆる種類の音を生成します。これには、曲のピアノ音楽や話している人のような複雑なものが含まれますが、最初に送信された断片とほとんど区別がつきません。
この手法は非常に有望であり、多くの点で役立ちます。 たとえば、人工知能のトレーニング プロセスを高速化したり、ビデオに付随する音楽を自動的に生成したりできます。 しかし、それだけではありません。
もう一度プレイして、サム
私たちはすでに、人工知能によって生成された音声を聞くことに慣れています。 Alexa や Google Nest と毎日格闘している人なら誰でも、音声アシスタントが自然言語を処理することをよく知っています。
確かに、音楽で訓練されたシステムもあります: ジュークボックス OpenAIによる? ここでそれについてお話しました。 ただし、これらのシステムはすべて、多くの「アイデア」のカタログ化と管理を通過する、長く複雑な「トレーニング」に基づいています。 私たちの人工知能はデータに飢えており、ますます多くのデータを求めています。
次のステップは、長いトレーニングを必要とせずに、聞いた情報をより迅速に処理できるようにすることで、AI に「考える」ようにすることです。 自動運転システムでやろうとしていることと似たようなことです。
AudioLM の仕組み
オーディオを生成するために、数秒間の曲またはサウンドが AudioLM に入力されます。AudioLM は、次に来るものを文字通り予測します。 それはシャザムではなく、作品全体を探して再提案するのではありません。 彼は記憶にある音のコラージュを作りません。 彼はそれらを構築します。 プロセスは方法に似ています 言語モデル GPT-3 と同様に、フレーズや単語を予測します。
Google チームがリリースしたオーディオ クリップは、非常に自然に聞こえます。 特に、AudioLM によって生成されたピアノ音楽は、現在の人工知能によって生成されたものよりも流動的です。 言い換えれば、彼は私たちが歌や音を生み出す方法を捉えるのが得意です。
「特に、これらのシステムがある種の階層構造を学習していることを示しているという点で、これは非常に印象的です」と彼は言います。 ロジャー・ダンネンバーグ、カーネギーメロン大学のコンピューター生成音楽の研究者。

歌だけじゃない
AudioLM と XNUMX 語で話すと想像してみてください。 システムは、リズム、アクセント、一時停止、さらには呼吸を学習して、スピーチを続けます。 要約すると、まさにあなたの話し方です。 特別なトレーニングを行う必要はありません。ほとんど一人で行うことができます。
聞いたことを繰り返すオウムのように。 これだけが、あらゆる音を受け取って発し、途中で残った音を自律的に完成させることができるオウムです。
要約すれば? 私たちは、より自然に話すことができ、歌や音をまったく同じように構成することができるシステムをすぐに(そしてこれらの場合は非常にすぐに意味する)持つでしょう。 ドールE2、MidjourneyAI などが画像を作成する、または ビデオを作ります 入力に基づいてクリップを作成します。
曲の権利は誰のもの?
これらのシステムは、ほぼ単独でコンテンツを作成できますが、それでも「ほぼ」それが世界にすべての違いをもたらし、この技術の倫理的影響を考慮する必要があります.
もし私が「ボヘミアン・ラプソディの別のエンディングを作ってくれ」と言って、これがその線に沿った曲を作るとしたら、誰が権利を主張し、その曲から印税を徴収できますか? 言うまでもなく、今や人間のものと区別がつかなくなった音声やスピーチは、はるかに説得力があり、前例のない偽情報の拡散にさらされています.
この AI を提示するために公開された文書では (ここにリンクします)、研究者は、AudioLM で生成された音と自然な音を区別する方法を挿入することで、これらの問題を軽減する方法を既に検討していると書いています。 私はほとんど信じていません。 この AI が作成された目的の多くは失われます。
より一般的に言えば、リスクは、私が「現実への不信」と呼ぶ現象を生み出すことです。 すべてが真である場合、何もあり得ません。 何も価値がありません。