AudioLM、GoogleのAIは曲の断片を聞いて完成させます

ジャンルカリッチョ

10月8 2022

技術

新しい AI システムは、音声または歌を数秒間聞いた後、音から音楽 (および言葉) を作成することができます

AudioLMは、Google の研究者によって開発されたシステムであり、あらゆる種類の音を生成します。これには、曲のピアノ音楽や話している人のような複雑なものが含まれますが、最初に送信された断片とほとんど区別がつきません。

この技術は本当に有望であり、さまざまな方法で役立つ可能性があります。たとえば、人工知能のトレーニングプロセスを高速化したり、ビデオに付随する音楽を自動的に生成したりできるようになります。しかし、それはそれだけではありません。

もう一度プレイして、サム

私たちはすでに人工知能によって生成された音声を聞くことに慣れています。 Alexa や Google Nest と毎日口論している人はよくご存知でしょう。Google の音声アシスタントは自然言語を処理します。

確かに、音楽で訓練されたシステムもあります: ジュークボックス OpenAIによる？ここでそれについてお話しました。ただし、これらのシステムはすべて、多くの「キュー」のカタログ化と管理を含む、長く複雑な「トレーニング」に基づいています。私たちの人工知能はデータに貪欲で、常にさらに多くのデータを求めています。

次のステップは、長時間のトレーニングを必要とせずに、AI が聞いた情報をより迅速に処理できるようにすることで、AI に「思考」させることです。私たちが自動運転システムでやろうとしていることと似ています。

AudioLM の仕組み

オーディオを生成するには、数秒間の歌またはサウンドが AudioLM に供給され、文字通り次に何が起こるかを予測します。 Shazam ではありません。曲全体を検索して再生するわけではありません。彼は記憶の中にある音をコラージュすることはしません。彼がそれらを構築します。このプロセスは私が行った方法と似ています言語モデル GPT-3 と同様に、フレーズや単語を予測します。

Google チームがリリースしたオーディオクリップは、非常に自然に聞こえます。特に、AudioLM によって生成されたピアノ音楽は、現在の人工知能によって生成されたものよりも流動的です。言い換えれば、彼は私たちが歌や音を生み出す方法を捉えるのが得意です。

「これは本当に印象的です。なぜなら、これらのシステムがある種の多層構造を学習していることを示しているからでもあります」と彼は言います。 ロジャー・ダンネンバーグ、カーネギーメロン大学のコンピューター生成音楽の研究者。

歌も音も、AIが全て奏でる — AudioLM は前例のない方法でサウンドを処理および予測します

歌だけじゃない

AudioLM に 2 単語話すだけで終わると想像してください。システムは、あなたのリズム、アクセント、間、さらには呼吸を学習することによってスピーチを続けます。要約すると、まさにあなたの話し方です。特別な訓練は必要ありません。彼はほぼ独力でそれを行うことができます。

聞いたことを繰り返すオウムのように。これだけが、あらゆる音を受け取って発し、途中で残った音を自律的に完成させることができるオウムです。

要約すれば？ 私たちは、より自然に話すことができ、歌や音をまったく同じように構成することができるシステムをすぐに（そしてこれらの場合は非常にすぐに意味する）持つでしょう。ドールE2、MidjourneyAI などが画像を作成する、またはビデオを作ります入力に基づいてクリップを作成します。

曲の権利は誰のもの？

たとえこれらのシステムがほぼ単独でコンテンツを作成できるとしても、それが「ほぼ」依然として世界に大きな変化をもたらすため、このテクノロジーの倫理的意味を考慮する必要があります。

私が「あの人、『ボヘミアン・ラプソディ』の違う結末を作ってくれ」と言って、その人がそれに沿った曲を作ったら、誰がその曲の権利を主張して印税を徴収できるのでしょうか？言うまでもなく、人間の音声と区別がつかなくなった音声や音声は、はるかに説得力があり、前例のない誤った情報の拡散を引き起こす可能性があります。

この AI を提示するために公開された文書では (ここにリンクします)、研究者は、AudioLM で生成された音と自然な音を区別する方法を挿入することで、これらの問題を軽減する方法を既に検討していると書いています。 私はほとんど信じていません。この AI が作成された目的の多くは失われます。

より一般的に言えば、そのリスクは、私が「現実への不信感」と呼ぶべき現象を引き起こすことです。すべてが真実であるならば、何も真実ではありません。何も価値がありません。

私たちは、人工知能がどのように変化を生み出すことができるかを考えながら、これらの変化に合わせて自然の知能を訓練しようとします。そうしないと、非常に苦い結末の曲ができてしまいます。

ジャンルカリッチョ、メランシアadvのクリエイティブディレクター、コピーライター、ジャーナリスト。イタリア未来研究所、世界未来協会、H+ の一部です。 2006 年以来、イタリアの未来学のリソースである Futuroprossimo.it を監督しています。

研究、発見、発明を報告するため、 編集チームまでご連絡ください！ Whatsapp で Futuro Prossimo をフォローしてください: 独占的なニュースと最新情報 (無料)。

ファット・クオティディアーノのFP
アルベルト・ロビアーティとジャンルカ・リッチョは、未来のシナリオ、つまり可能性のある明日を創造するために私たちが持つ機会、リスク、可能性を読者にガイドします。

同じトピックについて:

最後

AudioLM、GoogleのAIは曲の断片を聞いて完成させます

技術

シェア

もう一度プレイして、サム

AudioLM の仕組み

歌だけじゃない

曲の権利は誰のもの？

私たちは、人工知能がどのように変化を生み出すことができるかを考えながら、これらの変化に合わせて自然の知能を訓練しようとします。そうしないと、非常に苦い結末の曲ができてしまいます。

オーウェル・スーパーマーケット: 顔認識による買い物は再考する必要がある

VASA-1、Microsoft の AI がたった XNUMX 枚の写真から超リアルなキャラクターを作成

人間のアモデイ氏：「AIはまもなく自律的に複製して生き残ることができるようになるだろう」

プラスチックを無限にリサイクル：新しい高度なリサイクル技術

テスラ、神話に亀裂が入る：売上高の減少、自信の低下、照準を合わせるマスク

ガン、フロンティアテストは微量の血液滴で数分でガンを検出

シュリンクフレーション、フランスはこの慣行との戦いに身を投じる

古代の家畜化: 数千年前、キツネはペットでした