「これは私の声です。少なくとも、そうでした。今ではそれもアルゴリズムに属しており、言っていないことを言わせることができます。」。 SF小説の始まり?いいえ、合成の噂の拡散によって迫りくるシナリオです。いくつかの音声サンプルから始めて私たちの声を複製できるテクノロジー。 音声エンジン OpenAIによる。野心的なプロジェクト、 提示されたばかり、エンターテインメント、教育、ヘルスケアなどの分野に革命を起こすことが約束されています。しかし、それはまた、人工知能の時代における私たちのアイデンティティの制御に関する憂慮すべき疑問も引き起こします。
デジタルエーテルで盗まれた音声
将来、あなたの声はあなたのものではなくなります。誰でも数回クリックするだけで、何でも発言させることができる世界になります。言葉は決して語られず、意見は決して表明されず、秘密は決して明らかにされませんでした。合成音声の進歩によって地平線に現れるディストピアの悪夢。
念のため言っておきますが、次の可能性があります 人工音声を生成する それは何も新しいことではありません。何十年もの間、テキストを音声に変換できるソフトウェアが存在していましたが、多かれ少なかれ機械的で不快な結果が得られました。しかし、AI の新たなフロンティアは、ゲームのルールを変えることを約束します。巨大なデータセットとニューラル ネットワークを活用したますます洗練されたアルゴリズムは、人間の音声の微妙なニュアンスを模倣することを学習し、完璧に近づいています。音色、イントネーション、リズム、ポーズなど、声をユニークで認識しやすくするすべての要素が、今や機械の手に届くところにあります。
音声エンジン OpenAI はこのトレンドの最新の化身です。モデル わずか 15 秒の非常に短いオーディオ サンプルから、リアルで自然な音声を生成できます。 つい最近まで SF だったシナリオを切り開く、小さな不思議 (見方によっては小さな恐怖) です。
音声エンジン: ボーカルの交響曲か、それとも人工的な不協和音か?
潜在的な応用分野は多岐にわたり、魅力的です。 エンターテインメント業界について考えてみましょう。 合成音声を使用すると、俳優はレコーディング スタジオで何時間も費やすことなく、アニメ映画やビデオ ゲームのキャラクターに声を貸すことができます。声優は機械翻訳に頼って、知らない言語で仕事をすることもあります。オーディオブックは、さまざまなアクセントやスタイルを表す、表現力豊かで魅力的な音声でナレーションできます。
そして医療についてはどうでしょうか? Voice Engine などのツールのおかげで、言語や発声の問題に苦しんでいる患者は、自然でパーソナライズされた音声を見つけることができます。目の見えない人や読むのが困難な人は、音声に変換されたテキスト コンテンツに簡単にアクセスできるようになります。音声アシスタントがあらゆる言語で流暢に話すことができれば、言語の壁は取り払われる可能性があります。
教育的可能性については言うまでもありません。 合成されたリアルな音声で話すことで外国語を学習したり、自分の声で仮想講師から添削フィードバックを受けたり、カスタマイズ可能な多言語教育コンテンツを作成したりできます。チャンスは無限であり、魅力的です。
しかし、どのメダルにも欠点はあります。
ディープフェイク時代の音声のアイデンティティ
最初の最も明白なリスクは、誤った情報と操作のリスクです。 オーディオ用の Voice Engine などのツールを使用すると、 ソラさんの動画です、誰もが公人や民間人の偽だが信頼できるクリップを生成することができます。偽造の政治的演説、でっち上げられた発言、強要された自白。フェイクニュースは合成音声という強力な味方となるだろう。メディアや組織に対する不信感がすでに顕著になっている時代において、自分の耳で聞いたことさえも信頼できなくなるのは恐ろしいことです。
次に、プライバシーと個人の生体認証データの制御の問題があります。 私たちの声は、指紋や網膜と同様に、私たちのアイデンティティの特徴です。しかし、他の生体認証データとは異なり、私たちの知らないうちに取得したり複製したりするのは比較的簡単です。おそらく電話や公開ビデオから盗まれた数秒の録音は、音声エンジンのようなアルゴリズムに供給するのに十分です。そして出来上がり、私たちの声はもはや私たちのものではありません。それを防ぐために私たちが何もできないにもかかわらず、それは使用され、悪用され、文脈から切り離される可能性があります。
OpenAI はこれらのリスクを認識しており、責任あるアプローチで対処しようとしていることに注意してください。音声エンジンをテストするパートナーは、厳格な倫理ガイドラインに従う必要があります。つまり、同意のない本物の人の模倣は禁止、音声提供者からの明示的な許可は許可、合成音声の人工的な性質については最大限の透明性を確保する必要があります。これらは正しい方向への一歩ではありますが、問題の根本を解決するものではありません。
なぜなら、この問題は結局のところ、技術的なものである前に哲学的なものだからです。それは、ますます媒介され人工的になっている世界における自己の表現として、また本物であることの証としての声と私たちの関係に関係しています。それは、私たちが個人の独自性と自主性を大切にすること、そしてそれらがディープフェイクと流動的なアイデンティティのぼやけた海に溶け込んでいくのを見ることへの恐怖についてです。
音声エンジン: 未来には (まだ) 音声がありますか?
これらの質問に直面すると、ラッダイトの拒否の誘惑になる可能性があります: 合成音声を「倒錯的な」技術とみなし、合成音声を沈黙させ、「自然な」音声の推定される純粋さに逃げ込む。しかし、それは短絡的で逆効果な反応でしょう。合成音声は、他のテクノロジーと同様、それ自体に良いも悪いもありません。それは私たちがそれをどのように使用するかによって決まります。
したがって、課題は、共通善に向けて開発を方向付ける倫理的および規制の枠組みを構築することです。音声データの取得と使用のための共有標準とプロトコルを定義します。合成音声のリスクと機会に対する国民の意識を高め、方向性を定めるための重要なツールを提供します。音声を認証し、音声コンテンツの出所を追跡するための信頼できる方法の研究に投資します。これらの問題について、すべての利害関係者を巻き込んで、情報に基づいたオープンな議論を促進します。
それは簡単な、あるいは短い旅ではないでしょう。それにはビジョン、決意、そして協力の精神が必要です。しかし、ここで問題となっているのは技術的なことだけではないため、これは必要な道です。それは実存的なものです。それは、現実と仮想の間、本物と人工の間の境界がますます曖昧になり、浸透しつつある世界における私たちの個性の意味そのものに関係しています。
私たちの魂の音の鏡である声が、合成エコーの渦の中で失われる危険がある世界。
「音声エンジン、OpenAI がわずか 1 秒の音声で音声を複製」 への 15 件のコメント
コメントは締め切りました。