AIと機械学習アルゴリズムは、動画内のアクションの予測に優れています。
現在の最良のアルゴリズムは、野球が投げられた後にどこに行くか、または次のシーケンスでの道路の外観を非常に正確に予測できます。 言い換えると? 映画の将来のフレームを予測します。
グーグル、ミシガン大学、アドビの研究者が提案した新しいアプローチは、数フレームから高品質のビデオを生成する大規模モデルで最先端の技術を進歩させます。
「このプロジェクトでは、正確なビデオ予測を取得することを目指しています。 ニューラルネットワークの機能を最適化します "、 研究者が書いた 文書 彼らの仕事を説明しています。
チームモデル
チームのコアモデルは、確率的ビデオ生成アーキテクチャに基づいています。 検討されたフレームに続くフレームの予測を管理するコンポーネントを使用します。
チームは、XNUMXつの予測カテゴリに基づくカスタムデータセットとは別に、モデルのさまざまなバージョンをトレーニングおよびテストしました。 オブジェクト間の相互作用、構造化された動き、部分的な可観測性。
最初のタスク (オブジェクトとの相互作用) 研究者らは、タオルとの相互作用中にロボットアームを示すビデオのブロックから256のクリップを選択しました。
XNUMX回目 (ストラクチャードムーブメント) 彼らは、椅子に座るなどのアクションを実行する人間のクリップを含むブロック、Human 3.6Mのクリップを編集しました。
第三は (部分的な観測活動)、車のダッシュボードに取り付けられたカメラの映像から収集されたオープンソースのKITTI運転データセットを使用しました。
この「トレーニング」の後、AIモデルは将来最大25フレームを生成しました。
研究者は、「予測」は、評価者がそれぞれ90,2種類のビデオ(オブジェクト間の相互作用、構造化された動き、部分的な観測タスク)に対して98,7、99,3%、XNUMX%の時間を好んだと報告しています。それぞれ。
定性的に、チームはAIが人間の腕と脚をきれいに表しており、 「ビデオで表現されたシーンと比較して現実的に見えた非常に正確な予測」 .
「そのようなモデルの容量を最大化すると、ビデオ予測の品質が向上することがわかりました。」 共著者は書く。 私たちの仕事が、この分野が将来同様の方向に進むことを促進することを願っています。 たとえば、どこまで行けるかを確認します。