しかし、ウォール街のヘッジファンドが何十億ドルも投じて、一般的な人工知能?まさにそれが彼がやったことだ ハイフライヤー、研究開発部門全体を ディープシーク 2023 年。米国の制裁前に蓄積された GPU の山を抱えて、創業者は リャン・ウェンフェン は 30 歳未満の研究者と極端な最適化に賭けています。
「私たちが求めているのは目先の利益ではなく、世界で最も難しい質問への答えです。」 前記 梁さん。
この哲学の結果は、 ディープシーク-R1、数学と論理において OpenAI o1 を上回るオープンソース モデル。 リソースの 1/10 ラマ 3.1 による。秘密は? 「必然性のある美徳を作る」、彼は説明する マリーナ・チャン デル 'シドニー大学。最先端の Nvidia チップにアクセスすることなく、DeepSeek はモデル アーキテクチャに革命を起こし、アルゴリズムを作成しました ジャズオーケストラのようにコミュニケーションを取り、楽器は少なく、ハーモニーは最大限に保たれています。 そして今、彼らは金持ち(そして高価な人々も)を震え上がらせています エネルギー資源の観点から)西洋AIの世界。
若き天才と愛国心:秘密の(そして少しアナーキーな)レシピ
一方、Google とメタ 彼らは退役軍人を雇います (そして海外からの才能)、DeepSeekは以下に焦点を当てています 北京と清華大学を卒業したばかりの者: 金の給料ではなく、学業の栄光に飢えている頭脳。 「業界での経験がなくても、国際的な賞を受賞した人材を採用します。」と梁は認める。 成果を上げるアプローチ: チームが開発したのは、 多頭の潜在的注意力、テクニック これにより、メモリ消費量が 40% 削減されます。
「彼らは 70 年代のスタートアップのようなものです。資金は少なく、創造性はたくさんあります」と彼は言います。 ウェンディ・チャンのアナリスト メルカトル研究所. 「彼らはエンジニアリングのトリックを組み合わせました。カスタム通信スキーム、データ圧縮…既知のものですが、このように使用されたことはありません。」.
そして追加の材料があります: 技術的な愛国心. 「この世代は、中国が制裁にもかかわらずイノベーションできることを証明したいと考えている。」と張さんは付け加える。限界を踏み台に変える(多かれ少なかれ自発的な)考え方。
MLA と専門家の混合: OpenAI に勝つための DeepSeek の秘密兵器
DeepSeek-R1 はなぜこれほど効率的なのでしょうか? XNUMX つの主な要因:
- マルチヘッド潜在的注意 (MLA): 重要なパターンに注目し、冗長な計算を削減します。
- 専門家の混合: 必要なツールのみを使用する整備士のように、タスクに応じてニューラル ネットワークの特定の部分のみをアクティブにします。
- オープンソースです、少なくとも今のところ。 「それが西洋に追いつく唯一の方法だ」とチャン氏は説明する。 「世界中の貢献者を惹きつけ、モデルを改善し、エコシステムを構築します。」。勝利戦略: 2 か月で 20.000 人の開発者がコードを提供しました。
パンダのように消費するフェラーリのエンジンを搭載しているようなものです。 DeepSeek-R1 のトレーニングには費用がかかります 15万ドル に対して 150万ドル メタの。シリコンバレーを震撼させるギャップ。
米国の制裁?ブーメラン(たぶん)
米国が2022年に先端チップの輸出を阻止したとき、多くの人が中国のAIの崩壊を予測した。今のところ、DeepSeek は次のことを証明しています。 創意工夫はハードウェアに勝る. 「中国がその資源を使って何ができるかについての見積もりは修正される必要がある」とチャン氏は警告する。
中国人モデル?極端な最適化 + オープンソース + テクノロジー ナショナリズム。 「他国が追随すれば制裁の意味がなくなる」と張氏は結論付ける。一方、コードはオープンソースである可能性がありますが、DeepSeek は Wired の電子メール (ましてや当社の電子メール) には応答しません。
それについては必ず聞きます。