Pembangunan DeepSeek AI berharga $ 1.6 bilion, membatalkan mitos kemampuan
Chatbot baru dari Deepseek memperkenalkan dirinya dengan janji yang menawan: "Hai, saya dicipta supaya anda boleh meminta apa -apa dan mendapatkan jawapan yang mungkin mengejutkan anda." Kenyataan ini merangkumi inti dari apa yang DeepSeek bertujuan untuk dicapai dalam pasaran AI yang kompetitif, yang baru -baru ini menyaksikan salah satu penurunan harga saham terbesar di Nvidia disebabkan oleh kesan Deepseek.
Imej: ensigame.com
Model AI Deepseek menonjol kerana kaedah seni bina dan latihan yang inovatif. Berikut adalah teknologi utama yang membezakannya:
Ramalan Multi-Token (MTP) : Tidak seperti model tradisional yang meramalkan satu perkataan pada satu masa, MTP DeepSeek meramalkan pelbagai perkataan secara serentak dengan menganalisis bahagian-bahagian yang berlainan dari ayat. Kaedah ini bukan sahaja meningkatkan ketepatan tetapi juga meningkatkan kecekapan model.
Campuran Pakar (MOE) : DeepSeek V3 menggunakan seni bina MOE, menggunakan 256 rangkaian saraf, dengan lapan diaktifkan untuk setiap tugas pemprosesan token. Pendekatan ini mempercepatkan latihan AI dan meningkatkan prestasi dengan ketara.
Perhatian Laten Multi-Head (MLA) : MLA memberi tumpuan kepada bahagian-bahagian yang paling penting dalam ayat dengan berulang kali mengeluarkan butiran utama dari serpihan teks. Ini mengurangkan peluang kehilangan maklumat penting, yang membolehkan AI menangkap nuansa penting dengan berkesan.
Walaupun mendakwa telah membangunkan model AI yang kompetitif dengan anggaran minimum $ 6 juta untuk latihan DeepSeek V3 menggunakan hanya pemproses grafik 2048, siasatan lanjut mendedahkan gambaran yang lebih kompleks.
Imej: ensigame.com
Penganalisis dari semianalisis mendapati bahawa DeepSeek mengendalikan infrastruktur pengiraan yang luas, yang terdiri daripada sekitar 50,000 GPU Nvidia Hopper. Ini termasuk 10,000 unit H800, 10,000 H100s lagi, dan GPU tambahan H20, tersebar di pelbagai pusat data untuk latihan, penyelidikan, dan pemodelan kewangan AI. Jumlah pelaburan dalam pelayan adalah kira -kira $ 1.6 bilion, dengan perbelanjaan operasi dianggarkan $ 944 juta.
DeepSeek adalah anak syarikat dana lindung nilai Cina yang tinggi, yang memancarkan permulaan pada tahun 2023 untuk memberi tumpuan kepada teknologi AI. Tidak seperti banyak pemula yang bergantung kepada penyedia awan, DeepSeek memiliki pusat datanya, memberikan kawalan penuh ke atas pengoptimuman model AI dan membolehkan inovasi pesat. Syarikat itu dibiayai sendiri, yang meningkatkan kelajuan fleksibiliti dan membuat keputusan.
Imej: ensigame.com
DeepSeek juga menarik bakat teratas, dengan beberapa penyelidik memperoleh lebih dari $ 1.3 juta setiap tahun, terutamanya dari universiti -universiti China yang terkemuka. Tuntutan syarikat untuk melatih model terbarunya untuk hanya $ 6 juta nampaknya tidak realistik apabila mempertimbangkan konteks yang lebih luas. Angka ini hanya menyumbang penggunaan GPU semasa latihan pra-latihan dan tidak termasuk perbelanjaan penyelidikan, penghalusan model, pemprosesan data, dan kos infrastruktur keseluruhan.
Sejak penubuhannya, DeepSeek telah melabur lebih daripada $ 500 juta dalam pembangunan AI. Struktur padatnya membolehkan pelaksanaan inovasi AI yang aktif dan berkesan, tidak seperti syarikat birokrasi yang lebih besar dan lebih besar.
Imej: ensigame.com
Perjalanan Deepseek menggambarkan bahawa syarikat AI bebas yang dibiayai dengan baik dapat bersaing dengan gergasi industri. Walau bagaimanapun, pakar -pakar mencatatkan bahawa kejayaannya adalah disebabkan oleh pelaburan yang besar, kejayaan teknikal, dan pasukan yang kuat, bukannya "anggaran revolusioner" untuk pembangunan AI. Walaupun begitu, kos DeepSeek kekal jauh lebih rendah daripada pesaingnya. Sebagai contoh, sementara DeepSeek membelanjakan $ 5 juta pada R1, latihan ChatGPT4O berharga $ 100 juta.
Walau bagaimanapun, ia masih lebih murah daripada pesaingnya.
Artikel terkini