Deepseek AI geliştirme maliyeti 1,6 milyar dolar, karşılanabilirlik mitini ortadan kaldırarak
Deepseek'ten yeni sohbet botu, büyüleyici bir vaatle tanıttı: "Merhaba, yaratıldım, böylece bir şey sorabilir ve sizi şaşırtabilecek bir cevap alabilirsiniz." Bu ifade, Deepseek'in son zamanlarda Deepseek'in etkisi nedeniyle NVIDIA'nın en büyük hisse senedi fiyat düşüşlerinden birini gören rekabetçi AI pazarında elde etmeyi amaçladığı özü kapsamaktadır.
Resim: ensigame.com
Deepseek'in AI modeli, yenilikçi mimarisi ve eğitim yöntemleri nedeniyle öne çıkıyor. İşte onu farklılaştıran temel teknolojiler:
Çoklu Tahmini Tahmin (MTP) : Her seferinde bir kelimeyi tahmin eden geleneksel modellerin aksine, Deepseek'in MTP'si bir cümlenin farklı bölümlerini analiz ederek aynı anda birden fazla kelime öngörür. Bu yöntem sadece doğruluğu artırmakla kalmaz, aynı zamanda modelin verimliliğini de artırır.
Uzmanların Karışımı (MOE) : Deepseek V3, her bir jeton işleme görevi için sekiz etkinleştirilmiş 256 sinir ağı kullanan bir MOE mimarisi kullanır. Bu yaklaşım AI eğitimini hızlandırır ve performansı önemli ölçüde artırır.
Çok Baş Gizli Dikkat (MLA) : MLA, metin parçalarından önemli ayrıntıları tekrar tekrar çıkararak bir cümlenin en önemli kısımlarına odaklanır. Bu, AI'nın önemli nüansları etkili bir şekilde yakalamasına izin vererek önemli bilgileri kaçırma şansını azaltır.
Sadece 2048 grafik işlemcileri kullanarak Deepseek V3'ü eğitmek için minimum 6 milyon dolarlık bir bütçeye sahip rekabetçi bir AI modeli geliştirdiğini iddia etmesine rağmen, daha fazla araştırma daha karmaşık bir resim ortaya koyuyor.
Resim: ensigame.com
Semianaliz analistleri, Deepseek'in yaklaşık 50.000 NVIDIA Hopper GPU'ları içeren geniş bir hesaplama altyapısı işlettiğini keşfetti. Bu, AI eğitimi, araştırma ve finansal modelleme için birden fazla veri merkezine yayılmış 10.000 H800 birim, 10.000 H100'ler ve ek H20 GPU'lar içerir. Sunuculara yapılan toplam yatırım yaklaşık 1,6 milyar $ 'dır ve operasyonel giderlerin 944 milyon $ olduğu tahmin edilmektedir.
Deepseek, 2023'te AI teknolojilerine odaklanmak için girişimden çıkmış olan Çin Hedge Fonu High-Flyer'in bir yan kuruluşudur. Bulut sağlayıcılarına dayanan birçok girişimin aksine, Deepseek veri merkezlerinin sahibidir, AI model optimizasyonu üzerinde tam kontrol sağlar ve hızlı inovasyon sağlar. Şirket, esnekliğini ve karar verme hızını artıran kendi kendini finanse ediyor.
Resim: ensigame.com
Deepseek ayrıca en iyi yetenekleri çekiyor ve bazı araştırmacılar yılda 1.3 milyon doların üzerinde kazanıyor, öncelikle önde gelen Çin üniversitelerinden. Şirketin en son modelini sadece 6 milyon dolarlık eğitme iddiası, daha geniş bağlam göz önüne alındığında gerçekçi görünmüyor. Bu rakam yalnızca eğitim öncesi sırasında GPU kullanımını açıklar ve araştırma giderlerini, model arıtımını, veri işleme ve genel altyapı maliyetlerini hariç tutar.
Deepseek, kuruluşundan bu yana AI gelişimine 500 milyon doların üzerinde yatırım yaptı. Kompakt yapısı, daha büyük, daha bürokratik şirketlerin aksine AI yeniliklerinin aktif ve etkili bir şekilde uygulanmasına izin verir.
Resim: ensigame.com
Deepseek'in yolculuğu, iyi finanse edilen bağımsız bir AI şirketinin gerçekten endüstri devleriyle rekabet edebileceğini göstermektedir. Bununla birlikte, uzmanlar başarısının, AI gelişimi için "devrimci bir bütçe" yerine önemli yatırımlar, teknik atılımlar ve güçlü bir ekipten kaynaklandığını belirtiyor. Buna rağmen, Deepseek'in maliyetleri rakiplerinden önemli ölçüde daha düşük kalır. Örneğin, Deepseek R1'e 5 milyon dolar harcarken, ChatGpt4o'nun eğitiminin maliyeti 100 milyon dolara mal oldu.
Ancak, hala rakiplerinden daha ucuz.
En son makaleler