Ang development ng Deepseek AI ay nagkakahalaga ng $ 1.6 bilyon, ang pag -debunk ng mitolohiya ng kakayahang magamit
Ang bagong chatbot mula sa Deepseek ay nagpakilala sa sarili ng isang mapang -akit na pangako: "Kumusta, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka." Ang pahayag na ito ay sumasaklaw sa kakanyahan ng kung ano ang layunin ng Deepseek na makamit sa mapagkumpitensyang merkado ng AI, na kamakailan lamang ay nakita ang isa sa pinakamalaking pagbagsak ng presyo ng stock ng NVIDIA dahil sa epekto ng Deepseek.
Larawan: ensigame.com
Ang modelo ng AI ng Deepseek ay nakatayo dahil sa makabagong mga pamamaraan ng arkitektura at pagsasanay. Narito ang mga pangunahing teknolohiya na naiiba ito:
Multi-Token Prediction (MTP) : Hindi tulad ng mga tradisyonal na modelo na hinuhulaan ang isang salita nang sabay-sabay, ang mga pagtataya ng MTP ng Deepseek ng maraming mga salita nang sabay-sabay sa pamamagitan ng pagsusuri ng iba't ibang mga bahagi ng isang pangungusap. Ang pamamaraang ito ay hindi lamang nagpapalakas ng kawastuhan ngunit pinapahusay din ang kahusayan ng modelo.
Paghahalo ng mga eksperto (MOE) : Ang Deepseek V3 ay gumagamit ng isang arkitektura ng MOE, na gumagamit ng 256 na mga network ng neural, na may walong naaktibo para sa bawat gawain sa pagproseso ng token. Ang pamamaraang ito ay nagpapabilis sa pagsasanay sa AI at makabuluhang nagpapabuti sa pagganap.
Multi-head latent pansin (MLA) : Ang MLA ay nakatuon sa pinakamahalagang bahagi ng isang pangungusap sa pamamagitan ng paulit-ulit na pagkuha ng mga pangunahing detalye mula sa mga fragment ng teksto. Binabawasan nito ang pagkakataon na nawawala ang mahalagang impormasyon, na pinapayagan ang AI na mabisa ang mga mahahalagang nuances.
Sa kabila ng pag -angkin na nakabuo ng isang mapagkumpitensyang modelo ng AI na may kaunting badyet na $ 6 milyon para sa pagsasanay sa Deepseek V3 gamit lamang ang 2048 na mga graphic processors, ang karagdagang pagsisiyasat ay nagpapakita ng isang mas kumplikadong larawan.
Larawan: ensigame.com
Natuklasan ng mga analyst mula sa semianalysis na ang Deepseek ay nagpapatakbo ng isang malawak na imprastraktura ng computational, na binubuo ng halos 50,000 NVIDIA HOPPER GPU. Kasama dito ang 10,000 mga yunit ng H800, isa pang 10,000 H100s, at karagdagang mga H20 GPU, kumalat sa maraming mga sentro ng data para sa pagsasanay, pananaliksik, at pagmomolde ng pananalapi. Ang kabuuang pamumuhunan sa mga server ay humigit -kumulang $ 1.6 bilyon, na may mga gastos sa pagpapatakbo na tinatayang $ 944 milyon.
Ang Deepseek ay isang subsidiary ng Chinese Hedge Fund High-flyer, na nag-iwas sa pagsisimula noong 2023 upang tumuon sa mga teknolohiya ng AI. Hindi tulad ng maraming mga startup na umaasa sa mga cloud provider, ang Deepseek ay nagmamay -ari ng mga sentro ng data nito, na binibigyan ito ng ganap na kontrol sa pag -optimize ng modelo ng AI at pagpapagana ng mabilis na pagbabago. Ang kumpanya ay pinondohan sa sarili, na nagpapabuti sa kakayahang umangkop at bilis ng paggawa ng desisyon.
Larawan: ensigame.com
Ang Deepseek ay nakakaakit din ng nangungunang talento, na may ilang mga mananaliksik na kumikita ng higit sa $ 1.3 milyon taun -taon, lalo na mula sa nangungunang unibersidad ng Tsino. Ang pag -angkin ng kumpanya ng pagsasanay sa pinakabagong modelo nito para sa $ 6 milyon lamang ay tila hindi makatotohanang kapag isinasaalang -alang ang mas malawak na konteksto. Ang figure na ito ay nagkakaroon lamang ng paggamit ng GPU sa panahon ng pre-pagsasanay at hindi kasama ang mga gastos sa pananaliksik, pagpipino ng modelo, pagproseso ng data, at pangkalahatang mga gastos sa imprastraktura.
Mula nang ito ay umpisahan, ang Deepeek ay namuhunan ng higit sa $ 500 milyon sa pag -unlad ng AI. Ang compact na istraktura nito ay nagbibigay -daan para sa aktibo at epektibong pagpapatupad ng mga makabagong AI, hindi katulad ng mas malaki, mas maraming mga kumpanya ng burukrata.
Larawan: ensigame.com
Ang paglalakbay ni Deepseek ay naglalarawan na ang isang mahusay na pinondohan na independiyenteng kumpanya ng AI ay maaaring makipagkumpetensya sa mga higante sa industriya. Gayunpaman, tandaan ng mga eksperto na ang tagumpay nito ay dahil sa malaking pamumuhunan, teknikal na mga pambihirang tagumpay, at isang malakas na koponan, sa halip na isang "rebolusyonaryong badyet" para sa pag -unlad ng AI. Sa kabila nito, ang mga gastos sa Deepseek ay nananatiling mas mababa kaysa sa mga katunggali nito. Halimbawa, habang ang Deepseek ay gumugol ng $ 5 milyon sa R1, ang pagsasanay sa ChATGPT4O ay nagkakahalaga ng $ 100 milyon.
Gayunpaman, mas mura pa ito kaysa sa mga katunggali nito.
Mga pinakabagong artikulo