Deepseek IA Development custa US $ 1,6 bilhão, desmistrvando mito de acessibilidade
O novo chatbot de Deepseek se apresentou com uma promessa cativante: "Oi, fui criado para que você possa perguntar qualquer coisa e obter uma resposta que possa até surpreendê -lo". Essa declaração encapsula a essência do que Deepseek pretende alcançar no mercado competitivo de IA, que recentemente viu uma das maiores quedas de preço das ações da NVIDIA devido ao impacto de Deepseek.
Imagem: Ensigame.com
O modelo de AI da Deepseek se destaca devido à sua arquitetura inovadora e métodos de treinamento. Aqui estão as principais tecnologias que o diferenciam:
Previsão com vários toques (MTP) : Ao contrário dos modelos tradicionais que prevêem uma palavra de cada vez, o MTP da Deepseek prevê várias palavras simultaneamente analisando diferentes partes de uma frase. Esse método não apenas aumenta a precisão, mas também aprimora a eficiência do modelo.
Mistura de especialistas (MOE) : Deepseek V3 emprega uma arquitetura MOE, utilizando 256 redes neurais, com oito ativados para cada tarefa de processamento de token. Essa abordagem acelera o treinamento de IA e melhora significativamente o desempenho.
Atenção latente de várias cabeças (MLA) : O MLA se concentra nas partes mais significativas de uma frase, extraindo repetidamente os principais detalhes dos fragmentos de texto. Isso reduz a chance de perder informações cruciais, permitindo que a IA capturasse nuances importantes de maneira eficaz.
Apesar de afirmar ter desenvolvido um modelo de IA competitivo com um orçamento mínimo de US $ 6 milhões para o treinamento de Deepseek V3 usando apenas 2048 processadores gráficos, uma investigação mais aprofundada revela uma imagem mais complexa.
Imagem: Ensigame.com
Analistas da semiânica descobriram que a DeepSeek opera uma vasta infraestrutura computacional, compreendendo cerca de 50.000 GPUs NVIDIA Hopper. Isso inclui 10.000 unidades H800, outras 10.000 H100s e GPUs H20 adicionais, espalhadas por vários data centers para treinamento, pesquisa e modelagem financeira de IA. O investimento total em servidores é de aproximadamente US $ 1,6 bilhão, com despesas operacionais estimadas em US $ 944 milhões.
A Deepseek é uma subsidiária do fundo de hedge chinês High-Flyer, que saiu da startup em 2023 para se concentrar nas tecnologias de IA. Ao contrário de muitas startups que dependem de fornecedores de nuvem, a Deepseek possui seus data centers, dando -lhe controle total sobre a otimização do modelo de IA e permitindo uma rápida inovação. A empresa é autofinanciada, o que aumenta sua flexibilidade e velocidade de tomada de decisão.
Imagem: Ensigame.com
A Deepseek também atrai os melhores talentos, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente, principalmente das principais universidades chinesas. A reivindicação da empresa de treinar seu modelo mais recente por apenas US $ 6 milhões parece irrealista ao considerar o contexto mais amplo. Este número é responsável apenas pelo uso da GPU durante o pré-treinamento e exclui despesas de pesquisa, refinamento de modelos, processamento de dados e custos gerais de infraestrutura.
Desde a sua criação, a Deepseek investiu mais de US $ 500 milhões em desenvolvimento de IA. Sua estrutura compacta permite a implementação ativa e eficaz das inovações de IA, diferentemente das empresas maiores e mais burocráticas.
Imagem: Ensigame.com
A jornada de Deepseek ilustra que uma empresa independente de IA bem financiada pode realmente competir com os gigantes do setor. No entanto, os especialistas observam que seu sucesso se deve a investimentos substanciais, avanços técnicos e uma equipe forte, em vez de um "orçamento revolucionário" para o desenvolvimento da IA. Apesar disso, os custos da Deepseek permanecem significativamente menores do que os de seus concorrentes. Por exemplo, enquanto a Deepseek gastou US $ 5 milhões em R1, o treinamento da ChatGPT4O custou US $ 100 milhões.
No entanto, ainda é mais barato que seus concorrentes.