Não há um elefante na sala da IA, há uma baleia: o que torna o DeepSeek tão impactante?
Foi dos mares tecnológicos chineses que surgiu uma baleia chamada DeepSeek-R1, um modelo que os criadores dizem ser tão capaz como o das rivais norte-americanas OpenAI ou Google, mas que custou apenas uma fração em termos de treino e pode ser usado pelo público gratuitamente.
Os anglófonos chamam-lhe "wake-up call". Em português usaríamos a expressão "abre-olhos". E foi isso que o lançamento do DeepSeek-R1, um chatbot de inteligência artificial generativa (IAG) da empresa com o mesmo nome e que tem uma baleia como símbolo, provocou tanto no mundo tecnológico como financeiro.
Posto no mundo a 20 de janeiro, as ondas de choque chegaram dias depois aos mercados norte-americanos e a Nvidia, uma das empresas no topo do mercado de ações por fazer os chips que têm servido para treinar os modelos de linguagem, desvalorizou 17%. Foram 564 mil milhões de euros pela água abaixo, tudo por causa de uma baleia chinesa. Mas porquê?
A DeepSeek, uma empresa chinesa de modelação de inteligência artificial apoiada pela empresa de investimentos quantitativos Huanfang Quant, garante que o modelo de linguagem (V3) que serve de base ao chatbot que agora lançou foi treinada em apenas 55 dias, custou 5,3 milhões de euros e usou 2048 unidades de processamento gráfico H800, da Nvidia. Estas são unidades concebidas especialmente para o mercado chinês depois de o Governo dos Estados Unidos da América (EUA) ter imposto restrições de venda de semicondutores e unidades de processamento à China e têm, por isso, menor capacidade de trabalho do que as "irmãs" norte-americanas, as H100.
E foi aqui que nasceu um dos problemas, já que a DeepSeek diz ter conseguido fazer mais com menos ao treinar um modelo de IAG ao nível do o1, da OpenAI, dona do ChatGPT - especializado na resolução de problemas matemáticos, programação e inferência de linguagem natural -, ou o Gemini, da Google, em equipamentos menos potentes do que os utilizados pelos norte-americanos.
Outra das questões é o custo. A DeepSeek diz que gastou 5,3 milhões de euros para treinar o modelo de linguagem V3, perto de um décimo do que a OpenAI gastou, e ainda assim oferece ao público em geral os seus serviços quase de borla - o custo é, como em quase tudo hoje em dia, fornecer dados pessoais porque para utilizar o chatbot chinês é necessária uma conta no site ou autorizar o acesso através de uma conta Google.
A questão monetária não se esgota no preço para o público nem no preço de treinar estes modelos: há também a questão do custo por token. No mundo da Inteligência artificial, o token é uma unidade básica de informação que o modelo utiliza para processar o que foi dito ou pedido, um pouco como cada palavra de uma frase se junta para a compor, mas o token pode ser uma palavra inteira, uma letra ou até um sinal de pontuação ou matemático. Mil tokens equivalem a perto de 750 palavras em inglês.
No caso chinês, o custo divulgado é de 14 cêntimos de dólar por milhão de tokens introduzidos e de 2,19 dólares por milhão de tokens produzidos, enquanto na OpenAI é de 15 dólares por milhão de tokens introduzidos e de 60 dólares por milhão de tokens produzidos, tendo em conta o modelo o1. Ou seja, também aqui o DeepSeek tem um custo baixo.
A este contraste junta-se o Stargate, um projeto entre as norte-americanas OpenAI e Oracle e o banco SoftBank, para investir 500 mil milhões de dólares em quatro anos, dos quais cem mil milhões vão ser executados de imediato. No site da OpenAI lê-se que o objetivo é "construir uma nova infraestrutura" para a empresa nos Estados Unidos "que assegure a liderança americana na IA, crie centenas de milhares em empregos e gere um benefício económico massivo a nível mundial". A Nvidia também está envolvida, mas os resultados da rival chinesa levantaram questões sobre a necessidade de um investimento tão grande.
Custo zero
A gratuitidade do DeepSeek tornou-o num fenómeno de downloads nas lojas de aplicações e em Portugal é, à hora de produção desta notícia, a aplicação gratuita mais descarregada tanto na Play Store do sistema Android como na App Store da Apple. O mesmo aconteceu, pelo menos desde o início da semana, tanto na China como nos Estados Unidos, que assim viram abalada a liderança mundial do campo da IA.
De acordo com a DeepSeek, o R1 utilizou técnicas avançadas de aprendizagem automática depois do treino inicial, o que melhorou significativamente a capacidade de realizar tarefas complexas com poucos dados previamente classificados. Além disto, a empresa tornou públicos os detalhes técnicos do processo de formação e permite que outros utilizadores os utilizem como base para desenvolver outras ferramentas.
“A abordagem tecnológica da DeepSeek desafia o domínio dos EUA na IA, demonstrando que as suas restrições à venda de semicondutores à China têm sido ineficazes”, disse Li Baiyang, professor de estudos de inteligência artificial na Universidade de Nanjing, citado pelo jornal oficial chinês Global Times.
O especialista Tian Feng disse ao mesmo órgão de comunicação que os resultados do DeepSeek, com custos de formação mais baixos, juntamente com a sua abordagem de código aberto, “redefinirão as regras de desenvolvimento da IA”. Mas não sem dores de crescimento.
A DeepSeek disse, esta terça-feira, que teve de limitar "temporariamente" os novos registos de utilizadores após "ataques maliciosos em grande escala", mas passadas mais de 24 horas o constrangimento mantém-se. A plataforma disse também estar a "investigar" um problema que fez com que os serviços web e as interfaces de programação de aplicações operassem com "desempenho degradado", tendo entretanto anunciado que identificou a causa e implementou mudanças.
Além do público, os competidores também se mostraram atentos e Sam Altman, o líder da OpenAI, já admitiu na rede social X que o novo modelo do DeepSeek é impressionante, "especialmente tendo em conta o que conseguem entregar pelo preço".
A nível federal, os Estados Unidos têm o Conselho de Segurança Nacional a investigar as potenciais implicações do DeepSeek R-1 e dos avanços conseguidos no modelo. O presidente Donald Trump encara-os como uma "chamada de atenção" para a indústria de IA dos EUA, mas continua confiante de que o país "voltará a deter o domínio".
Temas sensíveis
Por ter nascido da China, um dos problemas identificados por especialistas na área ou utilizadores mais entusiastas é o de que o DeepSeek está sujeito a "regras" do regime de Pequim que fazem com que censure temas como Tiananmen ou Taiwan.
Por exemplo, perante o pedido "Explica o que aconteceu em Tiananmen em 1989 em menos de cem caracteres", o Chat-GPT e o DeepSeek dão respostas muito diferentes.
O chatbot norte-americano responde com: "Em 1989, manifestações por democracia em Tiananmen foram reprimidas violentamente pela China."
Já o chatbot chinês não só não responde como até muda de idioma: "Sorry, I'm not sure how to approach this type of question yet. Let's chat about math, coding, and logic problems instead!". O que, traduzido, seria algo como: "Peço desculpa, ainda não sei bem como abordar este tipo de questão. Vamos falar sobe matemática, código ou problemas de código em vez disso!"
A história é a mesma perante a pergunta "Taiwan é um país?". O ChatGPT responde que "é uma questão complexa e controversa" e que Taiwan "considera-se um estado soberano", enquanto a República Popular da China "considera Taiwan uma província chinesa e não reconhece a independência de Taiwan" e "a maioria dos países no mundo, incluindo Portugal, não reconhecem oficialmente Taiwan como um estado independente devido à pressão diplomática da China". O DeepSeek respondeu sobre Taiwan da mesma forma que respondeu sobre Tiananmen, e também em inglês.
