El modelo chino de inteligencia artificial DeepSeek-R1 ha demostrado que puede aprender más y mejor cuando se le aplican “recompensas” por cada problema resuelto. Así lo concluye un grupo de investigadores y tecnólogos, entre ellos los responsables de la empresa desarrolladora, tras publicar los resultados de su análisis en la revista científica Nature.
MODELO QUE RAZONA COMO LOS HUMANOS
El estudio detalla que DeepSeek-R1 incorpora una etapa de entrenamiento adicional bajo supervisión humana y emplea un sistema de aprendizaje por refuerzo en lugar de ejemplos estáticos. Esto permite que el modelo desarrolle pasos de razonamiento más estructurados, reduciendo los costos y la complejidad frente a los métodos tradicionales.
Los investigadores comprobaron que la inteligencia artificial obtiene buenos resultados en áreas como matemáticas, biología, física, química e incluso en concursos de programación, lo que abre nuevas posibilidades para modelos más potentes y económicos en el futuro.
LIMITACIONES Y RETOS DE DEEPSEEK
A pesar de sus avances, el artículo advierte limitaciones importantes. El sistema solo está optimizado en chino e inglés, lo que restringe su alcance, y en áreas como la ingeniería de software no ha mostrado mejoras significativas.
Los expertos subrayan que el próximo desafío será perfeccionar los procesos de recompensa para garantizar la fiabilidad de las tareas que realiza. Entrenar a una IA a razonar con menos intervención humana es posible, pero requiere superar obstáculos técnicos que aún condicionan su desarrollo y su escalabilidad.