DeepSeek: la nueva IA de China – aplicaIA, Aplica Inteligencia Artificial

on enero 29, 2025

Para leer el documento completo recomendamos acceder a : https://unique-brand-091.notion.site/DeepSeek-la-nueva-IA-de-China-15044552322181698be1f5077e6fc69e

Esta información se ha generado con IA interrogando a ChatGPT 4o y Gemini para AplicaIA.es

DeepSeek es una empresa china de inteligencia artificial (IA) que ha ganado atención global por sus avances en el desarrollo de modelos de IA de gran escala y por su enfoque innovador en áreas como el razonamiento, la eficiencia computacional y la apertura tecnológica.

Algunos afirman que es una competidora clave en la carrera internacional por el liderazgo en IA, rivalizando con empresas como OpenAI. Si bien DeepSeek puede realizar tareas similares a ChatGPT, como generar texto y responder preguntas, no se presenta como un competidor directo en el mismo mercado. DeepSeek se enfoca más en aplicaciones empresariales y desarrollo de software, mientras que ChatGPT tiene un enfoque más general y conversacional.

Si bien DeepSeek es una IA desarrollada en China, no es necesariamente «la nueva IA de China». China tiene una gran cantidad de empresas y proyectos de IA, y DeepSeek es uno más de ellos, aunque con características destacadas.

DeepSeek ha revolucionado la industria de la inteligencia artificial con su modelo R1, desafiando las ideas preconcebidas sobre la dominación de EE.UU. en IA y demostrando que China ha alcanzado un notable nivel de competencia, especialmente en términos de eficiencia de coste y rendimiento.

Una de las características más destacadas de DeepSeek es su capacidad para crear modelos de IA de gran escala que son altamente innovadores. Por ejemplo, han desarrollado modelos llamados R1 y R1-Zero, que se enfocan en tareas complejas utilizando métodos avanzados como el «aprendizaje por refuerzo». Esto permite que el modelo aprenda y mejore a través de la experiencia, sin necesidad de depender exclusivamente de datos etiquetados por humanos.

Otra innovación importante es su tecnología de «mezcla de expertos» (MoE). Esto significa que, en lugar de usar todo el modelo para cada tarea, solo se activan las partes necesarias, lo que ahorra recursos y hace que los modelos sean más rápidos y eficientes. Además, han desarrollado una solución llamada DeepSeekMLA, que reduce la cantidad de memoria que los modelos necesitan para procesar datos, haciéndolos más accesibles.

Si bien DeepSeek ha adoptado un enfoque más abierto en comparación con algunas empresas, no es la única que lo hace. Muchas empresas y organizaciones comparten sus investigaciones y tecnologías en la comunidad de IA. Además, es importante reconocer que DeepSeek también mantiene en secreto algunas de sus tecnologías y modelos, como es común en la industria.

Utiliza además frameworks de software como TensorFlow y PyTorch, pero con extensiones propias que maximizan el uso de su infraestructura.

DeepSeek no solo destaca por sus innovaciones técnicas, sino también por su papel en la competencia tecnológica global. A pesar de las restricciones impuestas a China para acceder a hardware avanzado, como chips de última generación, DeepSeek ha logrado desarrollar modelos de alta calidad y a menor coste, demostrando su capacidad para superar estos desafíos.

Principales características de DeepSeek

Modelos avanzados de IA:
- R1 y R1-Zero: Modelos de razonamiento diseñados para tareas complejas, utilizando enfoques como el aprendizaje por refuerzo para mejorar su desempeño.
- Innovaciones en eficiencia: Han optimizado el uso de hardware como GPU de manera económica y efectiva, lo que les permite entrenar modelos de gran escala con costes más bajos.
Tecnologías innovadoras:
- DeepSeekMoE (Mixture of Experts): Un sistema que activa solo las partes del modelo necesarias para cada tarea, mejorando significativamente la eficiencia.
- DeepSeekMLA: Un enfoque para reducir el uso de memoria durante la inferencia, haciendo el modelo más accesible y rápido.
Apertura tecnológica:
- A diferencia de otros líderes del sector, DeepSeek promueve un modelo abierto, lo que significa que muchas de sus herramientas y tecnologías están disponibles públicamente, fomentando la colaboración.
Compromiso con el avance global de la IA:
- DeepSeek ha desarrollado modelos con capacidades de razonamiento avanzadas, utilizando innovaciones técnicas y conjuntos de datos masivos y diversos.
Competencia geopolítica:
- DeepSeek se destaca en el contexto de la competencia tecnológica entre China y Occidente, especialmente en el desarrollo de inteligencia artificial de próxima generación y el acceso a hardware restringido, como chips avanzados.

Evolución de los modelos de DeepSeek (a fecha 28 de enero 2025)

El anuncio de este fin de semana (26/27 enero 25) fue R1, un modelo de razonamiento similar al o1 de OpenAI. Sin embargo, muchas de las revelaciones que contribuyeron al colapso de NVDIA, incluidos los costes de entrenamiento de DeepSeek, en realidad estaban ya en el anuncio previo del modelo V3 durante la Navidad de 2024. Es más, muchos de los avances del V3 en realidad ya fueron revelados con el lanzamiento del modelo V2 en enero de 2024.

El modelo ‘V2’ de DeepSeek introdujo dos avances significativos:

DeepSeekMoE (Mixture of Experts): Una característica distintiva de los modelos de DeepSeek es su uso intensivo de la técnica llamada mezcla de expertos. Esto implica dividir el modelo en varios submodelos especializados, denominados «expertos». Cuando se procesa una tarea, solo se activan los expertos relevantes, mientras que el resto permanece inactivo. Esto no solo reduce el consumo de recursos computacionales, sino que también permite manejar tareas muy variadas con mayor eficiencia. En comparación, los modelos como GPT activan toda su capacidad para cada tarea, lo que resulta en un uso más intensivo de recursos.
DeepSeekMLA (Memory and Latency Optimization): Los modelos de DeepSeek incluyen optimizaciones específicas para superar limitaciones de memoria y latencia en el hardware disponible, como las GPUs H800. Estas optimizaciones permiten comprimir los datos intermedios durante el procesamiento, reduciendo el uso de memoria sin afectar la precisión. GPT, por otro lado, no está diseñado específicamente para hardware con restricciones como las que enfrenta DeepSeek en China, donde las limitaciones geopolíticas imponen el uso de hardware menos avanzado.

Con el lanzamiento del modelo ‘V3’, DeepSeek logró entrenar su modelo de manera sorprendentemente económica. Afirmaron que el entrenamiento costó alrededor de 5,576 millones de dólares, una cifra creíble debido a las innovaciones en la arquitectura del modelo y las optimizaciones específicas para superar las limitaciones de ancho de banda de memoria de las GPU H800 utilizadas.

DeepSeek utilizó las GPU H800 en lugar de las más avanzadas H100. La razón principal está relacionada con las restricciones comerciales y geopolíticas entre Estados Unidos y China. Estas restricciones afectan al acceso de las empresas chinas a ciertos tipos de hardware de alto rendimiento.

Contenido adicional tomado de DeepSeek FAQ https://stratechery.com/2025/deepseek-faq/ a través de @stratechery en X.

Como decíamos, el artículo es más amplio en Notion: https://unique-brand-091.notion.site/DeepSeek-la-nueva-IA-de-China-15044552322181698be1f5077e6fc69e

Categories:

DeepSeek General

Tags:

Sin etiqueta

Comments are closed