DeepSeek V3: Arquitectura, capacidades y acceso

juan felipe beltran diaz
3 abr 2025
4 Min. de lectura

DeepSeek V3 representa un avance significativo en modelos de lenguaje de código abierto, destacándose por su arquitectura Mixture-of-Experts (MoE) con 671B parámetros totales, aunque solo 37B se activan por token durante la inferencia. Este modelo ha sido pre-entrenado con 14.8 billones de tokens diversos y de alta calidad, superando a otros modelos de código abierto en múltiples pruebas de rendimiento.

Arquitectura y características técnicas

DeepSeek V3 está basado en una arquitectura de Mixture-of-Experts (MoE), manteniendo la estructura fundamental de su predecesor, DeepSeek V2, pero con mejoras significativas. El modelo utiliza el esquema Multi-Head Latent Attention (MLA) como parte de su arquitectura DeepSeekMoE, lo que le permite ser más eficiente durante la inferencia a pesar de su gran tamaño [1].

Innovaciones técnicas

El modelo introduce varias mejoras técnicas importantes:

Nueva estrategia de balanceo de carga: Implementa un método sin pérdida auxiliar que proporciona un mejor equilibrio entre la distribución de carga y el rendimiento del modelo mediante la introducción de un término de sesgo para cada experto que se ajusta durante el entrenamiento [1].

Multi-Token Prediction (MTP): Este objetivo de entrenamiento fortalece significativamente el rendimiento del modelo, permitiéndole hacer predicciones más precisas sobre múltiples tokens [1].

Mayor eficiencia de entrenamiento: El equipo de DeepSeek mejoró la eficiencia cambiando a precisión mixta utilizando el formato numérico FP8 y optimizando el paralelismo y la comunicación entre nodos del código del marco de entrenamiento [1].

Arquitectura optimizada: Con 61 capas ocultas, 128 cabezas de atención y un tamaño oculto de 7168, el modelo está diseñado para manejar contextos de hasta 4096 tokens [2].

Capacidades y rendimiento

DeepSeek V3 es un modelo generalista entrenado en un corpus masivo de 15 billones de tokens, lo que le otorga capacidades impresionantes para una amplia gama de tareas [3]. Sus principales fortalezas incluyen:

Rendimiento en benchmarks

El modelo ha demostrado un rendimiento superior en múltiples benchmarks de LLM, incluyendo:

MMLU (Massive Multitask Language Understanding)
MMLU-Pro
GPQA (Graduate-level Professional Questions & Answers) [1]

Superó a modelos competitivos como Qwen2.5, Llama 3.1, Claude-Sonnet-3.5, e incluso mostró rendimiento comparable a GPT-4o en muchas pruebas [1].

Áreas de excelencia

DeepSeek V3 destaca particularmente en:

Cinco benchmarks de programación diferentes
Tres benchmarks matemáticos
Comprensión y generación de texto de alta calidad [1]

A pesar de su excelente rendimiento, el equipo de DeepSeek reconoce que el modelo tiene algunas limitaciones, especialmente en el despliegue, aunque se espera que estas se resuelvan naturalmente con el desarrollo de hardware más avanzado [1].

Cómo acceder a DeepSeek V3

Existen varias formas de acceder y utilizar DeepSeek V3:

A través de la API

Para integrar DeepSeek V3 en tus proyectos mediante la API:

Registrarse y obtener una API key: Debes crear una cuenta en la plataforma de API de DeepSeek y generar tu clave de API [3].
Utilizar el SDK de OpenAI: DeepSeek permite acceder a sus modelos utilizando el SDK de OpenAI con la configuración correcta. Para usar específicamente DeepSeek V3, debes establecer model='deepseek-chat' [3].
Implementar el código de conexión: A continuación se muestra un ejemplo básico de cómo conectarse a DeepSeek V3:

from openai import OpenAI

client = OpenAI(api_key="", base_url="https://api.deepseek.com")

response = client.chat.completions.create(

model="deepseek-chat",

messages=[

{"role": "system", "content": "You are a helpful assistant"},

{"role": "user", "content": "Hello"},

stream=False

)

print(response.choices.message.content)

Este código establece una conexión con la API de DeepSeek utilizando tu clave de API, envía un mensaje simple y muestra la respuesta del modelo [3].

A través de Hugging Face

DeepSeek V3 también está disponible en Hugging Face, donde puedes acceder a la documentación detallada del modelo y utilizarlo mediante la biblioteca Transformers [2].

Comparaciones con Otros Modelos

DeepSeek ofrece dos modelos principales que se pueden utilizar a través de su API:

DeepSeek-V3 (deepseek-chat): El modelo generalista entrenado en una cantidad masiva de texto (15 billones de tokens).
DeepSeek-R1 (deepseek-reasoner): Un modelo diseñado para tareas de razonamiento avanzado, matemáticas y programación [3].

En comparación con ChatGPT y otros modelos, DeepSeek V3 ha demostrado un rendimiento superior en varias pruebas, especialmente en programación y matemáticas. Existen cursos y recursos que comparan específicamente el rendimiento de DeepSeek V3 con ChatGPT y otros modelos, mostrando sus ventajas competitivas [4].

Infraestructura de entrenamiento

El desarrollo de DeepSeek V3 requirió una infraestructura de cómputo impresionante:

Fue entrenado en un clúster de 2048 GPUs NVIDIA H800
Cada nodo del clúster contenía 8 GPUs interconectadas con NVLink y NVSwitch
Los nodos estaban conectados mediante InfiniBand (IB)
El entrenamiento utilizó un total de 2.788 millones de horas de GPU H800 [1]

El proceso de entrenamiento fue notablemente estable, sin experimentar picos de pérdida irrecuperables ni necesidad de realizar retrocesos durante todo el proceso [2].

Conclusión

DeepSeek V3 representa un avance significativo en el campo de los modelos de lenguaje de gran escala, combinando una arquitectura Mixture-of-Experts innovadora con técnicas avanzadas de entrenamiento y equilibrio de carga. Sus 671B parámetros (con 37B activados por token) y su entrenamiento en 14.8 billones de tokens le permiten superar a otros modelos de código abierto en múltiples benchmarks.

Para los desarrolladores e investigadores interesados en utilizar este potente modelo, DeepSeek ofrece acceso a través de su API, que se puede integrar fácilmente utilizando el SDK de OpenAI con la configuración adecuada. También está disponible a través de Hugging Face para aquellos que prefieran utilizar la biblioteca Transformers.

A medida que evolucione el hardware, es probable que se superen las limitaciones actuales relacionadas con el despliegue, haciendo que este modelo sea aún más accesible y eficiente para una amplia gama de aplicaciones de inteligencia artificial.

Fuentes

[1] https://www.infoq.com/news/2025/01/deepseek-v3-llm/

[2] https://huggingface.co/docs/transformers/main/en/model_doc/deepseek_v3

[3] https://www.datacamp.com/tutorial/deepseek-api

[4] https://www.skillshare.com/es/classes/comprender-modelos-de-ia-de-deepsearch-chatgp-midjourney-redaccion-de-contenidos-creativos-blogs-programacion/441387727

[5] https://www.neowin.net/news/deepseek-v3-sets-new-standard-for-open-source-language-models/

[6] https://metaschool.so/articles/deepseek-v3

[7] https://www.datacamp.com/tutorial/deepseek-v3

[8] https://hackernoon.com/lang/es/ejecuta-deepseek-o-cualquier-otro-modelo-de-ia-en-tu-hogar-con-unas-pocas-lineas-de-codigo

[9] https://www.zdnet.com/article/deepseek-upgrades-v3-ai-model-under-mit-license/

[10] https://dev.to/nodeshiftcloud/a-step-by-step-guide-to-install-deepseek-v3-0324-locally-4c51

[11] https://huggingface.co/blog/lynn-mikami/deepseek-api-free