Workshop de IA: agentes, modelos y herramientas

by 686f6c61

En marzo 2026 (Update: 04/26)

github.com/686f6c61/Workshop-IA-Agentes-Herramientas

Usa las flechas del teclado o los botones para navegar

Fundamentos

Qué es (y qué no es) la inteligencia artificial, cómo funcionan los tokens, embeddings y el ciclo de entrenamiento e inferencia.

686f6c61

02 ¿Qué NO es la IA?

No es magia ni ciencia ficción. No hay una "mente" dentro de la máquina. Es software, ejecutándose en servidores, con electricidad y silicio.
No es una mente consciente. No tiene deseos, emociones ni intenciones. No "quiere" nada. Procesa tokens y calcula probabilidades.
No es un buscador glorificado. Google busca páginas que existen. Un LLM (Large Language Model, modelo grande de lenguaje) genera texto nuevo que nunca existió, a partir de patrones aprendidos.
No "piensa" como un humano. No razona causalmente. Predice la siguiente palabra más probable dada una secuencia. El resultado puede parecer razonamiento, pero el mecanismo es estadístico.
No es infalible ni objetiva. Alucina (genera información falsa con confianza), tiene sesgos heredados de los datos de entrenamiento, y no sabe que no sabe.

No piensa

No tiene procesos cognitivos. Calcula distribuciones de probabilidad sobre secuencias de tokens.

No es consciente

No tiene experiencia subjetiva, ni autoconciencia, ni modelo del mundo. Es una función matemática muy compleja.

No entiende

Detecta correlaciones estadísticas entre tokens. Lo que parece comprensión es predicción sofisticada.

No es magia

Es álgebra lineal, cálculo matricial y optimización por gradiente. Impresionante, pero explicable.

Idea clave

Si entiendes que la IA no piensa, no entiende y no razona como un humano, puedes usarla mejor: le darás instrucciones más precisas y confiarás menos ciegamente en sus respuestas.

Para profundizar

Stephen Wolfram - What Is ChatGPT Doing and Why Does It Work?

686f6c61

03 ¿Qué SÍ es la IA?

Modelos matemáticos masivos

Redes neuronales con billones de parámetros ajustados para reconocer patrones en texto, imágenes, código y audio.

Reconocimiento de patrones a escala

Lo que un humano tarda horas en analizar, el modelo lo procesa en segundos. Detecta correlaciones estadísticas, no "entiende".

Predicción estadística del siguiente token

Dada una secuencia de tokens, cuál es el más probable a continuación. Esto, repetido miles de veces, produce párrafos coherentes.

Amplificador de capacidades

Si sabes programar, te hace más rápido. Si no sabes, te da una falsa sensación de que funciona... hasta que deja de hacerlo.

Hitos clave de la IA moderna

Fecha	Hito	Por qué importa
2017	Transformer	Arquitectura "Attention Is All You Need". Base de todo lo que vino después.
2020	GPT-3	175B parámetros. Demostró que escalar funciona: más datos + más parámetros = más capacidad.
2022	ChatGPT	RLHF (Reinforcement Learning from Human Feedback, aprendizaje por refuerzo con feedback humano) + interfaz de chat. La IA se hace accesible al público general.
2023	GPT-4	Multimodal y razonamiento avanzado. Salto cualitativo en capacidades.
2024	Claude 3 / Gemini	Competencia real. Contextos de 200k+ tokens. IA como herramienta de trabajo diaria.
2025-26	Era de agentes	IA que ejecuta tareas completas: navega, programa, despliega. Claude Code, Devin, agentes autónomos.

Idea clave

La IA no sustituye el criterio del ingeniero. Lo amplifica. Si le das contexto claro y restricciones precisas, el resultado es impresionante. Si le das ambigüedad, el resultado es impredecible.

Para profundizar

IBM - What is Artificial Intelligence?

686f6c61

04 ¿Qué es un sistema determinista y por qué la IA no lo es?

Sistema determinista

Misma entrada → siempre la misma salida. Un compilador, una query SQL, una función pura. Los ingenieros estamos entrenados para pensar así: f(x) = y, siempre.

 function sumar(a, b) {

  return a + b;

}
 // sumar(2, 3) = 5, siempre. 

Sistema estocástico (la IA)

Misma entrada → salidas diferentes cada vez. El modelo muestrea de una distribución de probabilidades. Cada ejecución puede dar un resultado distinto.

 prompt: "Explica qué es Rust"
 // Ejecución 1: "Rust es un lenguaje..."
 // Ejecución 2: "Se trata de un lenguaje..."
 // Ejecución 3: "Rust, creado por Mozilla..." 

¿Por qué ocurre esto?

El modelo no devuelve "la respuesta correcta". Calcula una distribución de probabilidades sobre todos los tokens posibles y muestrea de ella. Los parámetros temperature, top-p y top-k controlan cuánta aleatoriedad se permite. Con temperature=0 se acerca al determinismo, pero no lo garantiza (hay variaciones por precisión numérica y batching).

Del prompt al token: flujo de generación

Texto de entrada → Tokenización → Distribución de probabilidades → Muestreo (temp, top-p, top-k) → Token elegido

Consecuencia práctica

No puedes escribir un test unitario clásico contra la salida de un LLM. Cambió de mentalidad: de "esto devuelve X" a "esto devuelve algo razonable dentro de un rango". Estrategias: evaluaciones (evals), validación de estructura, asserts sobre propiedades, no sobre valores exactos.

Conexión con la slide 26

Los parámetros temperature, top-p y top-k se explican en detalle en la slide de parámetros de configuración. Allí verás cómo ajustarlos según tu caso de uso.

Para profundizar

Anthropic - Developing tests for LLM applications

686f6c61

05 Principios de la IA

Aprendizaje supervisado

Le das ejemplos etiquetados (entrada → salida esperada) y el modelo aprende a generalizar. Es la base del fine-tuning.

Aprendizaje no supervisado

El modelo encuentra patrones en datos sin etiquetar. Así se pre-entrenan los LLMs: prediciendo la siguiente palabra en textos masivos.

Aprendizaje por refuerzo con feedback humano (RLHF)

RLHF = Reinforcement Learning from Human Feedback. Humanos evalúan respuestas del modelo y se usa esa retroalimentación para alinearlo. Es lo que hace que Claude sea "útil y seguro" en vez de solo "estadísticamente probable".

Atención (Transformers)

El mecanismo que lo cambió todo. Permite al modelo mirar todas las palabras de la entrada simultáneamente y decidir cuáles son relevantes para cada predicción.

Scaling Laws (leyes de escala)

Más datos + más parámetros + más compute = modelo más capaz. No es magia: es una relación predecible (Kaplan et al., 2020). Explica por qué la industria invierte miles de millones en clusters de GPUs.

Para profundizar

Stanford CS324 - Large Language Models (curso completo)

686f6c61

06 La neurona artificial

Todo empieza aquí. Una neurona artificial es una función matemática que recibe números, los multiplica por pesos, suma un sesgo y aplica una función de activación.

En código

 // Una neurona es literalmente esto:
 function neurona(inputs, weights, bias) {

  const sum = inputs.reduce((acc, x, i) => acc + x * weights[i], 0);

  return activation(sum + bias);

}

 // Ejemplo: neurona con 3 entradas

neurona([0.5, 0.3, 0.8], [0.2, -0.4, 0.7], 0.1);
 // sum = 0.5*0.2 + 0.3*(-0.4) + 0.8*0.7 + 0.1 = 0.64
 // output = activation(0.64) 

Funciones de activación

Función	Fórmula	Cuándo se usa
ReLU	`max(0, x)`	Capas ocultas. La más usada por su simplicidad y eficiencia
Sigmoid	`1 / (1 + e^-x)`	Salida entre 0 y 1. Clasificación binaria
Softmax	Normaliza a probabilidades	Capa final. Distribución de probabilidades sobre clases
Tanh	`(e^x - e^-x) / (e^x + e^-x)`	Salida entre -1 y 1. Usada en RNNs/LSTMs

Para ingenieros

Una neurona es una función pura con parámetros aprendidos (pesos y bias). La "inteligencia" no está en una neurona individual: está en los miles de millones de parámetros ajustados durante el entrenamiento. Un LLM como Claude tiene cientos de miles de millones de estos "pesos".

686f6c61

07 Redes neuronales: capas y arquitectura

Una red neuronal es un grafo de neuronas organizadas en capas. Cada capa transforma los datos y los pasa a la siguiente.

Estructura de una red (MLP)

Input layer
(tus datos) → Hidden layer 1
(patrones simples) → Hidden layer 2
(patrones complejos) → Output layer
(predicción)

¿Qué aprende cada capa?

Capas tempranas

Detectan patrones simples: bordes, colores, frecuencias. En texto: n-gramas, patrones sintácticos

Capas intermedias

Combinan patrones simples en conceptos: formas, texturas, relaciones entre palabras

Capas profundas

Abstracciones de alto nivel: objetos completos, significado semántico, razonamiento

"Deep" learning = muchas capas

Una red con 2-3 capas es "shallow". Con decenas o cientos de capas es "deep". GPT-4 tiene 120+ capas de transformer. Más capas = más capacidad de abstracción, pero más difícil y caro de entrenar.

Para profundizar

TensorFlow Playground (demo interactiva)

686f6c61

08 Cómo aprende una red: backpropagation

El entrenamiento es un bucle: predice, mide el error, ajusta los pesos, repite. Miles de millones de veces.

El bucle de entrenamiento

1. Forward pass
(datos → predicción) → 2. Calcular loss
(predicción vs realidad) → 3. Backward pass
(calcular gradientes) → 4. Actualizar pesos
(gradient descent) ↻

En pseudocódigo

 for epoch in range(num_epochs):

  for batch in dataloader:

    prediction = model.forward(batch.input)  # 1. Forward

    loss = loss_fn(prediction, batch.target) # 2. Loss

    loss.backward()                        # 3. Gradientes

    optimizer.step()                       # 4. Actualizar

    optimizer.zero_grad()                  # Reset gradientes

Analogía: bajar una montaña con niebla

Imagina que estás en una montaña con niebla y quieres llegar al valle (mínimo de la función de pérdida). No ves el camino, pero puedes sentir la pendiente bajo tus pies. En cada paso, avanzas en la dirección que baja más (gradiente). El learning rate es el tamaño del paso: muy grande y te pasas del valle, muy pequeño y tardas una eternidad.

Para profundizar

3Blue1Brown - Backpropagation (vídeo)

686f6c61

09 Funciones de pérdida y optimizadores

La función de pérdida mide cuánto se equivoca el modelo. El optimizador decide cómo ajustar los pesos para reducir ese error.

Funciones de pérdida principales

Función	Cuándo se usa	Qué mide
Cross-Entropy	Clasificación, LLMs	Diferencia entre distribución predicha y real. La que usan los LLMs: mide si el token predicho es el correcto
MSE	Regresión	Media del cuadrado de los errores. Para predecir valores numéricos
Contrastive Loss	Embeddings	Acercar ejemplos similares y alejar los diferentes en el espacio vectorial

Optimizadores

Optimizador	Idea clave	Uso
SGD	Gradient descent con mini-batches	Simple, funciona bien con buen tuning
Adam	Learning rate adaptativo por parámetro	El más usado. Funciona bien "out of the box"
AdamW	Adam + weight decay correcto	El estándar para entrenar LLMs y transformers

Problemas comunes del entrenamiento

Overfitting

El modelo memoriza los datos de entrenamiento pero falla con datos nuevos. Solución: dropout, regularización, más datos

Vanishing gradients

Los gradientes se hacen tan pequeños que las capas profundas no aprenden. Solución: ReLU, skip connections, normalización

Para profundizar

DeepLearning.AI - Cursos de Andrew Ng

686f6c61

10 CNNs: redes convolucionales para visión

Las Convolutional Neural Networks revolucionaron la visión por computador. En vez de mirar cada píxel por separado, aplican filtros que detectan patrones locales.

Flujo de una CNN

Imagen (píxeles) → Convoluciones (filtros) → Pooling (reducir) → Más conv + pool → Clasificación

Conceptos clave

Convolución

Un filtro pequeño (3x3, 5x5) que se desliza por la imagen. Detecta un patrón local: borde horizontal, esquina, textura. Múltiples filtros detectan múltiples patrones

Pooling

Reduce la resolución manteniendo la información importante. Max pooling: toma el valor máximo de cada zona. Hace la red invariante a pequeños desplazamientos

Feature maps

La salida de cada capa de convolución. Capas tempranas: bordes y colores. Capas profundas: ojos, ruedas, letras. La red "aprende" qué patrones son relevantes

Skip connections (ResNet)

Atajos que permiten que la información salte capas. Resolvió el problema de entrenar redes muy profundas (100+ capas). Innovación clave de 2015

Relevancia actual

Las CNNs siguen siendo la base de la visión por computador (detección de objetos, segmentación). Los Vision Transformers (ViT) las están reemplazando en algunas tareas, pero las CNNs dominan en edge/móvil por su eficiencia. Stable Diffusion usa un U-Net (basado en CNNs) para el denoising.

Para profundizar

CNN Explainer (demo interactiva) Stanford CS231n - CNNs

686f6c61

11 RNNs y LSTMs: redes para secuencias

Antes de los Transformers, las Recurrent Neural Networks eran la forma de procesar secuencias (texto, audio, series temporales). Entenderlas explica por qué el Transformer fue revolucionario.

Cómo funciona una RNN

Token 1 → RNN (hidden state) → Token 2 + state → RNN (actualiza state) → Token 3 + state...

Procesa un token a la vez, manteniendo un "estado oculto" (hidden state) que resume todo lo que ha visto antes. El problema: al llegar al token 500, ya ha "olvidado" el token 1.

RNN vs LSTM vs Transformer

	RNN	LSTM	Transformer
Procesamiento	Secuencial	Secuencial	Paralelo
Memoria	Corto plazo	Largo plazo (gates)	Toda la secuencia
Contexto máximo	~100 tokens	~500 tokens	128K-1M+ tokens
Paralelizable	No	No	Sí (GPUs)
Velocidad	Lenta	Lenta	Rápida

¿Por qué el Transformer ganó?

Dos razones: (1) paralelismo: mira todos los tokens a la vez, aprovechando GPUs masivamente paralelas. (2) atención: en vez de comprimir todo en un hidden state fijo, cada token puede "mirar" directamente a cualquier otro token de la secuencia. Más detalles en la slide de Transformers.

Para profundizar

Colah - Understanding LSTMs

686f6c61

12 ¿Qué es un token?

Un token es la unidad mínima que procesa el modelo. No es una palabra ni un carácter: es un trozo de texto que el tokenizador decide según su vocabulario.

Ejemplos de tokenización

 // Cada [...] es un token
 "Hola mundo" → ["Hola", " mundo"] // 2 tokens
 "desarrolladores" → ["des", "arrol", "ladores"] // 3 tokens
 "function getName()" → ["function", " get", "Name", "()"] // 4+ tokens 

Palabras frente a tokens

1 token ≈ 4 caracteres en inglés, ≈ 3 en español. El español gasta más tokens porque los tokenizadores se entrenan mayoritariamente con texto en inglés.

Frase	Palabras	Tokens (aprox.)	Ratio
"Hello world"	2	2	1:1
"Hola mundo"	2	2-3	~1:1.25
"Machine learning is great"	4	4	1:1
"El aprendizaje automático es genial"	5	7-8	1:1.5
`const getData = async () => {}`	7	10-12	1:1.6

En español se gastan más tokens que en inglés para decir lo mismo (~20-30% más). Los tokenizadores se entrenan mayoritariamente con texto en inglés.
El modelo no ve texto: ve secuencias de números (IDs de token). Cada token tiene un ID único en el vocabulario del modelo.
Todo se mide en tokens: el context window, el precio de la API, el límite de respuesta. Es la "moneda" de la IA.
Regla rápida: 1 token ≈ 3/4 de una palabra en inglés, algo menos en español.

Para profundizar

OpenAI Tokenizer (prueba interactiva) The Building Blocks of LLMs: Vectors, Tokens and Embeddings

686f6c61

13 ¿Qué es un embedding?

Un embedding es la representación numérica de un concepto (palabra, frase, imagen, código...). Convierte texto en un vector de cientos o miles de números. Cada número representa una dimensión del significado.

¿Qué es una dimensión?

Un vector de embedding tiene cientos o miles de componentes. Cada componente (dimensión) codifica un aspecto del significado: puede capturar si algo es animado/inanimado, positivo/negativo, concreto/abstracto, etc. No hay etiquetas explícitas: el modelo las descubre durante el entrenamiento.

 // "gato" representado como vector de 1536 dimensiones
 // Cada número es una dimensión que captura un aspecto del significado
 "gato" → [

  0.23,  // dim 0: ¿animado? (positivo = sí)

  -0.87, // dim 1: ¿abstracto? (negativo = concreto)

  0.45,  // dim 2: ¿doméstico? (positivo = sí)

  0.12,  // dim 3: ¿tamaño? (cercano a 0 = pequeño)

  ...    // ... hasta 1536 dimensiones

]

 "felino" → [0.21, -0.85, 0.48, 0.11, ...] // muy cercano a "gato"
 "JavaScript" → [-0.56, 0.33, -0.12, 0.78, ...] // completamente diferente 

Más dimensiones = más matices

Con 2 dimensiones solo puedes distinguir arriba/abajo e izquierda/derecha. Con 1536 dimensiones puedes codificar miles de matices de significado. Por eso los modelos de embedding modernos usan entre 768 y 3072 dimensiones.

Analogía: espacio semántico

Imagina un mapa donde las palabras se colocan según su significado. "Perro" y "gato" están cerca (ambos son animales). "Python" y "JavaScript" están cerca (ambos son lenguajes). Pero "perro" y "Python" están lejos. El embedding es la coordenada de cada palabra en ese mapa de miles de dimensiones.

Para profundizar

Pinecone - Vector Embeddings Explained Jay Alammar - The Illustrated Word2Vec

686f6c61

14 Embeddings en la práctica

Aritmética de significado

Los embeddings capturan relaciones semánticas que se pueden operar como vectores:

 // Analogías clásicas de Word2Vec

rey - hombre + mujer ≈ reina

Madrid - España + Francia ≈ Paris

Python - scripting + compilado ≈ Go

Similitud semántica

Par de palabras	Similitud coseno	Interpretación
"gato" / "felino"	~0.92	Muy cercanos: cuasi-sinónimos
"gato" / "perro"	~0.80	Cercanos: misma categoría (animal)
"gato" / "coche"	~0.25	Lejanos: conceptos sin relación
"deploy" / "desplegar"	~0.85	Cercanos: mismo concepto, distinto idioma

La clave: conceptos similares quedan cerca en el espacio vectorial. Esto permite buscar por significado, no por palabras exactas.

¿Para qué sirven?

Búsqueda semántica: encontrar documentos por significado ("¿cómo despliego en producción?" encuentra docs sobre "deploy to prod")
RAG (Retrieval-Augmented Generation): así se buscan los fragmentos relevantes para inyectar en el prompt del modelo
Clasificación: agrupar textos similares automáticamente (tickets de soporte, emails...)
Detección de duplicados: comparar si dos textos dicen lo mismo con palabras diferentes

Modelos de embedding (marzo 2026)

Modelo	Empresa	Dimensiones	Punto fuerte
text-embedding-3-large	OpenAI	3072	Alta calidad general. Dimensiones configurables (256-3072). Buen equilibrio coste/rendimiento.
Voyage 3	Anthropic (Voyage AI)	1024	Recomendado por Anthropic. Excelente en código y documentación técnica. Menor dimensionalidad, más rápido.
BGE-M3	BAAI (open source)	1024	Multilingüe (100+ idiomas). Búsqueda híbrida (densa + dispersa). Ideal si necesitas soporte robusto de español.
E5-Mistral	Microsoft (open source)	4096	Basado en Mistral 7B. Muy alta calidad en benchmarks. Requiere más compute por su tamaño.
Cohere Embed v3	Cohere	1024	Compresión nativa (binary/int8). Reduce almacenamiento x32 con mínima pérdida de calidad.

Los embeddings se almacenan en bases de datos vectoriales: Pinecone, Chroma, Weaviate, pgvector. La elección del modelo depende del idioma, tipo de contenido y presupuesto.

No confundir

El modelo de embedding solo convierte texto a vector. No genera texto. Es diferente del LLM. Los embeddings sirven para buscar; el LLM sirve para generar.

Para profundizar

Pinecone - Vector Embeddings Explained Jay Alammar - The Illustrated Word2Vec

686f6c61

15 Entrenamiento vs inferencia

Entrenamiento

El proceso de crear el modelo. Se ajustan billones de parámetros con datos masivos.

Datos masivos → Pre-entrenamiento → RLHF → Modelo listo

Aspecto	Valor
Duración	Semanas a meses
Hardware	Miles de GPUs (A100/H100)
Coste	Millones de dólares
Quién lo hace	Anthropic, OpenAI, Google, Meta
Frecuencia	Cada pocos meses

Inferencia

Usar el modelo ya entrenado para obtener respuestas. Es lo que haces cuando chateas con Claude o llamas a la API.

Tu prompt → Modelo → Respuesta

Aspecto	Valor
Duración	Segundos
Hardware	1 GPU o CPU optimizada
Coste	Céntimos por petición
Quién lo hace	Cualquiera con acceso a la API
Frecuencia	Miles de veces por segundo

Fine-tuning

Reentrenar parcialmente un modelo existente con tus propios datos. Mucho más barato que entrenar desde cero. Cambia el comportamiento y estilo del modelo, pero no le "enseña" datos nuevos en tiempo real. Para acceder a datos propios cambiantes, es mejor usar RAG.

Para profundizar

Hugging Face - Training and fine-tuning

686f6c61

16 Quantización: modelos que caben en tu portátil

Comprimir el modelo reduciendo la precisión numérica de cada parámetro. Un modelo guarda millones de números decimales (pesos). La quantización reduce cuántos bits usa cada uno.

Formato	Bits por peso	Rango de valores	RAM para 7B params	Calidad
FP32 (original)	32 bits	~7 dígitos decimales	~28 GB	Máxima
FP16	16 bits	~3-4 dígitos	~14 GB	Casi igual
INT8 (Q8)	8 bits	256 valores posibles	~7 GB	Muy buena
INT4 (Q4)	4 bits	16 valores posibles	~3.5 GB	Aceptable

 // Ejemplo: un peso del modelo en diferentes precisiones
 FP32: 0.18723541498... // precisión total, 32 bits
 FP16: 0.1872          // pierde decimales, 16 bits
 INT8: 0.19             // redondeado, 8 bits
 INT4: 0.2              // muy redondeado, 4 bits

 // La clave: con billones de parámetros, cada bit cuenta
 // 7B params x 32 bits = 28 GB → 7B x 4 bits = 3.5 GB 

Esto es lo que hace posible LM Studio y Ollama: ejecutar modelos de 7B-70B parámetros en tu portátil usando formatos GGUF quantizados (Q4, Q5, Q8). A menor precisión, menor calidad, pero la pérdida suele ser sorprendentemente pequeña para la mayoría de tareas.

Formatos GGUF habituales

Q4_K_M: 4 bits con corrección K-means. Buena relación calidad/tamaño. El más usado en Ollama.
Q5_K_M: 5 bits. Mayor calidad que Q4, sigue cabiendo en portátiles con 16 GB.
Q8_0: 8 bits. Casi sin pérdida de calidad. Requiere ~7 GB para un modelo de 7B parámetros.

Para profundizar

Hugging Face - Quantization

686f6c61

17 Lo que deberías saber: fundamentos

Concepto	Slide
La IA no piensa ni es consciente: es predicción estadística	2-3
Sistemas estocásticos: misma entrada, distintas salidas	4
Aprendizaje supervisado, no supervisado, RLHF	5
Neurona artificial = función con pesos, bias y activación	6
Redes neuronales: capas que aprenden abstracciones	7
Backpropagation: forward, loss, backward, update	8
Overfitting, vanishing gradients, optimizadores (Adam)	9
CNNs para imágenes, RNNs/LSTMs para secuencias	10-11
Token = unidad mínima que procesa el modelo	12
Embedding = vector numérico que codifica significado	13-14
Entrenamiento (crear el modelo) vs inferencia (usarlo)	15
Quantización: comprimir modelos para hardware modesto	16

686f6c61

Arquitecturas y modelos

Transformers, Mixture of Experts, LLMs y los parámetros que controlan su comportamiento.

686f6c61

19 ¿Qué es un modelo LLM?

Large Language Model: un modelo de lenguaje a gran escala. Entrenado con cantidades masivas de texto (internet, libros, código...) para predecir el siguiente token dada una secuencia.

Generación de texto

Redacción, resumen, traducción, reformulación de contenido

Razonamiento

Lógica, matemáticas, análisis, resolución de problemas complejos

Código

Generación, depuración, refactorización en múltiples lenguajes

Multilingüe

Comprensión y generación en decenas de idiomas simultáneamente

Modelos principales (marzo 2026)

Modelo	Empresa	Context window	Tipo
Claude Opus 4.6	Anthropic	200k tokens	Propietario
Claude Sonnet 4.6	Anthropic	200k tokens	Propietario
GPT-5.2	OpenAI	128k tokens	Propietario
Gemini 3	Google	1M+ tokens	Propietario
Llama 3	Meta	128k tokens	Open source
Mistral / Mixtral	Mistral AI	32-128k tokens	Open source
Qwen	Alibaba	128k tokens	Open source

Idea clave

El modelo no "sabe" cosas: calcula probabilidades sobre patrones aprendidos. La escala importa: capacidades emergentes aparecen con más parámetros. Pero más grande no siempre es mejor para tu caso de uso.

Para profundizar

Wikipedia - Large Language Model A Survey of Large Language Models (paper)

686f6c61

20 Arquitecturas

Evolución de las arquitecturas

Las arquitecturas de redes neuronales han evolucionado radicalmente en la última década. Cada salto resolvió limitaciones fundamentales del anterior.

Perceptron (1958) → RNN (1986) → LSTM (1997) → Transformer (2017) → LLMs actuales

De RNN a Transformer

Arquitectura	Cómo procesa	Limitación	Solución
RNN	Token a token, secuencial	Olvida el inicio en secuencias largas	LSTM con "celdas de memoria"
LSTM	Secuencial, con memoria a largo plazo	Lenta (no paralelizable), límite práctico ~500 tokens	Transformer con atención
Transformer	Todos los tokens en paralelo	Coste cuadrático con la longitud de secuencia	MoE, atención dispersa, contextos extendidos

Variantes del Transformer

Año	Arquitectura	Tipo	Para qué	Ejemplos	Paper
2017	Transformer	Base	Secuencia a secuencia	Modelo original	Attention Is All You Need
2018	Encoder-only	Comprensión	Clasificar, analizar	BERT	BERT (Devlin et al.)
2018-26	Decoder-only	Generación	Generar texto, código	GPT, Claude, Llama	GPT-1 (Radford et al.)
2019	Encoder-Decoder	Seq2Seq	Traducción, resumen	T5, BART	T5 (Raffel et al.)
2020	Vision Transformer	Vision	Imágenes	ViT, CLIP	ViT (Dosovitskiy et al.)
2023-26	Multimodal	Varios	Texto + imagen + audio	GPT-5.2, Gemini 3, Claude	GPT-4 Technical Report

Los modelos que usamos hoy (Claude, GPT, Llama) son todos decoder-only Transformers. La arquitectura Transformer de 2017 fue el punto de inflexión que hizo posible todo lo que vino después.

Para profundizar

Paper original: Attention Is All You Need (2017) DataCamp - How Transformers Work

686f6c61

21 ¿Cómo funciona un Transformer?

Analogía

Imagina que estás leyendo una frase y tienes que adivinar la siguiente palabra. El Transformer lee TODAS las palabras a la vez (no una por una como se hacía antes con las RNN).

Atención = subrayar lo importante

"El gato se subió al árbol porque tenía miedo" → "tenía" mira a "gato" para saber QUIEN tenía miedo. Es como subrayar las palabras importantes para entender cada parte de la frase.

Paso a paso simplificado

El texto se trocea en tokens (palabras o trozos de palabras)
Cada token se convierte en un vector (embedding) con su significado y posición
El mecanismo de atención compara cada token con todos los demás: "¿quién es relevante para quién?"
Esta información se mezcla y se pasa por redes neuronales
Al final, el modelo predice: "la siguiente palabra más probable es..."

Flujo del mecanismo de atención

Token actual ("tenía") → Query: "¿quién es relevante?" → Key: cada token ofrece su "etiqueta" → Puntuación: similitud Q*K → Value: información ponderada → Salida enriquecida

Analogía de la reunión

Imagina una reunión donde cada persona (token) tiene una pregunta (Query), una tarjeta de presentación (Key) y una respuesta útil (Value). Cada persona mira las tarjetas de todos, decide a quién prestar atención, y combina las respuestas de los más relevantes. Eso es exactamente lo que hace Self-Attention.

¿Por qué fue revolucionario?

Cómo mira todo a la vez (en paralelo), se puede distribuir en miles de GPUs. Esto permitió entrenar con MUCHOS más datos que antes. Más datos + más parámetros = modelos más capaces.

Para profundizar

Jay Alammar - The Illustrated Transformer (la mejor guía visual) Transformer Explainer (demo interactiva)

686f6c61

22 Arquitectura MoE (Mixture of Experts)

En vez de un modelo monolítico donde todos los parámetros se activan en cada petición, MoE divide el modelo en múltiples "expertos" especializados.

Flujo de una petición MoE

Token de entrada → Router (gate) → Experto 3 + Experto 7 → Combinar salidas → Resultado

Cómo funciona el routing

Un router (red neuronal pequeña) decide qué expertos activa para cada token
Cada experto es una red feed-forward completa, especializada en ciertos patrones
Solo se activa una fracción de los parámetros por inferencia (ej: 2 de 8 expertos)
El router asigna pesos a los expertos activos; la salida final es la suma ponderada
Se aplica load balancing durante el entrenamiento para que todos los expertos se utilicen de forma equilibrada

Modelo denso frente a MoE

Modelo denso (ej: Llama 3)

Todos los parámetros se activan en cada petición. 70B parámetros = 70B activos siempre. Más simple de entrenar, pero el coste computacional crece linealmente con el tamaño del modelo.

70B params 70B activos 100% uso

Modelo MoE (ej: Mixtral)

Solo una fracción se activa por petición. 8x7B = 56B parámetros totales, pero solo 2x7B = 14B activos por token. Modelo grande en capacidad, pequeño en coste por inferencia.

56B params totales 14B activos 25% uso

Mixtral: 8 expertos, activa 2 por token. GPT-4 y GPT-5.2 usan variantes de MoE
Trade-off: más parámetros totales (más memoria para almacenar), pero menos activos por petición (más rápido y barato)

Para profundizar

Hugging Face - Mixture of Experts Explained A Visual Guide to Mixture of Experts

686f6c61

23 El mecanismo de atención en detalle

La atención permite que cada token "mire" a todos los demás para decidir cuáles son relevantes. Aquí están las matemáticas detrás, simplificadas.

Las matrices Q, K, V

 // Cada token se proyecta en 3 vectores:

Q = token × W_query   // "¿Qué busco?"

K = token × W_key     // "¿Qué ofrezco?"

V = token × W_value   // "¿Qué información tengo?"

 // Puntuación de atención:

score = (Q × K^T) / sqrt(d_k)  // Similitud Q-K, escalada

weights = softmax(score)       // Normalizar a probabilidades

output = weights × V           // Suma ponderada de valores

Multi-head attention

En vez de una sola atención, el modelo ejecuta múltiples "cabezas" en paralelo (32-128 en modelos grandes). Cada cabeza aprende a fijarse en algo diferente: una en sintaxis, otra en semántica, otra en correferencia. Los resultados se concatenan.

Positional encoding

Como el Transformer procesa todos los tokens en paralelo, no sabe el orden. Se le añade información de posición a cada token:

Tipo	Cómo funciona	Quién lo usa
Sinusoidal	Funciones seno/coseno de distinta frecuencia	Transformer original (2017)
Aprendido	Embeddings de posición entrenados	GPT, BERT
RoPE	Rotary Position Embedding. Codifica posiciones relativas	Llama, Qwen, la mayoría de LLMs modernos

¿Por qué escalar por sqrt(d_k)?

Sin escalar, los dot products crecen con la dimensión y los softmax se saturan (todos los pesos van a un solo token). Dividir por sqrt(d_k) mantiene la varianza estable. Es un truco numérico simple pero crítico.

Para profundizar

Jay Alammar - The Illustrated Transformer RoPE - Paper (Su et al., 2021)

686f6c61

24 Tokenización en profundidad

El tokenizador convierte texto en números antes de que el modelo lo vea. Cómo se tokeniza afecta directamente al rendimiento, al coste y al soporte multilingüe.

Algoritmos principales

Algoritmo	Cómo funciona	Quién lo usa
BPE	Empieza con caracteres individuales y fusiona los pares más frecuentes iterativamente. "low" + "er" = "lower"	GPT, Llama, Claude
WordPiece	Similar a BPE pero maximiza la probabilidad del corpus en cada fusión	BERT, DistilBERT
SentencePiece	Trata el texto como secuencia de bytes, sin presuponer espacios entre palabras. Ideal para idiomas sin espacios (chino, japonés)	T5, Llama, modelos multilingües

Impacto en idiomas

 // Tokenización de la misma frase en distintos idiomas:
 "Hello world" → ["Hello", " world"]         // 2 tokens
 "Hola mundo"  → ["H", "ola", " mundo"]    // 3 tokens
 "こんにちは世界" → ["こん", "にち", "は", "世界"] // 4 tokens

 // Mismo significado, distinto coste.
 // Inglés siempre es el más eficiente (más datos de entrenamiento) 

Implicaciones prácticas

Coste: más tokens = más caro. Español gasta ~20-30% más tokens que inglés para el mismo contenido
Calidad: si una palabra se parte en muchos tokens, el modelo la "entiende" peor. Palabras raras o técnicas se fragmentan más
Context window: el límite es en tokens, no en palabras. Un documento en español consume más context que el mismo en inglés

Para ingenieros

Puedes contar tokens antes de enviar a la API con tiktoken (OpenAI) o las librerías de Anthropic. Si tu prompt es largo, tokeniza primero para estimar coste y verificar que cabe en el context window.

Para profundizar

OpenAI Tokenizer (prueba interactiva) Hugging Face Tokenizers

686f6c61

25 Transfer learning: el paradigma que lo cambió todo

Antes de transfer learning, cada tarea requería entrenar un modelo desde cero. Hoy, se pre-entrena una vez con datos masivos y se adapta a cualquier tarea con poco esfuerzo.

Flujo de transfer learning

Pre-training
(billones de tokens, semanas) → Modelo base
(conocimiento general) → Fine-tuning / Prompt
(tu tarea específica) → Modelo especializado
(listo para usar)

Evolución del paradigma

Era	Enfoque	Ejemplo
Pre-2018	Entrenar desde cero para cada tarea	Un modelo para sentiment, otro para NER, otro para traducción
2018-2022	Pre-train + fine-tune	BERT pre-entrenado → fine-tune para tu tarea. Semanas → horas
2022-2026	Pre-train + prompt (zero/few-shot)	GPT/Claude ya saben hacer casi todo. Solo necesitas un buen prompt

Hitos del transfer learning

ImageNet (2012): AlexNet demostró que features aprendidas en ImageNet se transfieren a cualquier tarea de visión. Empezó la revolución
Word2Vec (2013): embeddings pre-entrenados reutilizables para cualquier tarea de NLP
BERT (2018): pre-training bidireccional masivo. Fine-tune con 1000 ejemplos superaba modelos entrenados con millones
GPT-3 (2020): demostró que con suficiente escala, el fine-tuning ni siquiera es necesario: basta con describir la tarea en el prompt

Por qué importa para ti

Transfer learning es la razón por la que puedes usar Claude o GPT para cualquier tarea sin entrenar nada. El modelo ya "sabe" programar, traducir, analizar... porque lo aprendió durante el pre-training. Tu trabajo es darle el contexto adecuado, no entrenarlo.

Para profundizar

BERT - Paper original (Devlin et al., 2018) Sebastian Ruder - Transfer Learning in NLP

686f6c61

26 ¿Cómo funciona MoE?

Analogía

Imagina un hospital con médicos especialistas. Cuando llegas con dolor de muelas, no te atienden todos los médicos: te mandan al dentista. El recepcionista (router) decide a qué especialista mandarte según tu problema.

Así funciona MoE

El modelo tiene muchos "expertos" (redes neuronales especializadas)
Cuando llega un token, el router lo mira y decide: "esto lo sabe el experto 3 y el experto 7"
Solo esos 2 expertos trabajan, los otros 6 descansan
Las respuestas de los 2 expertos se combinan para dar el resultado final

¿Por qué es brillante?

Puedes tener un modelo con 100.000 millones de parámetros, pero en cada pregunta solo usas 20.000 millones → rápido y barato. Mixtral: 8 expertos, activa 2 por token. Resultado: rendimiento de un modelo 4x mayor con el coste de uno pequeño.

Para profundizar

Louis Bouchard - MoE Explained Simply (explicación visual)

686f6c61

27 Parámetros de configuración de un modelo

Parámetros principales

Parámetro	Rango	Qué controla
`temperature`	0.0 - 2.0	Aleatoriedad de la salida. 0 = casi determinista, 0.7 = equilibrio, 1.5+ = creativo
`top_p`	0.0 - 1.0	Nucleus sampling. Solo considera tokens cuya probabilidad acumulada sume hasta p
`top_k`	1 - N	Solo considera los k tokens más probables
`max_tokens`	1 - límite	Límite de tokens en la respuesta (no confundir con context window)
`stop`	strings	Secuencias que cortan la generación
`system`	texto	Instrucciones que definen el comportamiento base del modelo
`frequency_penalty`	-2.0 - 2.0	Penaliza la repetición de tokens

Ejemplo práctico: llamada a la API

 import Anthropic from "@anthropic-ai/sdk";

 const client = new Anthropic();
 const response = await client.messages.create({

  model: "claude-sonnet-4-6",

  max_tokens: 1024,        // Límite de respuesta

  temperature: 0.3,        // Bajo = preciso

  system: "Eres un experto en Python.",

  messages: [{

    role: "user",

    content: "Explica list comprehensions"

  }]

});

¿Cuándo usar qué?

temperature 0-0.3: código, datos, respuestas factuales. temperature 0.5-0.7: redacción equilibrada. temperature 0.8+: escritura creativa, brainstorming. Regla general: ajusta temperature O top_p, no ambos a la vez.

Analogía

temperature es "cuanto riesgo toma al elegir la siguiente palabra". Un valor bajo es conservador (elige lo seguro), un valor alto es atrevido (puede sorprender o desvariar).

¿Qué hace top_p (nucleus sampling)?

Imagina que el modelo ha calculado las probabilidades de los siguientes tokens posibles:

Token	Probabilidad	Prob. acumulada	¿Entra con top_p=0.9?
"hola"	0.40	0.40	Sí
"buenos"	0.30	0.70	Sí
"saludos"	0.15	0.85	Sí
"hey"	0.08	0.93	Sí (supera 0.9 aquí)
"estimado"	0.04	0.97	No (ya se pasó de 0.9)
"querido"	0.03	1.00	No

Con top_p=0.9 solo se consideran los tokens cuya probabilidad acumulada no supere el 90%. Se descartan los menos probables ("estimado", "querido") y se elige entre los restantes. Cuanto menor el valor, más conservador: top_p=0.1 solo elige entre el top 10% de probabilidad.

¿Qué hace top_k?

Más simple: solo mira los k tokens más probables, independientemente de cuánta probabilidad acumulen.

top_k=1: siempre elige el token más probable (greedy, casi determinista)
top_k=10: elige entre los 10 más probables
top_k=50: bastante diverso, 50 candidatos
top_k=0 o sin límite: considera todos los tokens del vocabulario

Diferencia clave entre top_p y top_k

top_k siempre mira un número fijo de candidatos. top_p es adaptativo: si un token tiene el 95% de probabilidad, con top_p=0.9 solo ese entra (1 candidato). Si las probabilidades están repartidas, pueden entrar muchos. Por eso top_p suele dar mejores resultados: se adapta a cada predicción.

Para profundizar

Anthropic - Prompt Engineering OpenAI - API Reference (Chat)

686f6c61

28 Modelos de razonamiento (thinking models)

Algunos modelos pueden "pensar antes de responder". Usan tokens internos de razonamiento (thinking tokens) que no se muestran al usuario pero mejoran la calidad en tareas complejas.

Extended thinking

Claude: el modelo razona paso a paso internamente antes de dar la respuesta. Puedes ver el proceso de pensamiento

Reasoning models

o1/o3 de OpenAI: modelos entrenados específicamente para razonar. Más lentos pero mejores en matemáticas, lógica y código complejo

Thinking tokens

Tokens que el modelo usa para razonar pero que no aparecen en la respuesta final. Se pagan igualmente y cuentan para el context window

Trade-offs

Más lentos y caros. No siempre mejores: para tareas simples, un modelo estándar es más rápido y barato

¿Cuándo usar thinking vs estándar?

Tarea	Recomendación
Tarea simple de texto	Estándar
Matemáticas complejas	Thinking
Código con lógica compleja	Thinking
Resumen / traducción	Estándar
Análisis multi-paso	Thinking
Chat rápido	Estándar

Regla práctica

Usa modelos de razonamiento cuando la tarea requiere planificación, lógica multi-paso o análisis profundo. Para todo lo demás, un modelo estándar (Sonnet, GPT-5.2) es más eficiente.

Para profundizar

Anthropic - Extended Thinking docs OpenAI - Reasoning models docs

686f6c61

29 Modelos multimodales nativos

En 2026, los modelos frontier ya no procesan texto e imágenes con pipelines separados: son nativamente multimodales. Un solo modelo entiende texto, imagen, audio y vídeo de forma unificada.

Pipeline vs nativo

Pipeline (2022-2023)

Modelo de texto + modelo de visión + modelo de audio pegados con código. Cada uno entrenado por separado. Pierden contexto entre modalidades.

Componentes separados Pérdida de contexto

Nativo (2025-2026)

Un solo modelo entrenado con texto, imágenes, audio y vídeo juntos. Entiende relaciones entre modalidades. "Describe el sonido de este vídeo" funciona.

Modelo unificado Contexto cruzado

Estado del arte (marzo 2026)

Modelo	Texto	Imagen	Audio	Vídeo	Generación
Gemini 3	Sí	Sí	Sí	Sí (1h+)	Texto + imagen
GPT-5.2	Sí	Sí	Sí	Sí (limitado)	Texto + imagen + audio
Claude Opus 4.6	Sí	Sí	En desarrollo	No	Texto

¿Qué cambia para un ingeniero?

Una sola API para todo: envías texto, imágenes, audio y vídeo en la misma llamada. No necesitas integrar servicios separados
Razonamiento cruzado: "¿Este diagrama de arquitectura coincide con la documentación?" El modelo entiende ambos formatos
Generación multimodal: pides texto y el modelo puede devolver texto + imágenes + audio en la misma respuesta

Tendencia 2026

La distinción entre "modelo de texto" y "modelo de visión" está desapareciendo. En 2-3 años, todos los modelos serán multimodales por defecto. Diseña tus apps para recibir y enviar múltiples modalidades desde el principio.

Para profundizar

Google - Gemini Anthropic - Vision

686f6c61

30 Open source vs propietario: ¿cuál elegir?

No todos los modelos son iguales ni se licencian igual. Entender la diferencia entre open source y propietario es clave para elegir la herramienta correcta.

Modelos principales

Modelo	Empresa	Tipo	Licencia	Punto fuerte
Claude Opus/Sonnet	Anthropic	Propietario	Comercial	Razonamiento y código
GPT-5.2	OpenAI	Propietario	Comercial	Multimodal y ecosistema
Gemini 3	Google	Propietario	Comercial	Contexto 1M+ y multimedia
Llama 3	Meta	Open source	Llama License	El más adoptado, fine-tuning fácil
Mistral/Mixtral	Mistral AI	Open source	Apache 2.0	MoE eficiente, buen rendimiento/coste
Qwen 3	Alibaba	Open source	Apache 2.0	Multilingüe, fuerte en chino
Phi-4	Microsoft	Open source	MIT	Pequeño pero potente, ideal para edge
Gemma 3	Google	Open source	Gemma License	Ligero, optimizado para móvil/edge

Propietario vs open source

Propietario

Mejor rendimiento general
Más fácil de empezar (API)
Soporte empresarial y SLAs
No puedes ver ni modificar los pesos
Dependencia del proveedor

Open source

Ejecutar en tu infraestructura
Privacidad total: datos nunca salen
Personalizar: fine-tuning, quantizar, modificar
Sin coste de licencia (pagas compute)
Más control, más responsabilidad

¿Cómo elegir?

Si necesitas máximo rendimiento y no te importa la dependencia: propietario (Claude, GPT). Si necesitas privacidad o personalización: open source (Llama, Mistral). En la práctica, muchos equipos combinan ambos.

Para profundizar

Hugging Face Open LLM Leaderboard Artificial Analysis - model comparison

686f6c61

31 Destilación de modelos

Analogía

Un profesor experto (modelo grande) enseña a un alumno (modelo pequeño). El alumno no estudia los libros originales: aprende de las respuestas y razonamientos del profesor. No será tan bueno en todo, pero en su especialidad puede acercarse mucho.

¿Qué es la destilación?

Entrenar un modelo pequeño para que replique el comportamiento de uno grande (teacher → student). El modelo grande genera datos de entrenamiento (respuestas, razonamientos) y el pequeño aprende a imitarlo.

Aspecto	Modelo teacher	Modelo student
Tamaño	70B - 700B+ parámetros	1B - 14B parámetros
Coste inferencia	Alto (GPU potente)	Bajo (puede correr en CPU)
Capacidad general	Amplia	Reducida, pero especializada
Latencia	Alta	Baja

Caso real: DeepSeek-R1

DeepSeek-R1 (671B) fue destilado a modelos de 1.5B, 7B, 8B, 14B, 32B y 70B. Los modelos destilados mantienen gran parte de la capacidad de razonamiento del original, pero corren en hardware mucho más modesto.

¿Cuándo destilar?

Cuando necesitas rendimiento de modelo grande en un escenario con restricciones de latencia, coste o privacidad (inferencia local). No es la primera opción: primero prueba prompt engineering y RAG. Destila cuando ya sabes exactamente qué tarea necesitas resolver y tienes datos de evaluación.

Para profundizar

DeepSeek-R1 - Paper técnico Hugging Face - Distillation with TRL

686f6c61

32 Inferencia optimizada

Servir un modelo en producción no es solo cargarlo y llamar generate(). La diferencia entre un prototipo y producción real está en estas técnicas:

Técnicas clave

KV Cache

Almacena los cálculos de atención de tokens previos para no recalcularlos. Sin KV cache, cada nuevo token recalcularía toda la secuencia. Coste: memoria GPU proporcional a la longitud del contexto.

Speculative decoding

Un modelo pequeño (draft) genera candidatos rápido, y el modelo grande los verifica en paralelo. Si acierta, se aceptan todos de golpe. Resultado: misma calidad, 2-3x más rápido.

Continuous batching

En vez de esperar a que todas las peticiones terminen para procesar el siguiente lote, las nuevas peticiones entran en cuanto hay hueco. Maximiza el uso de la GPU.

Tensor parallelism

Divide el modelo entre múltiples GPUs. Cada GPU calcula una parte de cada capa. Necesario para modelos que no caben en una sola GPU.

Herramientas de serving

Herramienta	Tipo	Punto fuerte
vLLM	Servidor de inferencia	PagedAttention, continuous batching, alto throughput. El estándar de facto
llama.cpp	Inferencia local (CPU/GPU)	Modelos GGUF, funciona en laptops, bajo consumo
TensorRT-LLM	Optimización NVIDIA	Máximo rendimiento en GPUs NVIDIA, requiere compilación
Ollama	Wrapper amigable	Descarga y ejecuta modelos con un comando. Usa llama.cpp internamente

¿Cuándo importa esto?

Si usas una API (Claude, OpenAI, Gemini), el proveedor ya hace todo esto por ti. Importa cuando sirves tus propios modelos: on-premise, modelos destilados, fine-tuned, o por requisitos de privacidad.

Para profundizar

vLLM - Documentación llama.cpp - GitHub

686f6c61

33 Edge AI: modelos en el dispositivo

Ejecutar modelos de IA directamente en el dispositivo del usuario (móvil, navegador, IoT) sin depender de un servidor. La quantización (slide 10) es lo que lo hace posible.

Opciones por plataforma

Plataforma	Runtime	Modelos típicos
Navegador	WebLLM, Transformers.js, chrome.ai	Phi-4-mini, Gemma 2B, Llama 3.2 1B
iOS	CoreML, MLX	Modelos Apple Intelligence, Whisper, LoRA
Android	MediaPipe, ONNX Runtime, Gemini Nano	Gemma 2B, Whisper tiny, modelos propios
Edge servers	TensorRT-LLM, llama.cpp, Ollama	Modelos de 7B-14B quantizados

Cloud

Modelos grandes (70B+), tareas complejas, cuando necesitas la máxima calidad y tienes conexión estable.

Máxima calidad Requiere conexión

Edge / on-device

Latencia cero (no hay red), privacidad total (datos no salen), funciona offline, coste cero por inferencia.

Sin latencia de red Privacidad total

Tendencia 2026

Los modelos pequeños (1B-4B) quantizados ya son suficientemente buenos para autocompletado, clasificación, resumen y traducción. No todo necesita un modelo de 200B en la nube.

Para profundizar

WebLLM - Modelos en el navegador Transformers.js - Hugging Face

686f6c61

34 Lo que deberías saber: arquitecturas y modelos

Concepto	Slide
LLM = modelo de lenguaje a gran escala, predicción del siguiente token	19
De RNN a Transformer: la evolución de las arquitecturas	20
Transformer: atención paralela sobre toda la secuencia	21
Q, K, V: las matemáticas de la atención, multi-head, positional encoding	22
Tokenización: BPE, impacto en coste y soporte multilingüe	23
Transfer learning: pre-entrenar una vez, adaptar a cualquier tarea	24
MoE: activar solo una fracción de los parámetros por inferencia	25-26
Temperature y top_p controlan la aleatoriedad de la salida	27
Modelos de razonamiento: thinking tokens para tareas complejas	28
Modelos multimodales nativos: texto, imagen, audio y vídeo en un solo modelo	29
Open source vs propietario: privacidad vs rendimiento	30
Destilación: modelo grande enseña a modelo pequeño	31
Inferencia optimizada: KV cache, vLLM, speculative decoding	32
Edge AI: modelos en navegador, móvil e IoT	33

686f6c61

Uso práctico

Prompt engineering, alucinaciones, modelos frontier, RAG, bases de datos vectoriales y function calling.

686f6c61

36 Prompt engineering: cómo hablarle bien al modelo

No es "preguntarle cosas": es diseñar la entrada para obtener la salida que necesitas. La calidad del prompt determina la calidad de la respuesta.

Técnicas principales

Técnica	Qué es	Ejemplo
Zero-shot	Pregunta directa sin ejemplos	"Traduce esto al inglés"
Few-shot	Incluir 2-3 ejemplos del formato esperado	'Entrada: X → Salida: Y. Ahora: Z →'
Chain-of-thought	"Piensa paso a paso"	Mejora razonamiento matemático y lógico
System prompt	Define rol, restricciones, formato	"Eres un experto en seguridad. Responde en JSON"
Structured output	Pedir formato específico	'Devuelve un JSON con los campos: nombre, tipo'
Prompt negativo	Decir lo que NO debe hacer	"No inventes datos. No uses markdown"

Antes vs después: el impacto de un buen prompt

 // Prompt malo
 "Hazme una función de validación"

 // Resultado: genérico, sin contexto,
 // no sabes qué válida ni en qué lenguaje 

 // Prompt bueno
 "Escribe una función en TypeScript que
 valide un email. Debe devolver un
 objeto { valid: boolean, error?: string }
 y cubrir: formato, dominio y longitud." 

Regla de oro

Cuanto más contexto y restricciones claras, mejor resultado. Un buen prompt convierte un modelo mediocre en útil; un mal prompt desperdicia un modelo excelente.

Para profundizar

Anthropic - Prompt Engineering Guide Prompt Engineering Guide (comunidad)

686f6c61

37 Context engineering: más allá del prompt

En 2026 el término clave ya no es prompt engineering sino context engineering: la disciplina de gestionar toda la información que recibe el modelo, no solo el prompt del usuario.

¿Qué compone el contexto?

Capa	Qué contiene	Quién lo gestiona
System prompt	Instrucciones base, rol, restricciones	El desarrollador (CLAUDE.md, rules)
Memoria	Decisiones previas, preferencias del usuario	El framework (memoria episódica, ficheros)
RAG / contexto dinámico	Documentos relevantes, código fuente	El pipeline de retrieval
Tools disponibles	Descripciones de herramientas (MCP, functions)	La configuración del agente
Historial de conversación	Mensajes previos del turno actual	El framework (compactación)
Prompt del usuario	La petición concreta	El usuario

Cambio de mentalidad

El prompt del usuario es solo una fracción del contexto. Un buen context engineer diseña las 6 capas para que el modelo tenga exactamente la información que necesita, ni más ni menos. Demasiado contexto degrada la calidad (lost in the middle); poco contexto produce alucinaciones.

Técnicas de context engineering (2026)

Compactación selectiva: resumir el historial manteniendo las decisiones clave (Claude Code lo hace automáticamente)
Rules persistentes: ficheros CLAUDE.md, .cursorrules o AGENTS.md que inyectan contexto en cada conversación
Memoria episódica: recordar conversaciones anteriores y recuperarlas cuando son relevantes
Context routing: enviar solo el contexto relevante según la tarea detectada

Para profundizar

Anthropic - Building Effective Agents

686f6c61

38 Formatos de datos para LLMs: JSON, YAML, Markdown y más

Los LLMs no leen datos como un parser: los interpretan como secuencia de tokens. El formato que elijas afecta directamente a la calidad de la respuesta, el coste y la velocidad.

Comparativa de formatos

Formato	Tokens (mismo dato)	Fuerza	Caso de uso ideal
JSON	~120	Parseo exacto, schema validation	Structured output, APIs, function calling
YAML	~85	Legible, menos ruido sintáctico	Configuración, frontmatter de skills, prompts complejos
Markdown	~70	Natural para el modelo, jerárquico	System prompts, CLAUDE.md, documentación como contexto
XML / tags	~100	Separación clara de bloques	Prompts con múltiples secciones (Anthropic recomienda `<tags>`)
TOML	~90	Secciones explícitas, tipado	Ficheros de configuración de herramientas
CSV / tabular	~50	Mínimo overhead	Datos tabulares masivos, few-shot con muchos ejemplos

El mismo dato en 3 formatos

 // JSON: preciso pero verboso

{

  "name": "Ana",

  "role": "backend",

  "skills": ["Go", "Rust"]

}

 # YAML: menos ruido

name: Ana

role: backend

skills:

  - Go

  - Rust

 # Markdown: natural
 ## Ana

- Rol: backend

- Skills: Go, Rust

 <!-- XML tags -->
 <developer>

  <name>Ana</name>

  <role>backend</role>

  <skills>Go, Rust</skills>
 </developer> 

Regla práctica: ¿cuándo usar cada uno?

¿Tu código parsea la salida? → JSON con strict mode (slide 40)
¿El LLM lee la entrada como contexto? → Markdown (más natural, menos tokens)
¿Configuras herramientas de IA? → YAML (skills, agentes, frontmatter)
¿Separas bloques en un prompt largo? → XML tags (<context>, <instructions>)

Consejo clave

Markdown es el idioma nativo de los LLMs: los modelos se entrenaron con millones de ficheros .md. Usar Markdown como formato de contexto (CLAUDE.md, system prompts, documentación) aprovecha esa ventaja. Reserva JSON para cuando necesites que tu código parsee la salida.

686f6c61

39 Alucinaciones: cuando la IA inventa con total confianza

Una alucinación ocurre cuando el modelo genera información falsa, inventada o sin base, pero la presenta con la misma confianza que un dato real. No es un bug: es una consecuencia del mecanismo de predicción estadística.

Ejemplo real: código alucinado

 // Le pides al modelo:
 "Usa la librería fast-csv-validator
 para validar este CSV"

 // El modelo responde con confianza:
 import { validate } from

  "fast-csv-validator";

 // Problema: esa librería NO EXISTE
 // El modelo la inventó 

 // Otros ejemplos frecuentes:

 // Métodos que no existen en la API

db.findOneAndValidate() // inventado

 // Flags de CLI inexistentes

docker run --memory-swap-limit // no

 // URLs de documentación rotas
 "Ver docs en docs.example.com/v3/..."

¿Por qué ocurre?

No tiene base de datos interna: el modelo no "busca" información. Genera la siguiente palabra más probable dada la secuencia. Si "fast-csv-validator" suena plausible, lo genera
No distingue hechos de invenciones: no tiene un mecanismo para verificar si lo que genera es real. Todo es predicción estadística
Cuanto más específico, más riesgo: preguntas generales ("¿qué es REST?") rara vez alucinan. Preguntas específicas ("¿qué método de la API de Stripe v4.2 maneja reembolsos parciales?") alucinan frecuentemente

Cómo protegerte

Estrategia	Cómo aplicarla
Verificar imports	Comprueba que cada paquete existe en npm/PyPI antes de instalarlo
Comprobar APIs	Verifica cada método/función contra la documentación oficial
RAG	Inyecta documentación real en el prompt para que el modelo se base en datos verificados
Pedir fuentes	Pide al modelo que cite la fuente. Si no puede dar una URL real, sospecha
Tests	Ejecuta siempre el código generado. Un test que falla detecta la alucinación antes de que llegue a producción

Regla de oro

Cuanto menos sabes de un tema, más peligrosa es la alucinación. Si no puedes verificar la respuesta por tu cuenta, no confíes ciegamente. La IA no "sabe" que no sabe.

Para profundizar

A Survey on Hallucination in Large Language Models (2023) Simon Willison - Hallucinations in code are the least dangerous form of LLM mistakes

686f6c61

40 Structured output: que el modelo devuelva datos parseables

En producción no quieres texto libre: quieres JSON válido, con campos tipados, que tu código pueda parsear sin romper. Los modelos modernos soportan modos para garantizarlo.

Tres niveles de control

Nivel	Cómo	Fiabilidad
Prompt	"Responde en JSON con los campos name y age"	Media: el modelo puede añadir texto extra o romper el formato
JSON mode	Parámetro `response_format: { type: "json_object" }`	Alta: garantiza JSON válido, pero no garantiza el schema
Strict mode	Schema JSON en la definición de la tool o respuesta	Máxima: el modelo solo puede emitir JSON que cumpla tu schema exacto

Ejemplo con Anthropic (strict tool use)

const response = await client.messages.create({
  model: "claude-sonnet-4-6",
  tools: [{
    name: "extract_contact",
    description: "Extrae datos de contacto del texto",
    strict: true, // garantiza schema
    input_schema: {
      type: "object",
      properties: {
        name: { type: "string" },
        email: { type: "string" },
        phone: { type: "string", nullable: true }
      }, required: ["name", "email"]
    }
  }],
  tool_choice: { type: "tool", name: "extract_contact" },
  messages: [{ role: "user",
    content: "Ana Garcia, [email protected], tel 612345678"
  }]
});

// Resultado GARANTIZADO:
// { name: "Ana Garcia", email: "[email protected]",
// phone: "612345678" }

¿Cuándo usar cada nivel?

Solo prompt: prototipos rápidos, chat interactivo donde no necesitas parsear la salida
JSON mode: cuando necesitas JSON pero el schema es flexible o variable
Strict mode: producción, pipelines automatizados, integraciones API donde un campo que falta rompe el flujo

Clave para ingenieros

Structured output elimina la necesidad de parsear texto con regex o try/catch. Defines el schema una vez y el modelo siempre lo cumple. Es la diferencia entre "espero que devuelva JSON" y "garantizo que devuelve JSON".

Para profundizar

Anthropic - Structured Outputs OpenAI - Structured Outputs

686f6c61

41 Visión y multimodalidad: más allá del texto

Los modelos actuales no solo leen texto: pueden ver imágenes, leer PDFs y procesar audio. Esto abre casos de uso que antes requerían herramientas especializadas.

¿Qué puedes enviar al modelo?

Imágenes

Capturas de pantalla, diagramas, mockups, fotos de pizarras, gráficos. El modelo los "ve" y puede describir, analizar o extraer datos

PDFs y documentos

Contratos, facturas, papers, manuales. El modelo extrae texto, tablas y entiende la estructura del documento

Capturas de errores

Envía un screenshot del error en vez de copiar/pegar. El modelo lee la traza, identifica el problema y sugiere la solución

Diagramas y mockups

Envía un wireframe dibujado a mano o un diagrama de arquitectura. El modelo lo interpreta y puede generar código a partir de él

Ejemplo: enviar una imagen a la API

 const response = await client.messages.create({

  model: "claude-sonnet-4-6",

  messages: [{ role: "user", content: [

    { type: "image", source: {

      type: "url",

      url: "https://ejemplo.com/screenshot.png"

    } },

    { type: "text",

      text: "¿Qué error muestra esta captura?" }

  ] }]

});

Soporte por modelo (marzo 2026)

Capacidad	Claude	GPT-5.2	Gemini 3
Imágenes	Sí (hasta 20 por mensaje)	Sí	Sí
PDFs	Sí (nativo)	Sí	Sí
Audio	No (en desarrollo)	Sí	Sí (nativo)
Video	No	Sí (limitado)	Sí (hasta 1h)

Caso de uso inmediato para ingenieros

En vez de describir un bug con texto, envía la captura de pantalla. En vez de copiar una tabla de un PDF, envía el PDF. En vez de transcribir un diagrama, envía la foto. El modelo hace el trabajo de interpretación por ti.

Para profundizar

Anthropic - Vision Anthropic - PDF Support

686f6c61

42 Voz y APIs en tiempo real

En 2026, los agentes ya no solo leen y escriben texto: hablan. Las APIs de voz en tiempo real permiten construir agentes conversacionales con latencia de milisegundos.

Pipeline clásico vs nativo

Pipeline (STT + LLM + TTS)

Audio entra como texto (Whisper), el modelo responde en texto, y se sintetiza voz (ElevenLabs). Funciona, pero la latencia se acumula: 500 ms + 1-3 s + 300 ms.

Mayor latencia Más control

Nativo (speech-to-speech)

Audio entra y sale directamente del modelo, sin pasos intermedios. OpenAI Realtime API y Gemini Live lo soportan. Latencia total: 300-500 ms.

Baja latencia Más natural

Herramientas (marzo 2026)

Herramienta	Tipo	Punto fuerte
OpenAI Realtime API	Speech-to-speech nativo	WebSocket bidireccional, tool use con voz, interrupciones naturales
ElevenLabs	TTS de alta calidad	Voces clonadas, multilingüe, baja latencia. El estándar en calidad de voz
Deepgram	STT en tiempo real	Transcripción streaming, muy rápido, buena precisión en español
Gemini Live	Speech-to-speech nativo	Integrado con el ecosistema Google, soporte de vídeo en tiempo real

Casos de uso para ingenieros

Agentes de soporte telefónico: sustituyen IVRs tradicionales por conversaciones naturales con acceso a herramientas
Pair programming por voz: hablar con el agente mientras programas, sin cambiar de contexto
Traducción simultánea: interpretar reuniones en tiempo real entre idiomas

Tendencia 2026

La voz es la interfaz más natural para humanos. Los agentes de voz están pasando de "demo impresionante" a "producto en producción". El reto ya no es la tecnología, sino diseñar buenas experiencias conversacionales.

Para profundizar

OpenAI - Realtime API ElevenLabs - Docs

686f6c61

43 Generación de imágenes y vídeo con IA

Los modelos generativos no solo producen texto: generan imágenes, vídeo, audio y 3D a partir de descripciones en lenguaje natural.

Modelos de imagen (marzo 2026)

Modelo	Empresa	Punto fuerte
DALL-E 3	OpenAI	Integrado en ChatGPT. Buena comprensión de prompts complejos
Midjourney v7	Midjourney	Máxima calidad estética. El estándar para diseño
Flux	Black Forest Labs	Open source. Muy bueno en texto dentro de imágenes
Stable Diffusion 3	Stability AI	Open source. Ejecutable en local. Gran comunidad de LoRAs

Modelos de vídeo

Modelo	Empresa	Capacidad
Sora	OpenAI	Hasta 1 minuto, alta calidad. Comprende física básica
Runway Gen-3	Runway	Referencia en producción profesional. Image-to-video
Veo 2	Google	1080p, hasta 2 minutos. Ecosistema Google

Casos de uso para ingenieros

Prototipar UIs: generar mockups desde descripciones antes de programar
Assets y placeholders: iconos, fondos, avatares para tests y demos
Documentación visual: diagramas explicativos para docs técnicas

Limitaciones actuales

Imágenes: aún fallan con texto exacto, consistencia entre imágenes del mismo personaje. Vídeo: física inconsistente, artefactos en movimientos complejos, duración limitada.

Para profundizar

DALL-E 3 Black Forest Labs (Flux)

686f6c61

44 Cómo funcionan los modelos de difusión

Los modelos de difusión generan imágenes eliminando ruido progresivamente. Empiezan con ruido puro y, paso a paso, lo convierten en una imagen coherente guiada por tu prompt.

Proceso de generación

Texto (prompt) → CLIP codifica el texto → Ruido aleatorio (latent space) → Denoising (20-50 pasos) → Decodificar a imagen

Conceptos clave

Latent space

En vez de trabajar con píxeles directamente (512x512x3 = 786K valores), se comprime a un espacio latente mucho más pequeño (64x64x4). Esto hace la generación viable en GPUs consumer

CLIP (text encoder)

Convierte tu prompt de texto en un vector que guía el proceso de denoising. Entiende conceptos, estilos y composiciones. Es el puente entre lenguaje e imagen

Denoising (U-Net / DiT)

La red neuronal que elimina ruido paso a paso. En cada paso, predice cuánto ruido quitar y en qué dirección. Los modelos nuevos (Flux, SD3) usan DiT (Diffusion Transformer) en vez de U-Net

CFG (Classifier-Free Guidance)

Controla cuánto se adhiere la imagen al prompt. Valor alto (7-12): muy fiel al texto pero menos natural. Valor bajo (1-3): más creativo pero puede ignorar partes del prompt

Difusión vs GANs

	Difusión (SD, Flux, DALL-E)	GANs (StyleGAN)
Calidad	Muy alta, diversa	Muy alta, pero limitada
Control	Texto, imagen, pose, depth...	Limitado (vectores latentes)
Entrenamiento	Estable	Inestable (mode collapse)
Velocidad	Más lento (múltiples pasos)	Rápido (un solo paso)

Por qué Stable Diffusion cambió todo

Fue el primer modelo de difusión de alta calidad publicado como open source (agosto 2022). Permitió que cualquiera con una GPU de 8 GB generase imágenes. Abrió la puerta a LoRAs, ControlNet, ComfyUI y todo el ecosistema que existe hoy.

Para profundizar

Jay Alammar - The Illustrated Stable Diffusion Paper: High-Resolution Image Synthesis with Latent Diffusion Models

686f6c61

45 Tipos de entrenamiento para modelos de imagen

No necesitas entrenar un modelo desde cero. Existen técnicas para adaptar modelos existentes a tu estilo, personaje o dominio con pocos datos y hardware modesto.

Técnica	Datos	VRAM	Resultado	Caso de uso
Full fine-tuning	Miles de imágenes	24-80 GB	Modelo completamente nuevo	Crear un modelo de dominio (médico, satélite, arquitectura)
LoRA	20-200 imágenes	6-12 GB	Adaptador pequeño (10-200 MB)	Estilo artístico, personaje, concepto. El más usado
DreamBooth	5-30 imágenes	12-24 GB	Modelo o LoRA especializado	Enseñar un objeto/persona específica al modelo
Textual Inversion	3-10 imágenes	4-8 GB	Embedding nuevo (pocos KB)	Definir un concepto con una palabra clave

¿Cuál elegir?

LoRA (lo más común)

Entrena en 1-4 horas con 50-100 imágenes. Fichero pequeño, apilable (puedes combinar varios LoRAs). Funciona en GPU consumer (RTX 3060+). El 90% de las veces es lo que necesitas

DreamBooth (identidad)

Cuando necesitas que el modelo "reconozca" una persona u objeto concreto. Mejor consistencia facial que LoRA. Más pesado de entrenar

Textual Inversion (ligero)

El más simple: define un concepto con muy pocas imágenes. Resultado más sutil que LoRA. Ideal para estilos de color o texturas

Ejemplo: entrenar un LoRA con Kohya

 # 1. Preparar dataset: 50-100 imágenes + captions
 # 2. Configurar entrenamiento

accelerate launch train_network.py \

  --pretrained_model="stabilityai/stable-diffusion-xl" \

  --train_data_dir="./dataset" \

  --output_dir="./output" \

  --network_module="networks.lora" \

  --resolution=1024 --train_batch_size=1 \

  --max_train_epochs=10 --lr=1e-4

Consejo práctico

Antes de entrenar, busca en Civitai si alguien ya entrenó algo similar. Hay miles de LoRAs gratuitos. Entrenar desde cero solo merece la pena si necesitas algo muy específico que no existe.

Para profundizar

Kohya sd-scripts - Entrenamiento LoRA Civitai - Marketplace de modelos y LoRAs

686f6c61

46 Herramientas OSS y plataformas para imagen

El ecosistema open source de generación de imágenes es enorme. Estas son las herramientas que un ingeniero necesita conocer.

Interfaces locales

Herramienta	Tipo	Punto fuerte
ComfyUI	Node-based (grafos)	Máximo control. Workflows visuales reutilizables. El estándar para pipelines complejos. Extensible con custom nodes
Forge / A1111	UI web clásica	Más simple que ComfyUI. Interfaz de formulario. Forge es el fork optimizado de Automatic1111
InvokeAI	UI web moderna	Canvas para inpainting/outpainting. Buena UX. Instalación fácil

Plataformas cloud (GPU bajo demanda)

Plataforma	Modelo de pago	Ideal para
Replicate	Pay-per-inference	API para integrar en apps. Modelos predeployados. Cero config
RunPod	GPU por hora ($0.2-2/h)	Entrenar LoRAs, ejecutar ComfyUI en la nube, GPUs potentes
fal.ai	Pay-per-inference	API rápida para Flux, SDXL. Serverless. Baja latencia
Modal	Pay-per-second	Infraestructura serverless para ML. Deploy de pipelines custom

Ecosistema de modelos

Civitai

El marketplace principal. Miles de modelos, LoRAs, embeddings y workflows de ComfyUI compartidos por la comunidad. Filtros por estilo, modelo base, valoración

Hugging Face

Hub oficial para modelos base (SDXL, Flux, SD3). Model cards con licencias, benchmarks y demos. Más formal que Civitai

Flujo típico de un ingeniero

Explorar en Civitai/HF → Descargar modelo + LoRAs → Cargar en ComfyUI → Crear workflow (text → img, con ControlNet si necesitas control) → Automatizar vía API de ComfyUI o Replicate para integrar en tu app.

Para profundizar

ComfyUI - GitHub Replicate Civitai

686f6c61

47 Técnicas de control: ControlNet, IP-Adapter y más

Generar imágenes "a ver qué sale" es divertido. En producción, necesitas control preciso sobre la composición, la pose, el estilo y los detalles.

Técnicas principales

ControlNet

Guía la generación con una imagen de referencia: bordes (canny), profundidad (depth), pose humana (OpenPose), mapa de normales. El modelo respeta la estructura de la referencia

IP-Adapter

Transfiere el estilo de una imagen de referencia sin copiar la composición. "Genera algo nuevo pero con este estilo/ambiente". Muy útil para consistencia de marca

Inpainting / Outpainting

Inpainting: repintar una zona específica de la imagen (borrar objeto, cambiar fondo). Outpainting: extender la imagen más allá de sus bordes originales

Upscaling

Ampliar resolución sin perder calidad. ESRGAN, 4x-UltraSharp, Tile ControlNet. De 512x512 a 2048x2048 con detalle añadido

Tipos de ControlNet

Tipo	Input de referencia	Caso de uso
Canny	Bordes detectados de una imagen	Mantener la composición exacta, redesign de interfaces
Depth	Mapa de profundidad	Mantener la perspectiva y distancias entre objetos
OpenPose	Esqueleto de pose humana	Controlar la postura exacta de personas
Scribble	Dibujo a mano alzada	Convertir bocetos rápidos en imágenes detalladas
Tile	Imagen a baja resolución	Upscaling con añadido de detalle inteligente

Para ingenieros que integran en apps

ComfyUI expone una API REST. Puedes crear un workflow complejo (ControlNet + LoRA + upscaling), guardarlo como JSON, y llamarlo desde tu backend. Replicate y fal.ai ya tienen modelos con ControlNet preconfigurados como endpoints API.

Para profundizar

ControlNet - GitHub IP-Adapter - Hugging Face

686f6c61

48 ¿Cómo se crea un modelo frontier?

Pre-entrenamiento: billones de tokens, semanas de entrenamiento en miles de GPUs. El modelo aprende patrones del lenguaje prediciendo la siguiente palabra en textos masivos (internet, libros, código). Esta fase consume el 90%+ del presupuesto de compute.
Fine-tuning supervisado (SFT): ejemplos curados de conversaciones de calidad. Humanos escriben respuestas ideales y el modelo aprende a imitarlas. Típicamente 10.000-100.000 ejemplos de alta calidad.
RLHF / RLAIF: RLHF = Reinforcement Learning from Human Feedback (aprendizaje por refuerzo con feedback humano). RLAIF = lo mismo pero con feedback de otro modelo de IA en vez de humanos. Se comparan respuestas y el modelo aprende cuál es "mejor". Esto es lo que hace que el modelo sea útil y seguro. Técnicas recientes: DPO (Direct Preference Optimization) y GRPO (Group Relative Policy Optimization) simplifican el proceso eliminando la necesidad de un reward model separado.
Evaluación: benchmarks estandarizados (MMLU, HumanEval, GPQA, SWE-bench...) para medir capacidades y comparar con la competencia. Red-teaming para seguridad.

Coste

Decenas a cientos de millones de dólares por modelo frontier. Solo unas pocas empresas en el mundo pueden permitírselo. GPT-4 se estimó en 100M+; los modelos de 2026 superan esa cifra.

Moats (ventajas competitivas)

Datos, compute (GPUs), talento investigador, infraestructura de entrenamiento. Es una carrera de capital. Los clusters de entrenamiento ya superan las 100.000 GPUs.

Datos (trillones tokens) → Pre-train (semanas) → SFT (días) → RLHF (días) → Eval + deploy

Para profundizar

Paper RLHF - InstructGPT (OpenAI, 2022) Llama 2 Paper - Detalla todo el proceso (Meta, 2023)

686f6c61

49 Hugging Face + LM Studio: modelos en local

Hugging Face

El "GitHub de los modelos de IA". Miles de modelos abiertos listos para descargar: Llama 3, Mistral, Qwen, Phi, Gemma...

Model cards: arquitectura, licencia, benchmarks, tamaño, quantizaciones
Filtros útiles: por tarea, licencia, tamaño, trending
Formatos: safetensors (nativo), GGUF (quantizado para CPU/GPU consumer)
También: datasets y Spaces (demos interactivas)

LM Studio

Ejecutar modelos en tu máquina sin escribir código. Interfaz gráfica para descargar, probar y servir modelos.

Descarga modelos directamente desde Hugging Face
Chat local, sin enviar datos a ningún servidor
Expone una API compatible con OpenAI (localhost:1234)
Cuantizaciones GGUF: Q4, Q5, Q8... equilibrio RAM/VRAM vs calidad

Buscar en HF → Descargar GGUF → Probar en LM Studio → Exponer API local

Formatos de quantización GGUF

Q4_K_M: ~4.5 bits/peso. Archivo ~4 GB, necesita ~6.5 GB RAM para 7B. Recomendado para empezar. Q5_K_M: ~5 bits. Calidad notablemente mejor (+2 GB RAM). Q8_0: 8 bits. Casi idéntico al original (~7 GB archivo, ~10 GB RAM). GGUF corre en CPU (RAM del sistema); si descargas capas a GPU, usa VRAM. Regla: empieza por Q4_K_M, sube si tu hardware lo permite.

Ideal para: prototipos, datos sensibles, trabajar sin conexión, evaluar modelos antes de pagar API.

Para profundizar

Hugging Face Models LM Studio

686f6c61

50 RAG (Retrieval Augmented Generation)

Problema: el modelo no sabe de tus datos internos (documentación, BD, wikis). Fue entrenado con datos públicos hasta cierta fecha.

Solución: en vez de reentrenar el modelo, le pasas contexto relevante en cada consulta.

Pregunta del usuario → Buscar docs relevantes → Inyectar en el prompt → LLM responde con esos datos

Componentes clave

Documentos fuente

PDFs, wikis, código, bases de datos, cualquier texto que quieras consultar

Chunking

Dividir documentos en fragmentos de 500-1000 tokens con solapamiento

Embeddings

Convertir cada fragmento en un vector numérico que captura su significado

Vector DB

Almacena vectores y permite buscar los más similares a la consulta

Flujo RAG en código (simplificado)

 // 1. Indexar documentos (se hace una vez)
 const chunks = splitIntoChunks(document, 512);
 const vectors = await embed(chunks);
 await vectorDB.upsert(vectors);

 // 2. Consultar (cada petición del usuario)
 const queryVec = await embed(userQuestion);
 const relevant = await vectorDB.search(queryVec, { topK: 5 });

 // 3. Generar respuesta con contexto
 const response = await llm.generate({

  system: "Responde usando SOLO el contexto dado.",

  context: relevant.map(r => r.text).join("\n"),

  question: userQuestion

});

RAG vs fine-tuning

RAG: para datos propios que cambian frecuentemente. Sin coste de reentrenamiento. Fuentes citables.
Fine-tuning: para cambiar el estilo o comportamiento del modelo. Los datos se "hornean" en los pesos.

Para profundizar

Paper original RAG (Lewis et al., 2020) Pinecone - RAG Guide

686f6c61

51 Agentic RAG: la evolución del retrieval

El RAG básico (slide anterior) busca, inyecta y genera. Agentic RAG añade razonamiento: el agente decide qué buscar, cómo buscarlo, y si el resultado es suficiente.

RAG básico vs agentic RAG

RAG básico

Pregunta → embedding → buscar los K fragmentos más similares → inyectar en el prompt → generar. Un solo paso, sin reflexión.

Un solo paso Sin iteración

Agentic RAG

El agente razona sobre la pregunta, descompone en sub-preguntas, busca en múltiples fuentes, evalúa si los resultados son suficientes, y reintenta si no lo son.

Multi-paso Auto-corrección

Patrones de agentic RAG

Query decomposition

Una pregunta compleja se divide en sub-preguntas. Cada una se busca por separado y los resultados se combinan

Retrieval con re-ranking

Buscar amplio (top-20), luego un modelo re-rankea los resultados por relevancia real. Elimina falsos positivos del embedding

Self-reflection

Tras generar la respuesta, el agente evalúa: "¿He respondido con los datos recuperados? ¿Necesito buscar más?" Si no está satisfecho, itera

Multi-source

Buscar en vector DB + SQL + API + web simultáneamente. Combinar resultados de fuentes heterogéneas

Cuándo pasar de RAG básico a agentic

RAG básico basta para preguntas simples sobre un corpus homogéneo. Agentic RAG merece la pena cuando: las preguntas son complejas (multi-hop), los datos están en múltiples fuentes, o la calidad del retrieval básico no es suficiente.

Para profundizar

Pinecone - Agentic RAG Corrective RAG (CRAG) paper

686f6c61

52 GraphRAG y estrategias avanzadas de retrieval

Más allá de buscar fragmentos similares: estrategias que combinan grafos de conocimiento, búsqueda híbrida y contexto enriquecido.

Estrategias de retrieval (de simple a avanzado)

Estrategia	Cómo funciona	Cuándo usarla
Vector search	Embedding de la query, buscar los K más similares	Corpus homogéneo, preguntas directas
Hybrid search	Vector search + BM25 (keyword). Fusiona resultados	Cuando las keywords importan (nombres, IDs)
Contextual retrieval	Un LLM añade contexto a cada chunk antes de indexar	Chunks que pierden sentido fuera de contexto
GraphRAG	Grafo de entidades y relaciones. Busca por conexiones	Preguntas que cruzan múltiples documentos

Flujo de GraphRAG

Documentos → Extraer entidades → Construir grafo → Buscar por relaciones → Respuesta con contexto rico

¿Cuál elegir?

Empieza con vector search. Si no basta, añade hybrid search (trivial en Pinecone, Weaviate). Si los chunks pierden contexto, usa contextual retrieval. GraphRAG solo si necesitas respuestas que cruzan múltiples documentos y relaciones.

Para profundizar

Anthropic - Contextual Retrieval Microsoft - GraphRAG

686f6c61

53 ¿Cuándo usar prompt, RAG o fine-tuning?

Las tres técnicas resuelven problemas diferentes. Elegir mal cuesta tiempo y dinero.

	Prompt engineering	RAG	Fine-tuning
¿Qué cambia?	La entrada al modelo	El contexto inyectado	Los pesos del modelo
Datos propios	Caben en el prompt (<200k tokens)	Cualquier volumen, búsqueda por similitud	Se "hornean" en el modelo
Datos cambiantes	Actualizas el prompt	Actualizas los documentos indexados	Requiere reentrenar
Coste inicial	Cero	Medio (embeddings + vector DB)	Alto (compute, datos curados)
Coste por petición	Solo tokens del prompt	Embedding + búsqueda + tokens	Solo tokens (modelo ya ajustado)
Trazabilidad	No cita fuentes	Puede citar fragmentos exactos	No cita fuentes
Complejidad	Baja	Media	Alta

Árbol de decisión

¿Tus datos caben en el prompt? → Sí → Prompt engineering

¿Necesitas buscar en muchos docs? → Sí → RAG

¿Necesitas cambiar el estilo/tono? → Sí → Fine-tuning

Regla práctica

Empieza siempre por prompt engineering. Solo pasa a RAG cuando el contexto no cabe en el prompt o cambia frecuentemente. Solo haz fine-tuning si necesitas cambiar el comportamiento base del modelo (tono, formato, dominio muy específico).

Para profundizar

Anthropic - Prompt Engineering Pinecone - RAG Guide

686f6c61

54 Fine-tuning en la práctica

Fine-tuning es reentrenar parcialmente un modelo con tus propios datos para que se especialice en tu tarea. No cambias el modelo entero: solo ajustas una parte.

LoRA y QLoRA

En vez de reentrenar los miles de millones de parámetros del modelo, LoRA (Low-Rank Adaptation) añade pequeñas matrices entrenables en capas clave. Resultado: entrenas 0.1-1% de los parámetros con una fracción de la memoria.

Técnica	Memoria GPU	Parámetros entrenados	Caso de uso
Full fine-tuning	~160 GB (7B)	100%	Cambio radical de comportamiento
LoRA	~16 GB (7B)	0.1 - 1%	Especialización: estilo, dominio, formato
QLoRA	~6 GB (7B)	0.1 - 1%	Igual que LoRA pero con modelo quantizado (4-bit)

Herramientas

Unsloth

2x más rápido, 60% menos memoria. Soporta Llama, Mistral, Gemma. La opción más eficiente para fine-tuning local

Axolotl

Configuración YAML, múltiples formatos de dataset, integración con Weights & Biases

APIs de fine-tuning

OpenAI, Google y Anthropic ofrecen fine-tuning como servicio. Subes un JSONL, esperas, y tienes tu modelo

Antes de hacer fine-tuning

El 90% de las veces, un buen prompt o RAG resuelve el problema sin fine-tuning. Fine-tuning tiene sentido cuando necesitas: (1) un formato de salida muy específico que el prompt no consigue, (2) conocimiento de dominio que no se puede inyectar por contexto, o (3) reducir latencia/coste eliminando instrucciones largas del prompt.

Para profundizar

Unsloth - GitHub Hugging Face PEFT - LoRA/QLoRA

686f6c61

55 Datos sintéticos

Usar un LLM grande para generar datos de entrenamiento para otros modelos o sistemas. Cada vez más común como alternativa a la recolección manual de datos.

Patrones comunes

Datos para destilación

El modelo teacher genera miles de pares input/output. El modelo student entrena con esos pares. Así se crearon los modelos destilados de DeepSeek-R1 y Phi

Datasets de evaluación

Generar casos de test automáticos para evaluar modelos. Preguntas, respuestas esperadas, escenarios edge case

Aumentación de datos

Tienes pocos ejemplos reales (50-100) y generas variantes: paráfrasis, traducciones, cambios de estilo. Multiplicas tu dataset por 10-100x

Datos conversacionales

Generar diálogos multi-turno para entrenar chatbots de dominio específico (soporte técnico, ventas, onboarding)

Riesgos

Model collapse: si entrenas con datos generados por el mismo modelo (o uno similar), la calidad degrada con cada generación. Los errores se amplifican
Sesgo amplificado: los sesgos del modelo teacher se heredan y pueden intensificarse en el student
Calidad variable: sin filtrado y revisión humana, los datos sintéticos pueden contener alucinaciones, inconsistencias o patrones repetitivos

Buenas prácticas

Mezcla datos sintéticos con datos reales (ratio 3:1 a 5:1 sintético:real). Filtra por calidad (otro LLM como juez, o métricas automáticas). Valida siempre con un subset de datos reales etiquetados por humanos.

Para profundizar

Hugging Face - Synthetic Data Distilabel - Framework para datos sintéticos

686f6c61

56 Bases de datos vectoriales: ¿qué son y en qué se diferencian?

Bases de datos optimizadas para almacenar y buscar vectores (embeddings) por similitud. En vez de buscar por coincidencia exacta (WHERE nombre = 'X'), buscan por distancia entre vectores: "¿qué vectores se parecen más a este?"

SQL vs NoSQL vs Vectorial

Tipo	Busca por	Ejemplo de consulta
SQL	Valores exactos, filtros, relaciones	`SELECT * WHERE precio > 100`
NoSQL	Documentos, claves, campos flexibles	`db.find({ status: "active" })`
Vectorial	Similitud semántica	"gato doméstico" encuentra "felino de compañía"

Proveedores principales (marzo 2026)

Proveedor	Tipo	Ideal para
Pinecone	Gestionado (serverless)	Producción sin operaciones. Escala a billones de vectores
Qdrant	Open source (Rust)	Alto rendimiento, filtrado avanzado por metadatos
Weaviate	Open source	Búsqueda híbrida (vectorial + keyword), multimodal
Chroma	Open source	Prototipos y desarrollo rápido. Ligero
pgvector	Extensión PostgreSQL	Si ya usas Postgres. Límite ~10-100M vectores
Milvus	Open source	Billones de vectores. GPU-accelerated

¿Cómo elegir?

Prototipo rápido: Chroma (embebido, sin servidor). Ya usas Postgres: pgvector. Producción sin preocuparte de infra: Pinecone. Necesitas control total + rendimiento: Qdrant o Milvus. Búsqueda híbrida: Weaviate.

Para profundizar

Pinecone - What is a Vector Database? Best Vector Databases in 2026 (comparativa)

686f6c61

57 Text-to-SQL: consultas en lenguaje natural

Convertir preguntas en español a queries SQL ejecutables. El caso de uso más inmediato de IA para backend engineers.

Flujo

"¿Cuántos usuarios se registraron ayer?" → LLM + esquema de BD → SELECT COUNT(*) FROM users WHERE... → Ejecutar + resultado

Ejemplo

 const systemPrompt = `Eres un experto en SQL.
 Esquema de la BD:
 - users (id, name, email, created_at, plan)
 - orders (id, user_id, total, status, created_at)
 Genera SOLO la query SQL. Sin explicaciones.`;

 const query = await llm.generate(systemPrompt, pregunta);
 const result = await db.raw(query);

Riesgos y mitigaciones

SQL injection vía LLM: el modelo podría generar DELETE o DROP. Solución: usuario de solo lectura, validar query, limitar a SELECT
Queries incorrectas: el modelo puede malinterpretar el esquema. Solución: incluir descripciones de columnas, validar con EXPLAIN
Datos sensibles: el usuario podría pedir datos que no debería ver. Solución: row-level security, filtros obligatorios

En la práctica

No expongas text-to-SQL directamente a usuarios finales sin guardrails. Funciona bien como herramienta interna para analistas y producto que necesitan consultar datos sin depender de un ingeniero.

Para profundizar

Vanna AI - Text-to-SQL open source

686f6c61

58 Prompt caching: pagar una vez, reutilizar siempre

Cuando usas system prompts largos o contexto RAG fijo, estás pagando los mismos tokens en cada llamada. El prompt caching guarda los tokens estáticos en caché y solo cobras una fracción en llamadas posteriores.

Primera llamada → Cachear prefijo → Siguientes llamadas → Solo tokens nuevos + caché (90% descuento)

Soporte por proveedor

Proveedor	Cómo funciona	Ahorro
Anthropic	`cache_control` breakpoints en el mensaje	Hasta 90% en tokens cacheados
OpenAI	Automático para prefijos largos repetidos	50% en cached tokens
Google	Context caching explícito	Hasta 75%

Ejemplo con la API de Anthropic

 const response = await client.messages.create({

  model: "claude-sonnet-4-6",

  system: [{

    type: "text",

    text: systemPromptLargo, // 10.000+ tokens

    cache_control: { type: "ephemeral" }

  }],

  messages: [{ role: "user", content: pregunta }]

});
 // Primera llamada: precio normal
 // Siguientes (5 min): ~90% descuento en el system prompt

¿Cuándo usarlo?

Ideal para: system prompts largos (>1000 tokens), contexto RAG fijo que se repite, conversaciones donde el historial crece. No útil para: prompts cortos que cambian cada vez.

Para profundizar

Anthropic - Prompt Caching docs OpenAI - Caching docs

686f6c61

59 Context window en la práctica: no todo es lo que parece

Un modelo con 200k tokens de context window no significa que puedas meter 200k tokens y funcione igual de bien. Hay límites prácticos que todo ingeniero debe conocer.

"Lost in the middle"

Los modelos prestan más atención al inicio y al final del contexto, y tienden a "olvidar" información que está en el medio. Si metes un dato importante en la página 50 de 100, el modelo puede ignorarlo. (Lost in the Middle paper)

Context teórico vs práctico

Modelo	Context window	Zona óptima	Nota
Claude	200k	<100k para máximo rendimiento	Compactación automática en Claude Code
GPT-5.2	128k	<64k	Cached prefixes ayudan
Gemini 3	1M+	Varía	Mejor retención en contextos largos

Estrategias para contextos grandes

Chunking inteligente: dividir documentos en fragmentos con solapamiento
Priorizar información relevante al inicio y final del prompt
RAG en vez de meter todo en el context cuando el volumen es grande
Resumen progresivo para conversaciones largas
Map-reduce para documentos enormes

Regla práctica

No llenes el context window "porque puedes". Más contexto = más caro, más lento y potencialmente peor calidad. Usa solo el contexto que necesitas para la tarea.

Para profundizar

Lost in the Middle paper (arxiv) Anthropic - Long context tips

686f6c61

60 API Hello World: tu primera llamada a un LLM

Antes de hablar de agentes, veamos lo más básico: hacer una llamada a la API de un modelo. Es sorprendentemente simple.

Con curl

curl https://api.anthropic.com/v1/messages \

  -H "x-api-key: $ANTHROPIC_API_KEY" \

  -H "content-type: application/json" \

  -H "anthropic-version: 2023-06-01" \

  -d '{

    "model": "claude-sonnet-4-6",

    "max_tokens": 256,

    "messages": [

      {"role": "user", "content": "¿Qué es TypeScript en una frase?"}

    ]

  }'

Con el SDK de TypeScript

 import Anthropic from "@anthropic-ai/sdk";
 const client = new Anthropic(); // usa ANTHROPIC_API_KEY del entorno
 const msg = await client.messages.create({

  model: "claude-sonnet-4-6",

  max_tokens: 256,

  messages: [

    { role: "user", content: "¿Qué es TypeScript en una frase?" }

  ]

});

console.log(msg.content[0].text);

¿Qué devuelve la API?

content: array de bloques con el texto de la respuesta
model: el modelo que respondió
stop_reason: por qué paró ("end_turn" = respuesta completa)
usage: input_tokens y output_tokens consumidos (lo que pagas)

De aquí a un agente

Esta llamada simple es la base de todo. Un agente es esto mismo dentro de un bucle que añade tool calls. La complejidad se construye sobre esta base.

Para profundizar

Anthropic API - Getting Started Anthropic TypeScript SDK

686f6c61

61 Streaming de respuestas

En vez de esperar a que el modelo genere toda la respuesta, recibes token por token en tiempo real. Todo producto serio usa streaming: ChatGPT, Claude, Gemini.

¿Cómo funciona?

Server-Sent Events (SSE)

El estándar para streaming de LLMs. Conexión HTTP unidireccional: el servidor envía eventos conforme genera tokens. Más simple que WebSockets y suficiente para este caso

Time to First Token (TTFT)

Métrica clave: cuánto tarda en llegar el primer token. Con streaming, el usuario ve actividad en 200-500 ms en vez de esperar 5-30 segundos a la respuesta completa

Ejemplo: streaming con la API de Anthropic

 import Anthropic from "@anthropic-ai/sdk";

 const client = new Anthropic();

 const stream = client.messages.stream({

  model: "claude-sonnet-4-6",

  max_tokens: 1024,

  messages: [{ role: "user", content: "Explica qué es Docker" }]

});

 // Evento por evento (cada token/chunk)

stream.on('text', (text) => {

  process.stdout.write(text); // Imprime en tiempo real

});

 const finalMessage = await stream.finalMessage();
 // finalMessage contiene la respuesta completa + usage

Eventos del stream

Evento	Qué contiene	Uso típico
`message_start`	Metadata del mensaje (id, modelo)	Inicializar UI
`content_block_delta`	Fragmento de texto (delta)	Mostrar token por token
`message_delta`	Razón de parada, uso de tokens	Contabilizar coste
`message_stop`	Fin del mensaje	Cerrar la UI de escritura

En la práctica

Streaming no cambia el coste ni la calidad de la respuesta: genera exactamente los mismos tokens. Solo cambia cuándo los recibes. La percepción de velocidad mejora enormemente aunque el tiempo total sea el mismo.

Para profundizar

Anthropic - Streaming API MDN - Server-Sent Events

686f6c61

62 Arquitectura de aplicaciones con LLM

Saber llamar a la API es el primer paso. Construir un producto en producción requiere patrones de ingeniería que la documentación del modelo no enseña.

Capas de una app LLM en producción

Cliente → API Gateway → Orquestación → LLM Provider(s)

Retry + fallback

Si Claude falla, reintentar con backoff. Si sigue, caer a GPT o modelo local. Nunca depender de un solo proveedor

Caché semántica

Cachear por similitud de la pregunta, no por igualdad exacta. Reduce coste y latencia en preguntas frecuentes

Circuit breaker

Si un proveedor da errores consecutivos, dejar de llamarlo temporalmente. Evita cascadas de fallos

Model routing

Clasificar complejidad y enviar al modelo adecuado: Haiku para lo simple, Opus para lo complejo. Ahorra hasta 80%

Checklist para producción

Spending limits: alertas y cortes automáticos por coste diario/mensual
Timeouts: nunca esperar indefinidamente. Timeout + respuesta de fallback
Observabilidad: loguear cada llamada (modelo, tokens, latencia, coste)
Versionado de prompts: tratar prompts como código: en git, con rollback

Regla de oro

Trata al LLM como un servicio externo no fiable: puede fallar, puede ser lento, puede dar respuestas incorrectas. Diseña tu arquitectura como lo harías con cualquier dependencia externa crítica.

Para profundizar

Anthropic - Prompt Caching Anthropic - Building Effective Agents

686f6c61

63 Lo que deberías saber: uso práctico

Concepto	Slide
Prompt engineering: contexto claro + restricciones precisas	36
Context engineering: gestionar las 6 capas del contexto	37
Formatos de datos: JSON, YAML, Markdown, XML y cuándo usar cada uno	38
Alucinaciones: el modelo no sabe que no sabe	39
Structured output: JSON garantizado con schema	40
Multimodal: enviar imágenes, PDFs y audio al modelo	41
Voz en tiempo real: speech-to-speech con 300 ms de latencia	42
Generación de imágenes: difusión, LoRA, ControlNet, ComfyUI	43-47
RAG: inyectar contexto desde tus documentos	50
Agentic RAG y GraphRAG: retrieval inteligente y multi-fuente	51-52
Fine-tuning con LoRA/QLoRA cuando el prompt no basta	54
Prompt caching: ahorro de hasta 90% en tokens repetidos	58
Streaming: token por token para mejor UX	61
Arquitectura de apps LLM: retry, fallback, circuit breaker	62

686f6c61

Agentes y orquestación

Qué es un agente, cuándo usarlo, function calling, arquitecturas, patrones, orquestadores, MCP, computer use, A2A y human-in-the-loop.

686f6c61

65 ¿Cuándo usar un agente y no un prompt?

Usa un prompt cuando

La tarea es única y simple
No tiene efectos secundarios
No necesita acceder a ficheros o APIs
Una respuesta de texto basta

Usa un agente cuando

Necesitas múltiples pasos coordinados
Hay que interactuar con sistemas externos
La tarea requiere iteración y autocorrección
El flujo tiene decisiones condicionales
Quieres automatizar un proceso repetitivo

Clave

Cada tarea del agente necesita una ventana de contexto nueva (conversación limpia). Si reutilizas una conversación larga, el contexto acumulado degrada la calidad: el modelo pierde foco, las instrucciones iniciales se diluyen y el coste en tokens se dispara. Nuevo objetivo = nueva conversación.

Regla rápida

Si necesitas copiar/pegar el resultado del chat para hacer algo con él, probablemente necesitas un agente.

Para profundizar

OpenAI - A Practical Guide to Building Agents

686f6c61

66 ¿Qué es un agente?

Un LLM con capacidad de actuar: no solo responde, ejecuta. Tiene acceso a herramientas (tools) y puede completar tareas complejas de forma autónoma.

Percibir → Razonar → Actuar → Observar ↻

¿Qué puede hacer un agente?

Buscar información

Ficheros, bases de datos, internet, APIs externas

Leer y escribir

Crear, editar y analizar archivos de tu proyecto

Ejecutar comandos

Tests, builds, deploys, instalaciones, scripts

Autocorregirse

Si algo falla, analiza el error y reintenta con otra estrategia

Ejemplo paso a paso: "Añade tests al módulo de auth"

Lee el código del módulo de auth para entender la estructura
Identifica funciones sin cobertura de tests
Escribe los tests en un archivo nuevo o existente
Ejecuta npm test para verificar que pasan
Corrige errores si algún test falla y vuelve a ejecutar

Diferencia clave con un chatbot

Un chatbot responde preguntas. Un agente completa tareas. El chatbot te dice cómo hacerlo; el agente lo hace por ti (con tu supervisión).

Ejemplos: Claude Code, Devin, Cursor Agent, Aider

Para profundizar

OpenAI - A Practical Guide to Building Agents (PDF, 34 páginas) Anthropic - Building Effective Agents

686f6c61

67 Contexto y memoria en agentes: por qué importa empezar limpio

El context window es la memoria de trabajo del agente: lo que "ve" en cada momento. Cuanto más larga la conversación, más tokens consume → más caro, más lento y peor rendimiento.

¿Por qué usar contextos nuevos para tareas nuevas?

Evitas contaminación: instrucciones o errores de una tarea anterior no afectan a la siguiente
Mejor rendimiento: el modelo razona mejor con contexto limpio y enfocado
Menor coste: no pagas tokens de historia irrelevante

Tipos de memoria en agentes

Tipo	Duración	Ejemplo
Corto plazo	La conversación actual	El context window del LLM
Largo plazo	Persistida entre sesiones	Ficheros, BD, embeddings, CLAUDE.md
Episódica	Recuerdos de conversaciones	Qué decisiones se tomaron y por qué

Estrategia práctica

Una tarea = un contexto nuevo, con solo las instrucciones y datos que necesita. Los frameworks ya lo gestionan: CrewAI tiene memoria corta/larga/entidad, Claude Code compacta automáticamente.

Para profundizar

Anthropic - Building Effective Agents CrewAI - Memory Concepts

686f6c61

68 Memoria persistente para agentes

Un agente sin memoria entre sesiones empieza de cero cada vez. La memoria persistente permite que recuerde decisiones, preferencias y contexto de conversaciones anteriores.

Tipos de memoria persistente

Tipo	Cómo funciona	Ejemplo
Ficheros de reglas	CLAUDE.md, .cursorrules: texto que se inyecta en cada sesión	"Siempre usar TypeScript strict, commits en español"
Memoria episódica	Resúmenes de conversaciones anteriores, indexados por tema	"En la sesión del 15/03 decidimos usar PostgreSQL por X razón"
Base de conocimiento	Documentos del proyecto indexados en vector DB para RAG	Arquitectura, ADRs, convenciones del equipo
Memoria semántica	Hechos y relaciones extraídos y almacenados como grafo	"El usuario es senior en Go, nuevo en React"

Herramientas (marzo 2026)

CLAUDE.md / Rules

Lo más simple. Ficheros de texto que Claude Code lee al inicio de cada sesión. Manual pero efectivo. En git con el proyecto

Memoria automática

Claude Code guarda decisiones y preferencias automáticamente en ficheros .md. Se recuperan por relevancia en sesiones futuras

Zep / MemGPT

Frameworks especializados en memoria para agentes. Almacenan, resumen y recuperan conversaciones pasadas automáticamente

El problema sin resolver

La memoria perfecta para agentes sigue siendo un problema abierto. Demasiada memoria contamina el contexto. Poca memoria obliga a repetir decisiones. El equilibrio depende del caso de uso: empieza con CLAUDE.md + reglas y escala según necesites.

Para profundizar

Zep - Memory for AI Agents

686f6c61

69 Function calling (tool use): cómo el modelo ejecuta acciones

El modelo no puede ejecutar código directamente. Lo que puede hacer es decidir qué herramienta llamar y con qué parámetros. El sistema anfitrión ejecuta la herramienta y le devuelve el resultado.

Flujo de una tool call

Tu prompt → Modelo razona → Emite tool_use → Sistema ejecuta → Resultado al modelo → Respuesta final

Ejemplo con la API de Anthropic

 // 1. Defines las herramientas disponibles
 const tools = [{

  name: "get_weather",

  description: "Obtiene el clima actual de una ciudad",

  input_schema: {

    type: "object",

    properties: {

      city: { type: "string" }

    }, required: ["city"]

  }

}];

 // 2. El modelo decide usar la herramienta
 // Respuesta del modelo:

{ type: "tool_use", name: "get_weather",

  input: { city: "Madrid" } }

 // 3. TU código ejecuta la función real
 const result = await fetchWeather("Madrid");

 // 4. Devuelves el resultado al modelo

{ type: "tool_result", content: "22C, soleado" }

 // 5. El modelo genera la respuesta final
 // "En Madrid ahora hace 22 grados y esta soleado."

Claves para ingenieros

El modelo NO ejecuta nada: solo emite un JSON con la herramienta y parámetros. Tu código decide si ejecutar o no (sandboxing, permisos)
La descripción importa: el modelo elige la herramienta por su nombre y descripción. Una descripción mala = herramienta ignorada o mal usada
Bucle iterativo: el modelo puede encadenar múltiples tool calls antes de dar una respuesta final
Es la base de los agentes: un agente es un LLM con acceso a herramientas que decide cuáles usar en cada paso

Diferencia clave

Sin tool use, el modelo solo genera texto. Con tool use, el modelo puede actuar en el mundo real: consultar APIs, leer ficheros, ejecutar queries, navegar por la web. Es el salto de "chatbot" a "agente".

Para profundizar

Anthropic - Tool Use (documentación oficial) OpenAI - Function Calling

686f6c61

70 Arquitecturas de agentes: el bucle fundamental

Un agente no es solo un modelo que responde. Es un sistema que razona, actúa y aprende del resultado en un bucle continuo.

El bucle ReAct (Reason + Act)

Observar → Razonar (CoT) → Actuar (tool call) → Observar resultado → Repetir

El agente piensa en voz alta (chain of thought), decide qué herramienta usar, ejecuta, lee el resultado y decide el siguiente paso. Este patrón (ReAct, 2022) es la base de casi todos los agentes actuales.

Variantes del bucle

Plan-and-Execute

Primero planifica todos los pasos, luego los ejecuta uno a uno. Más predecible, menos flexible ante imprevistos

Reflexion

Tras actuar, el agente evalúa su propio resultado y decide si repetir con otro enfoque. Autocorrección explícita

Tool-augmented

El modelo elige entre herramientas disponibles (buscar, calcular, ejecutar código). Es el patrón que usan Claude Code, ChatGPT y Gemini

Chain of Thought (CoT)

El modelo razona paso a paso antes de actuar. No es un agente en sí, pero es la base del razonamiento de todos los agentes

En la práctica

La mayoría de agentes reales combinan estos patrones: planifican (Plan-and-Execute), razonan paso a paso (CoT), usan herramientas (Tool-augmented) y se autocorrigen (Reflexion).

Para profundizar

ReAct: Synergizing Reasoning and Acting (2022) Reflexion: Language Agents with Verbal Reinforcement Learning (2023)

686f6c61

71 Patrones de diseño de sistemas de agentes

Los bloques fundamentales para construir sistemas de agentes, según la guía de Anthropic "Building Effective Agents":

Prompt chaining

Secuencia de llamadas donde la salida de una es la entrada de la siguiente. Cada paso puede tener una comprobación (gate) antes de continuar

Routing

Un clasificador analiza la entrada y la dirige al agente o prompt especializado. Cada ruta maneja un tipo de tarea diferente

Parallelization

Dividir la tarea en subtareas independientes, ejecutarlas en paralelo y combinar resultados. También: múltiples agentes votan la mejor respuesta

Orchestrator-workers

Un agente central descompone la tarea dinámicamente, delega a workers especializados y sintetiza los resultados

Evaluator-optimizer

Un agente genera, otro evalúa. El ciclo se repite hasta alcanzar calidad suficiente. Ideal para código, textos y traducciones

¿Cuándo usar cada uno?

Patrón	Caso de uso	Complejidad
Prompt chaining	Pipelines de procesamiento con pasos fijos	Baja
Routing	Soporte al cliente, clasificación de intención	Baja
Parallelization	Análisis de documentos, votación, velocidad	Media
Orchestrator-workers	Tareas complejas con subtareas variables	Alta
Evaluator-optimizer	Calidad iterativa, code review, traducciones	Alta

Principio clave

Empieza con el patrón más simple que resuelva tu problema. La complejidad de un sistema multiagente solo se justifica cuando un agente solo no puede con la tarea.

Para profundizar

Anthropic - Building Effective Agents OpenAI - A Practical Guide to Building Agents

686f6c61

72 Multi-modelo: usar varios modelos y stack de orquestación

No todos los modelos son iguales ni cuestan lo mismo. La clave es usar el modelo adecuado para cada tarea.

Patrón de routing

Petición → Router (clasifica) → Modelo adecuado

Tarea	Modelo recomendado	Coste relativo
Resumir, clasificar, extraer datos	Haiku / GPT-4o Mini / modelo local	Bajo
Código complejo, razonamiento	Opus / GPT-5.2 / Sonnet	Alto
Validación, formato	Sonnet / Haiku	Medio-bajo

Stack típico de orquestación

Orquestador: coordina el flujo (LangGraph, Mastra, Google ADK, tu propio código)
Agente planificador: modelo potente que descompone la tarea (Opus, GPT-5.2)
Agentes ejecutores: modelos más baratos que ejecutan subtareas (Sonnet, Haiku, modelos locales)
Agente validador: revisa la salida antes de entregarla

Para profundizar

Anthropic - Prompt Routing

686f6c61

73 Patrones de orquestación en OpenAI y Claude

OpenAI Agents SDK

Manager (centralizado): un agente "manager" coordina todo, delega vía tool calls a agentes especializados
Handoffs (descentralizado): los agentes se pasan el control entre sí. Cada agente sabe a quién derivar
Primitivas: Agent, Runner, Handoff, Guardrail

Claude Agent SDK

Subagentes: se definen con su propio system prompt, herramientas restringidas y opcionalmente un modelo diferente
Agent Teams (experimental): múltiples instancias en paralelo, un team lead coordina
Compactación automática del contexto y re-lectura de reglas

Google ADK

Workflow agents: Sequential, Parallel, Loop para pipelines predecibles
LLM-driven routing: el modelo decide dinámicamente a qué agente derivar
Soporte nativo para MCP tools y streaming de audio/vídeo

Convergencia

Todos convergen en el mismo patrón: agentes especializados + coordinador + herramientas + guardrails. La diferencia está en el nivel de abstracción y el ecosistema.

Para profundizar

OpenAI Agents SDK - Multi Agent Claude Code - Agent Teams Google ADK - Agents

686f6c61

74 Ejemplo: un agente con tools en código real

Un agente mínimo tiene tres partes: un modelo, unas herramientas y un bucle que ejecuta las tool calls hasta que el modelo termina.

Agente básico con Claude API (TypeScript)

 import Anthropic from "@anthropic-ai/sdk";

 const client = new Anthropic();
 const tools = [{

  name: "read_file",

  description: "Lee el contenido de un fichero",

  input_schema: {

    type: "object",

    properties: { path: { type: "string" } },

    required: ["path"]

  }

}];

 // El bucle del agente
 let messages = [{ role: "user", content: prompt }];
 while (true) {

  const res = await client.messages.create({

    model: "claude-sonnet-4-6",

    tools, messages, max_tokens: 4096

  });

  messages.push({ role: "assistant", content: res.content });

  if (res.stop_reason === "end_turn") break;

  // Ejecutar cada tool call

  for (const block of res.content) {

    if (block.type === "tool_use") {

      const data = readFileSync(block.input.path);

      messages.push({ role: "user", content: [{

        type: "tool_result",

        tool_use_id: block.id,

        content: data.toString()

      }] });

    }

  }

}

¿Qué está pasando?

Se envía el prompt + las tools disponibles al modelo
El modelo responde con tool_use (quiere leer un fichero)
Nuestro código ejecuta la lectura y devuelve el resultado como tool_result
El modelo lee el resultado y decide: ¿necesita otra tool call o ya puede responder?
El bucle se repite hasta que el modelo dice end_turn

Esto es un ejemplo didáctico

En producción, los frameworks (Claude Agent SDK, LangChain, Mastra) ya gestionan el bucle, los errores, los reintentos, el sandboxing y la seguridad por ti. No necesitas escribir esto a mano.

Para profundizar

Anthropic - Tool Use Vercel AI SDK - Tool Calling

686f6c61

75 Sistemas de orquestación de agentes

Coordinan múltiples agentes para resolver problemas complejos. Un agente solo no puede con todo: necesitas especialización, división de tareas y coordinación.

Patrones principales

Secuencial

A termina, pasa resultado a B, B termina, pasa a C

Paralelo

A, B y C trabajan simultáneamente, se combinan resultados

Jerárquico

Un agente "director" delega subtareas a agentes especializados

Handoffs

Los agentes se pasan el control entre sí según el contexto

Rol del orquestador

Gestiona: flujo de información entre agentes, errores y reintentos, dependencias entre tareas.

Para profundizar

OpenAI Cookbook - Orchestrating Agents

686f6c61

76 ¿Cuáles hay? (orquestadores y ADKs)

LangChain + LangGraph v1.0 Python JS

El veterano. LangChain para construir agentes, LangGraph para orquestarlos con grafos de estado. Persistencia durable, human-in-the-loop.

CrewAI Python A2A

Agentes con roles, objetivos y backstory. Memoria corta/larga/entidad nativa. Soporte Agent-to-Agent. Muy adoptado en flujos de negocio.

Microsoft Agent Framework Python .NET

Antes AutoGen + Semantic Kernel, ahora unificados. Event-driven, async, middleware empresarial, telemetría.

Claude Agent SDK TypeScript Python

El motor detrás de Claude Code, expuesto como librería. Subagentes, Agent Teams, compactación automática.

OpenAI Agents SDK Python

Manager pattern + Handoffs, guardrails, trazabilidad nativa.

Google ADK Python TypeScript

Sequential/Parallel/Loop workflows, LLM-routing, soporte MCP, multi-modelo vía LiteLLM.

Mastra TypeScript

TypeScript-first, supervisor pattern, RAG integrado. Usado por PayPal, Adobe, Replit.

n8n / Make Low-code

Orquestación visual para equipos no-dev. Drag-and-drop de flujos con agentes.

Para profundizar

LangGraph CrewAI Mastra

686f6c61

77 Estructura de un agente sobre Claude Code

CLAUDE.md / Rules

Instrucciones persistentes que definen comportamiento, estilo y restricciones

Skills

Capacidades invocables: acciones especializadas (/commit, /review-pr)

Hooks

Scripts en eventos: PreToolUse, PostToolUse, validaciones automáticas

MCP Servers

Servidores de herramientas: conectar BD, APIs, navegador, Slack, GitHub...

Tools nativos

Herramientas built-in: Read, Write, Edit, Bash, Grep, Glob, Agent

Subagentes

Agentes especializados que se lanzan para tareas concretas con su propio contexto

Plugins

Paquetes que agrupan skills, hooks, agentes y MCPs distribuibles

Para profundizar

Anthropic - Claude Code Docs Model Context Protocol

686f6c61

78 Coding agents: el estado del arte

Agentes que programan de forma autónoma: leen código, planifican cambios, implementan, ejecutan tests y corrigen errores. El salto de "asistente" a "programador autónomo".

Comparativa (marzo 2026)

Agente	Tipo	Modelo	Punto fuerte
Claude Code	Terminal CLI	Claude (Opus, Sonnet)	Subagentes, plugins, MCP, hooks. El más extensible
Cursor Agent	IDE integrado	Claude, GPT, propios	Mejor UX visual, autocompletado + agente en uno
Devin	Autónomo (cloud)	Propios	Trabaja en paralelo, entorno completo en la nube
OpenHands	Open source	Cualquiera	Auto-hospedable, sandbox Docker, multi-modelo
Aider	Terminal (OSS)	Cualquiera	Ligero, git-aware, control total, sin vendor lock-in
Codex CLI	Terminal	OpenAI	Open source por OpenAI, sandbox nativo, multi-modelo

¿Qué pueden hacer realmente?

Funciona bien: features acotadas, refactoring, tests, bugs con stack trace claro, migraciones mecánicas
Funciona regular: diseño de arquitectura, features que tocan muchos ficheros, código con lógica de negocio compleja
No funciona (todavía): debugging de problemas sin reproducción clara, decisiones de producto, código que requiere contexto que no está en el repo

Realismo

Un coding agent no es un "programador junior infinito". Es un amplificador: multiplica la productividad de un ingeniero que sabe qué pedir y puede verificar el resultado. Sin esa verificación, genera deuda técnica a velocidad de máquina.

Para profundizar

Devin OpenHands - GitHub

686f6c61

79 MCP (Model Context Protocol): el estándar que conecta modelos con el mundo

Un protocolo abierto (creado por Anthropic, adoptado por la industria) que estandariza cómo un modelo se conecta con herramientas externas.

Analogía

MCP es como USB para la IA. Antes de USB, cada periférico tenía su propio conector. MCP hace lo mismo: un estándar, cualquier herramienta, cualquier modelo.

¿Cómo funciona?

Un MCP Server expone herramientas (leer BD, buscar en web, navegar, enviar mensajes...) siguiendo el protocolo
El agente/modelo descubre qué herramientas tiene disponibles y las llama cuando las necesita
Protocolo JSON-RPC sobre stdio o HTTP con SSE

¿Quién lo soporta? (marzo 2026)

Claude Code, Claude Desktop, Cursor, Windsurf, VS Code (GitHub Copilot), OpenAI (anunciado), Google ADK (nativo). Cientos de servidores disponibles: PostgreSQL, GitHub, Slack, Playwright, Pinecone, filesystem...

¿Por qué importa para un ingeniero?

Escribes la integración una vez como MCP Server, y cualquier agente compatible lo usa. Los agentes pasan de "chatear" a "actuar" en sistemas reales.

Para profundizar

Model Context Protocol - Especificación oficial MCP Spec (técnica)

686f6c61

80 MCP en la práctica: crear un servidor mínimo

Crear un MCP server es sorprendentemente simple. Aquí tienes un servidor completo en TypeScript que expone una herramienta.

Servidor MCP mínimo (TypeScript)

 import { McpServer } from "@modelcontextprotocol/sdk/server/mcp.js";
 import { StdioServerTransport } from "@modelcontextprotocol/sdk/server/stdio.js";
 import { z } from "zod";

 const server = new McpServer({

  name: "mi-servidor", version: "1.0.0"

});

 // Definir una herramienta

server.tool("buscar_usuario",

  "Busca un usuario por email en la BD",

  { email: z.string().email() },

  async ({ email }) => {

    const user = await db.users.findByEmail(email);

    return {

      content: [{ type: "text",

        text: JSON.stringify(user) }]

    };

  }

);

 // Arrancar con transporte stdio
 const transport = new StdioServerTransport();
 await server.connect(transport);

Registrar en Claude Code

 // .mcp.json (raíz del proyecto)

{

  "mcpServers": {

    "mi-servidor": {

      "command": "npx",

      "args": ["tsx", "src/mcp-server.ts"]

    }

  }

}

¿Qué puede exponer un MCP server?

Capacidad	Descripción	Ejemplo
Tools	Funciones que el modelo puede llamar	Consultar BD, enviar email, crear ticket
Resources	Datos que el modelo puede leer	Esquema de BD, configuración, documentos
Prompts	Templates de prompts reutilizables	Prompt de análisis de código, de review

Valor práctico

Con 50 líneas de código conviertes cualquier API interna en una herramienta que cualquier agente MCP-compatible puede usar. Escribes la integración una vez y funciona en Claude Code, Cursor, VS Code y cualquier cliente MCP.

Para profundizar

MCP - Quickstart Server MCP - Servidores de ejemplo

686f6c61

81 Computer Use y Browser Use

Agentes que controlan el ordenador como un humano: mueven el ratón, hacen clic, leen la pantalla, rellenan formularios. El siguiente salto en capacidad de los agentes.

Tipos de control

Computer Use (escritorio)

El agente ve capturas de pantalla y envía acciones de ratón/teclado. Puede usar cualquier aplicación: terminales, IDEs, navegadores, hojas de cálculo. Anthropic lo ofrece como tool nativa de Claude

Browser Use (navegador)

Control programático del navegador via Playwright o Puppeteer. Más preciso que screenshots: accede al DOM, puede esperar elementos, manejar SPA. El MCP de Playwright integra esto con cualquier agente

Casos de uso reales

Escenario	Enfoque	Ejemplo
Testing E2E con IA	Browser Use	El agente navega la app y verifica flujos como un QA
Scraping de webs complejas	Browser Use	SPAs con login, paginación, JS dinámico
Automatizar apps legacy	Computer Use	Aplicaciones de escritorio sin API (SAP, ERPs antiguos)
Rellenar formularios	Ambos	Migración de datos entre sistemas sin integración

Riesgos importantes

Un agente con acceso al escritorio puede hacer cualquier cosa que haría un humano: borrar archivos, enviar emails, hacer compras. Siempre en sandbox, siempre con supervisión, siempre con permisos mínimos. La regla de oro: nunca le des a un agente más acceso del que le darías a un becario en su primer día.

Para profundizar

Anthropic - Computer Use Computer Use Demo - GitHub

686f6c61

82 A2A (Agent-to-Agent): agentes que hablan entre sí

Agent-to-Agent Protocol (Google, 2025): un protocolo abierto para que agentes de distintos proveedores colaboren entre sí. Si MCP conecta agentes con herramientas, A2A conecta agentes con otros agentes.

Analogía

MCP es como USB (conectar periféricos). A2A es como HTTP (comunicar servidores entre sí). Cada agente expone una "Agent Card" (como un endpoint) que describe sus capacidades.

¿Cómo funciona?

Agente cliente → Descubre Agent Card → Envía tarea (JSON-RPC) → Agente remoto ejecuta → Devuelve resultado

Conceptos clave

Agent Card: un JSON en /.well-known/agent.json que describe el agente: nombre, URL, capacidades, autenticación requerida
Task: la unidad de trabajo. Un agente cliente crea una tarea, el agente remoto la ejecuta y devuelve artefactos (texto, ficheros, datos estructurados)
Streaming: soporta SSE para tareas largas con actualizaciones en tiempo real
Opaco por diseño: el agente cliente no necesita saber cómo funciona el agente remoto internamente. Solo ve la Agent Card y los resultados

MCP vs A2A

	MCP	A2A
Conecta	Agente ↔ herramientas	Agente ↔ agente
Analogía	USB (periféricos)	HTTP (servidores)
Transporte	stdio / HTTP+SSE	HTTP + JSON-RPC
Descubrimiento	Configuración local	Agent Card pública
Son complementarios	Un agente A2A puede usar MCP internamente para acceder a herramientas

¿Por qué importa?

Hoy cada framework tiene sus propios agentes aislados. A2A permite que un agente de CrewAI delegue trabajo a un agente de LangGraph o Google ADK sin importar la implementación interna. Es el paso hacia un ecosistema de agentes interoperables.

Para profundizar

A2A Protocol - Especificación oficial Google Blog - A2A announcement

686f6c61

83 Human-in-the-loop

Un agente autónomo sin supervisión es un riesgo. Human-in-the-loop (HITL) son patrones para mantener al humano en el bucle de decisión en los momentos críticos.

Patrones de intervención

Aprobación por acción

El agente pide permiso antes de cada acción irreversible. Ejemplo: Claude Code pide confirmación antes de ejecutar comandos bash o escribir archivos

Checkpoints

El agente trabaja autónomo entre puntos de control. En cada checkpoint, el humano revisa el progreso y decide si continuar, ajustar o parar

Escalado

El agente detecta que no puede resolver algo (baja confianza, fuera de dominio) y escala a un humano. Clave: el agente debe saber cuándo NO sabe

Supervisión asíncrona

El agente ejecuta y el humano revisa después (logs, diffs, resultados). Más rápido pero menos seguro. Apropiado para acciones reversibles

Nivel de autonomía

Nivel	Descripción	Ejemplo
0: Herramienta	Humano decide todo, IA asiste	Autocompletado de Copilot
1: Supervisado	IA propone, humano aprueba cada paso	Claude Code con permisos estrictos
2: Semi-autónomo	IA ejecuta dentro de guardrails, humano en checkpoints	Agente CI que abre PRs para revisión
3: Autónomo	IA ejecuta y humano revisa después	Agente de monitorización que reinicia servicios

Regla práctica

Empieza en nivel 1 (supervisión total) y sube gradualmente conforme el agente demuestra fiabilidad. Nunca pongas un agente nuevo en nivel 3 directamente. El coste de una acción incorrecta debe guiar el nivel de supervisión: bajo coste de error → más autonomía.

686f6c61

84 Lo que deberías saber: agentes y orquestación

Concepto	Slide
Agente vs prompt: cuándo necesitas un agente de verdad	65
Contexto, memoria y memoria persistente entre sesiones	67-68
Function calling: cómo el modelo ejecuta acciones	69
Arquitecturas: ReAct, plan-and-execute, router, multi-agente	70-71
Orquestación: LangGraph, CrewAI, Autogen, Claude Agent SDK	75-76
Coding agents: Claude Code, Aider, Cursor Agent, Copilot	78
MCP: protocolo universal para conectar tools	79-80
Computer Use y Browser Use: agentes que usan interfaces	81
A2A: agentes que hablan entre sí (Google, 2025)	82
Human-in-the-loop: el humano como última defensa	83

686f6c61

Realidad del ingeniero

Herramientas, CI/CD con IA, seguridad, red teaming, regulación, costes, observabilidad y el cambio de paradigma.

686f6c61

86 IDE web vs terminal: ¿dónde usar la IA?

IDEs web (chat)

ChatGPT, Claude.ai, Gemini, Playground de OpenAI, Console de Anthropic

Conversación libre

Explorar ideas, prototipar prompts

Ajustar parámetros

Temperatura, tokens, modelos

Limitación: copiar/pegar código manualmente, sin acceso a tu proyecto

Agentes en terminal

Claude Code, OpenCode, Aider

Acceso directo

Leen, editan y crean archivos reales

Ejecutar

Comandos, tests, builds en tu proyecto

¿Cuándo usar cuál?

Tarea	Mejor opción
Explorar, aprender, preguntar	IDE web
Prototipar prompts	IDE web (Playground/Workbench)
Desarrollo real, multi-fichero	Terminal (Claude Code, Aider)
Refactoring, automatización	Terminal

Para profundizar

Claude Code OpenCode Aider

686f6c61

87 Comparativa de AI coding assistants (marzo 2026)

Todos usan IA, pero cada herramienta tiene un enfoque diferente. La elección depende de cómo trabajas, no solo de qué modelo usa.

Herramienta	Tipo	Modelos	Punto fuerte	Precio/mes
Claude Code	Terminal (agente)	Claude (Opus, Sonnet, Haiku)	Agente autónomo. Lee, escribe, ejecuta, corrige. Subagentes, MCP, plugins	~$17 (Max) / API pay-per-use
Cursor	IDE (fork VS Code)	Claude, GPT, modelos propios	Autocompletado + chat + agente integrado en IDE. Tab para aceptar. Multi-fichero	$20 (Pro) / $40 (Business)
GitHub Copilot	Extension IDE	GPT-5.2, Claude, Gemini	Integrado en VS Code/JetBrains. Copilot Chat + agent mode. Ecosistema GitHub	$10 (Individual) / $19 (Business)
Windsurf	IDE (fork VS Code)	Claude, GPT, modelos propios	Cascade: agente que ejecuta multi-paso. Buena UX para no-expertos	$15 (Pro) / pay-per-use
Aider	Terminal (open source)	Cualquiera (API)	Open source, ligero, git-aware. Ideal para quién quiere control total	Gratis (pagas la API)
OpenCode	Terminal (open source)	Cualquiera (API)	Terminal TUI elegante. LSP integrado. Alternativa open source a Claude Code	Gratis (pagas la API)

¿Cómo elegir?

Prefieres terminal

Claude Code (el más potente), Aider (open source, ligero), OpenCode (TUI elegante)

Prefieres IDE visual

Cursor (el más completo), Windsurf (buena UX), Copilot (si ya usas VS Code/GitHub)

Presupuesto ajustado

Copilot Individual ($10) o Aider/OpenCode gratis con API pay-per-use

Máximo rendimiento

Claude Code con Opus para tareas complejas. Cursor con modelos potentes para IDE

Consejo práctico

No elijas una sola herramienta. Muchos ingenieros combinan: Claude Code para tareas grandes (refactoring, features completas) y Copilot/Cursor para el día a día (autocompletado, snippets). Son complementarias, no excluyentes.

Para profundizar

Cursor GitHub Copilot Windsurf

686f6c61

88 AI coding benchmarks: medir con datos, no con marketing

Cada herramienta dice ser "la mejor". Los benchmarks te dan datos objetivos para comparar modelos y agentes de coding.

Benchmarks principales

Benchmark	Qué mide	Cómo funciona
SWE-bench	Resolver issues reales de GitHub	2294 issues de repos open source (Django, Flask, sympy...). El agente debe entender, localizar y corregir el bug. Gold standard
Aider Polyglot	Edición de código multi-lenguaje	225 ejercicios en Python, JS, Java, C++... Mide si el agente puede editar código existente correctamente
HumanEval	Generación de funciones	164 problemas tipo LeetCode. Sencillo pero útil para comparar modelos base
WebArena	Tareas web complejas	El agente navega sitios web reales, rellena formularios, extrae datos. Mide browser use
TAU-bench	Agentes en entornos reales	Tareas de retail y aerolínea con APIs reales. Mide tool use en escenarios de producción

Cómo leer benchmarks sin engañarte

Verified vs unverified: SWE-bench Verified (500 issues curados) es más fiable que el full (2294, con ruido)
Coste por resolución: un agente que resuelve el 50% gastando 10x más tokens no es mejor que uno que resuelve el 45% barato
Contaminación: si el modelo se entrenó con los datos del benchmark, el score no es representativo
Tu caso de uso: SWE-bench mide bugs en Python OSS. Si trabajas con TypeScript empresarial, el ranking puede ser distinto

Dónde consultar

swebench.com para SWE-bench, aider.chat/leaderboards para el Aider Polyglot, artificialanalysis.ai para comparar velocidad/precio/calidad de modelos.

686f6c61

89 IA en CI/CD

Los agentes de IA ya se integran en los pipelines de desarrollo. No solo generan código: lo revisan, testean y despliegan.

Dónde encaja la IA en el pipeline

Fase	Qué hace la IA	Herramientas
Pre-commit	Genera tests, revisa código antes del commit	Claude Code hooks, pre-commit + LLM
PR Review	Revisa el diff, detecta bugs, sugiere mejoras	CodeRabbit, Claude PR review, Copilot review
Testing	Genera tests para código nuevo, detecta gaps de cobertura	Diffblue (Java), Claude Code agentes
Seguridad	Escaneo de vulnerabilidades con contexto semántico	Semgrep + LLM, Snyk AI
Release notes	Genera changelog y release notes automáticas	GitHub Copilot, scripts con LLM

Ejemplo: Claude Code en CI con GitHub Actions

 # .github/workflows/ai-review.yml
 name: AI Code Review
 on: [pull_request]
 jobs:

  review:

    runs-on: ubuntu-latest

    steps:

      - uses: actions/checkout@v4

      - name: Run Claude Code review

        run: |

          claude -p "Revisa este PR. Busca bugs,

           problemas de seguridad y mejoras."

        env:

          ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_KEY }}

Cuidado

La IA en CI es asistencia, no decisión. Nunca bloquees un merge solo por lo que dice un LLM: puede tener falsos positivos. Usa la IA como primer filtro que agiliza la revisión humana, no como sustituto.

Para profundizar

Claude Code en CI/CD CodeRabbit - AI Code Review

686f6c61

90 Seguridad y riesgos

Prompt injection

Un usuario malicioso inyecta instrucciones para alterar el comportamiento del modelo. Directa ("Ignora instrucciones") o indirecta (datos externos con instrucciones ocultas).

Data leakage (fuga de datos)

El modelo puede filtrar datos del system prompt, del contexto RAG o de conversaciones anteriores si no se controla. Un usuario puede pedir "repite tus instrucciones" y el modelo revelar reglas internas, claves API o lógica de negocio inyectada en el prompt. También puede exponer datos de otros usuarios si el contexto se comparte entre sesiones.

Alucinaciones

Genera información falsa con total confianza: funciones que no existen, librerías inventadas, queries SQL con columnas inexistentes, comandos de sistema destructivos. El modelo no "sabe" que no sabe: no tiene mecanismo interno para distinguir hechos de invenciones. Cuanto más específica es la pregunta, más probable es la alucinación.

Dependencia excesiva

Aceptar la salida del modelo sin revisarla. Bugs sutiles (off-by-one, race conditions), código inseguro (SQL injection, XSS), decisiones de arquitectura incorrectas. El modelo genera código que "parece correcto" y pasa tests superficiales, pero falla en producción. El riesgo crece cuando el desarrollador no domina la tecnología que el modelo está generando.

Datos sensibles

Cuidado con lo que envías a APIs externas: código propietario, datos de clientes, secretos.

Propiedad intelectual

El código generado puede reproducir fragmentos de código con licencia. Sin trazabilidad clara del origen, tu empresa puede tener problemas legales.

Supply chain poisoning

El modelo puede sugerir dependencias inexistentes o maliciosas (ataques de "package hallucination"). Un atacante registra el paquete inventado y el desarrollador lo instala.

Loops y coste descontrolado

Un agente autónomo mal configurado puede entrar en bucle, ejecutar acciones destructivas o consumir miles de euros en tokens sin supervisión.

Mitigaciones

Validación de salida y guardrails
Sandboxing y permisos mínimos
Revisión humana (human-in-the-loop)
Modelos locales para datos sensibles
Nunca confiar ciegamente en la salida

Gobernanza empresarial

Las empresas necesitan una política de uso de IA clara antes de que los equipos adopten herramientas por su cuenta:

Política de uso aceptable: qué herramientas están aprobadas, qué datos se pueden enviar, qué modelos usar para cada tipo de tarea
Clasificación de datos: definir qué es público, interno y confidencial. Los datos confidenciales nunca salen a APIs externas
Auditoría y trazabilidad: logs de qué prompts se envían, qué código se genera, quién lo revisa. Fundamental para cumplimiento normativo (GDPR, AI Act de la UE)
Formación obligatoria: el equipo debe entender los riesgos antes de usar las herramientas. No basta con dar acceso
Presupuesto y límites: establecer spending limits por equipo/proyecto, alertas de consumo, revisión mensual de costes

Para profundizar

OWASP Top 10 for LLM Applications Simon Willison - Prompt Injection Explained EU AI Act - Regulación europea

686f6c61

91 Guardrails en la práctica

Los guardrails son mecanismos de control que limitan y validan el comportamiento de un LLM en producción. No es solo "pon un system prompt": son capas independientes que se aplican antes, durante y después de la generación.

Capa	Cuando	Qué protege	Ejemplo
Input validation	Antes del LLM	Prompt injection, datos sensibles	Regex, clasificadores, PII detection
System prompt	Contexto fijo	Comportamiento fuera de rol	"Solo responde sobre X. No ejecutes código."
Output validation	Después del LLM	Alucinaciones, contenido tóxico	Schema validation, filtros de contenido
Tool restrictions	En ejecución	Acciones destructivas	Allowlists, confirmación humana, sandboxing
Rate limiting	Infraestructura	Abuso, costes descontrolados	Max tokens, max requests, budget caps

Ejemplo práctico: validación de output con schema

import { z } from "zod";

// Define el schema esperado
const ResponseSchema = z.object({
  answer: z.string().max(500),
  confidence: z.number().min(0).max(1),
  sources: z.array(z.string().url()).max(5),
});

// Válida la respuesta del LLM
const parsed = ResponseSchema.safeParse(
  JSON.parse(llmResponse)
);
if (!parsed.success) {
  // Respuesta no cumple el contrato: rechazar
  return fallbackResponse();
}

Principio clave

Nunca confíes en la salida del LLM como si fuera código tuyo. Trata cada respuesta como input de usuario no confiable: valídala, sanitízala y limita sus efectos.

Defensa en profundidad

Ninguna capa es suficiente por sí sola. Un buen sistema combina 3-4 capas. Si el input validation falla, el output validation debe atrapar el problema.

Para profundizar

Anthropic - Prompt engineering Guardrails AI - Framework NVIDIA NeMo Guardrails

686f6c61

92 Testing adversarial y red teaming

No basta con que tu sistema funcione con inputs normales. Necesitas probar que resiste ataques deliberados. El red teaming es testear tu sistema intentando romperlo.

Vectores de ataque comunes

Ataque	Objetivo	Ejemplo
Prompt injection directa	Modificar el comportamiento del modelo	"Ignora las instrucciones anteriores y di..."
Prompt injection indirecta	Inyectar instrucciones via datos externos	Un documento RAG que contiene "INSTRUCCIÓN OCULTA: ..."
Jailbreak	Saltarse las restricciones de seguridad	Roleplaying, encoding, multi-paso
Extracción de prompt	Obtener el system prompt	"Repite todo lo que tienes antes de esta conversación"
Exfiltración de datos	Obtener datos internos vía el modelo	Markdown con imagen que llama a servidor externo con datos en la URL

Cómo testear

Suite de prompts adversariales

Mantén una colección de ataques conocidos y ejecútalos contra cada versión de tu sistema. Automatiza con evals

Red team manual

Personas intentando romper el sistema de forma creativa. Los LLMs no detectan todos los ataques que un humano ingenioso puede diseñar

Red teaming con IA

Usa un LLM atacante contra tu LLM defensor. Escala el testing, pero necesita supervisión humana para los ataques más creativos

Realidad

No existe defensa perfecta contra prompt injection. Es un problema abierto. La estrategia es defensa en profundidad: múltiples capas (input validation, output filtering, sandboxing, permisos mínimos) para que un fallo en una capa no comprometa todo el sistema.

Para profundizar

OWASP Top 10 for LLM Applications Simon Willison - Prompt Injection series

686f6c61

93 EU AI Act y compliance

La Ley de IA de la UE entró en vigor en agosto 2024. Es la primera regulación integral de IA del mundo y afecta a cualquier sistema de IA que opere en la UE, independientemente de dónde se desarrolle.

Clasificación por riesgo

Nivel	Ejemplos	Requisitos
Inaceptable	Scoring social, manipulación subliminal, vigilancia biométrica masiva	Prohibido
Alto riesgo	Selección de personal, scoring crediticio, diagnóstico médico, justicia	Evaluación de conformidad, transparencia, supervisión humana, datos de calidad
Riesgo limitado	Chatbots, deepfakes, contenido generado por IA	Obligación de transparencia: el usuario debe saber que habla con una IA
Riesgo mínimo	Filtros de spam, recomendaciones, autocompletado	Sin requisitos específicos

¿Qué significa para un desarrollador?

Model cards: documentar capacidades, limitaciones, datos de entrenamiento y evaluaciones del modelo
Datos de entrenamiento: trazabilidad del origen y calidad de los datos usados
Supervisión humana: los sistemas de alto riesgo requieren que un humano pueda intervenir y anular decisiones
Monitorización post-despliegue: seguimiento continuo del rendimiento y los sesgos del modelo en producción
Registros y auditoría: logs de las decisiones del sistema para investigación posterior

Calendario

Febrero 2025: prohibición de sistemas inaceptables. Agosto 2025: obligaciones para modelos de propósito general (GPT, Claude, Gemini). Agosto 2026: todos los requisitos aplicables. Las multas pueden llegar al 7% de la facturación global.

Para profundizar

EU AI Act - Texto completo Comisión Europea - Marco regulatorio

686f6c61

94 Tokens y coste: ¿cuánto cuesta usar IA?

Se paga por tokens de entrada + tokens de salida. La salida suele ser más cara (el modelo trabaja más generando que leyendo).

Precios por millón de tokens (marzo 2026)

Modelo	Entrada	Salida	Nivel
Claude Opus 4.6	~4,60 €	~23 €	Premium
Claude Sonnet 4.6	~2,75 €	~13,80 €	Estándar
Claude Haiku 4.5	~0,92 €	~4,60 €	Económico
GPT-5.2	~1,60 €	~12,90 €	Premium
GLM 5 (Zhipu AI)	~0,70 €	~2,80 €	Económico
Qwen 3.5 (Alibaba)	~0,55 €	~2,20 €	Económico

Estrategias para optimizar coste

Usar el modelo más barato que resuelva la tarea (no todo necesita Opus)
Caching de prompts (Anthropic y OpenAI lo soportan nativamente)
Acortar system prompts y contexto innecesario
Modelos locales para desarrollo y pruebas

Rango de coste

Un proyecto real puede costar desde céntimos hasta miles de euros/mes según volumen. La clave es medir y ajustar.

Para profundizar

Claude API Pricing OpenAI API Pricing

686f6c61

95 Observabilidad de LLMs

En producción, un LLM sin observabilidad es una caja negra. Necesitas saber qué está pasando en cada llamada: latencia, coste, calidad, errores, y poder investigar cuando algo falla.

¿Qué observar?

Latencia

TTFT (time to first token), tiempo total, latencia por modelo. Alertas cuando sube

Coste

Tokens input/output por request, coste acumulado por usuario/feature/modelo

Calidad

Scores de evaluación, feedback de usuario (thumbs up/down), tasa de reintentos

Traces

El recorrido completo de una petición: prompt → modelo → tools → respuesta. Imprescindible para debuggear agentes multi-paso

Herramientas

Herramienta	Tipo	Punto fuerte
Langfuse	Open source (self-host o cloud)	Tracing completo, evals, datasets, prompts management. El más completo open source
LangSmith	SaaS (LangChain)	Integración nativa con LangChain/LangGraph. Playground de prompts
Helicone	Proxy transparente	Se pone delante de tu API sin cambiar código. Dashboard de costes y latencia
Braintrust	SaaS	Enfocado en evals y experiments. Bueno para comparar versiones de prompts

Mínimo viable

Si no quieres montar nada: loguea cada llamada con timestamp, modelo, tokens input/output, latencia y coste en una tabla. Con eso ya puedes detectar anomalías y controlar el gasto. Las herramientas especializadas añaden tracing, evals y visualización, pero el logging básico es innegociable.

Para profundizar

Langfuse Helicone

686f6c61

96 Gestión de prompts como código

Un prompt en producción no es un string pegado en el código. Es un artefacto de ingeniería que necesita versionado, testing, review y rollback.

Versionado en git

Cada prompt en un fichero dedicado (.md, .yaml). Cambios vía PR con diff legible. Historial completo de quién cambió qué y por qué

Testing con evals

Suite de casos de prueba por prompt. Antes de mergear, las evals deben pasar: ¿el nuevo prompt es igual o mejor?

A/B testing

Servir dos versiones del prompt en paralelo, medir cuál da mejores resultados y promocionar la ganadora

Rollback instantáneo

Si un cambio degrada la calidad, revertir al commit anterior sin redesplegar. El prompt es config, no código compilado

Ejemplo de estructura

 # prompts/
 #   extract-contact.md       ← El prompt
 #   extract-contact.eval.ts  ← Suite de evals
 #   extract-contact.meta.yaml ← Metadata

 # extract-contact.meta.yaml
 model: claude-sonnet-4-6
 temperature: 0.1
 version: 3
 last_eval_score: 0.94
 owner: equipo-backend 

Por qué importa

Un cambio de una palabra en un prompt puede alterar el comportamiento de todo el sistema. Sin versionado y evals, es imposible saber si un cambio mejora o empeora. Tratar prompts como código elimina el "a mí me funciona" y lo sustituye por métricas.

Para profundizar

Promptfoo - Testing de prompts Langfuse - Prompt Management

686f6c61

97 Evaluaciones (evals): ¿cómo saber si tu IA funciona bien?

No puedes escribir tests unitarios clásicos contra un LLM (la salida cambia cada vez). Necesitas evaluaciones (evals): métricas y frameworks para medir la calidad de un sistema de IA de forma sistemática.

Tipos de evaluación

Tipo	Qué mide	Cómo
Exactitud	¿La respuesta es correcta?	Comparar contra respuestas de referencia (gold standard)
Estructura	¿El formato es válido?	Validar JSON schema, regex, longitud, campos requeridos
LLM-as-judge	¿La calidad es buena?	Otro modelo evalúa la respuesta con criterios definidos
Clasificación	¿El routing es correcto?	Precisión, recall, F1 contra etiquetas conocidas
Regression	¿Un cambio empeoró algo?	Comparar resultados antes/después de un cambio de prompt o modelo

Ejemplo práctico: eval básica

// Evaluar si el modelo extrae emails correctamente
const testCases = [
  { input: "Contacta en [email protected]",
    expected: "[email protected]" },
  { input: "Sin email aquí",
    expected: null },
];

let passed = 0;
for (const tc of testCases) {
  const result = await extractEmail(tc.input);
  if (result === tc.expected) passed++;
}
console.log(`Score: ${passed}/${testCases.length}`);

Herramientas de evaluación

Anthropic Evals

Framework oficial de Anthropic para evaluar modelos y prompts con datasets personalizados

Braintrust / Promptfoo

Plataformas para gestionar datasets de evaluación, comparar versiones de prompts y detectar regresiones

LLM-as-judge

Usar un modelo potente (Opus) para evaluar las respuestas de un modelo más barato (Haiku). Definir criterios claros en el prompt del juez

Sin evals, estás volando a ciegas

Cambias el prompt y "parece que va bien" no es una métrica. Las evals te dicen si un cambio mejora o empeora el sistema. Son el equivalente de los tests en software clásico.

Para profundizar

Anthropic - Developing Tests for LLM Applications Promptfoo - LLM Testing Framework

686f6c61

98 Testing de código generado por IA

El código generado por IA parece correcto y tiene buena pinta. Pero esconde bugs sutiles que solo se detectan con testing riguroso.

Errores típicos del código generado

Tipo de error	Ejemplo	Cómo detectarlo
Off-by-one	Bucle que itera de más o de menos	Tests con boundary values (0, 1, N-1, N)
Race conditions	Acceso concurrente no protegido	Tests de concurrencia, stress testing
Happy path only	Solo maneja el caso exitoso	Tests con inputs inválidos, nulos, vacíos
APIs inventadas	Métodos o paquetes que no existen	Compilación + ejecución real
Seguridad	SQL injection, XSS, secrets en código	SAST (Semgrep), OWASP checks

Estrategia de testing

Siempre ejecutar

Nunca aceptar código sin ejecutarlo. "Se ve bien" no es un test

Mutation testing

Cambiar partes del código y verificar que los tests fallan. Si no fallan, los tests no cubren esa lógica

Property-based testing

Definir propiedades que siempre deben cumplirse. El framework genera cientos de inputs aleatorios

Review como junior

Leer el diff como si lo hubiera escrito un junior. No asumir que "la IA sabe lo que hace"

Regla práctica

Pide a la IA que genere los tests primero (spec-first), revísalos tú, y luego pide la implementación. Si los tests son buenos, la implementación correcta sale casi sola. Si genera código y tests juntos, los tests pueden estar "hechos a medida" para pasar.

Para profundizar

Stryker - Mutation Testing fast-check - Property-based testing (JS)

686f6c61

99 Vibe coding: programar por intención

Término acuñado por Andrej Karpathy (febrero 2025): "un nuevo tipo de programación donde te dejas llevar por las vibes, abrazas lo exponencial, y olvidas que el código existe".

Programación tradicional

El ingeniero escribe cada línea. Domina la sintaxis, las APIs, los patrones. El valor está en saber cómo implementar.

Escribir código Dominar sintaxis

Vibe coding

El ingeniero describe qué quiere. La IA escribe el código. El valor está en saber qué construir, cómo verificarlo y cuándo la IA se equivoca.

Describir intención Verificar resultado

Riesgos sin disciplina

Código que no entiendes: si no puedes leerlo, no puedes mantenerlo ni debuggearlo
Deuda técnica invisible: "funciona" pero tiene decisiones de arquitectura que no has evaluado
Falsa productividad: generar código rápido no es generar código correcto

Vibe coding con disciplina

Spec antes que código: describe qué quieres antes de pedir implementación
Tests antes que implementación: genera los tests primero, luego la implementación
Revisa cada diff: no hagas merge de código que no entiendas
Commits pequeños: cambios atómicos que puedes revertir individualmente

La clave

Vibe coding no es "dejar que la IA haga todo". Es elevar el nivel de abstracción: de líneas de código a intenciones y restricciones. El ingeniero que mejor "vibea" es el que mejor sabe especificar, verificar y corregir.

Para profundizar

Karpathy - Tweet original "vibe coding" Simon Willison - Vibe coding

686f6c61

100 El cambio de paradigma en el trabajo del ingeniero

Lo que cambia

De "escribir código" a especificar intención
De "dominar la sintaxis" a dominar el contexto
De "programador individual" a director de agentes
De "memorizar APIs" a diseñar prompts y flujos
De "hacer el trabajo" a verificar el trabajo

Lo que NO cambia

Pensar en arquitectura y trade-offs
Entender qué hace el código
Seguridad, rendimiento, buenas prácticas
La responsabilidad: si el agente genera un bug, el responsable eres tú
Resolver problemas ambiguos que requieren criterio humano

Exponential Programming (Diverger)

No es solo "programar más rápido". Es un cambio de modelo mental. Diverger acuña el término Exponential Programming para describir cómo la IA transforma la relación entre el ingeniero y el código:

Productividad no lineal: un ingeniero con agentes no es 2x más rápido, puede ser 10x o 50x en ciertas tareas. El cuello de botella deja de ser escribir código y pasa a ser pensar qué construir
Abstracción sobre abstracción: antes abstraíamos con funciones, clases y frameworks. Ahora abstraemos con prompts, agentes y flujos. El nivel de abstracción sube un orden de magnitud
Equipos más pequeños, más impacto: lo que antes requería un equipo de 10 personas durante meses, un ingeniero con agentes bien orquestados puede hacerlo en días. Cambia la economía de los proyectos
El ingeniero como director: tu trabajo no es escribir cada línea, es definir la visión, establecer las restricciones, revisar el resultado y tomar decisiones que la IA no puede tomar por ti

Nuevas habilidades del ingeniero IA-aumentado

Prompt engineering y diseño de system prompts
Evaluación de salidas de modelos (evals)
Orquestación de agentes y diseño de flujos multi-paso
Gestión de contexto: qué información dar al modelo y cuándo
Pensamiento crítico: detectar alucinaciones, sesgos y errores sutiles

El riesgo real

No es que la IA te sustituya. Es que un ingeniero que usa IA sustituya a uno que no la usa.

Para profundizar

Anthropic - Building Effective Agents Addy Osmani - AI-Assisted Development

686f6c61

101 Patrones de trabajo con IA en el día a día

Más allá de las herramientas, lo que marca la diferencia es cómo integras la IA en tu flujo de trabajo. Estos son los patrones que los equipos más productivos usan en 2026.

Spec-first development

Antes de escribir código, escribe una especificación clara en lenguaje natural. El agente implementa desde la spec. Resultado: menos iteraciones, código más alineado con la intención

Test-first con IA

Escribe los tests primero (o pide al agente que los genere desde la spec) y luego implementa hasta que pasen. TDD clásico, pero el agente hace el trabajo pesado

Rules como código

CLAUDE.md, .cursorrules, AGENTS.md son la "configuración" del agente. Mantenlos en git, revísalos en PR, itéralos como cualquier otro fichero del proyecto

Rubber-duck debugging con LLM

Explícale el problema al modelo como harías con un compañero. El acto de articular el problema + la perspectiva del modelo desbloquea más rápido que depurar solo

Contexto nuevo por tarea

Cada tarea significativa merece una conversación nueva. No acumules contexto irrelevante. Define el objetivo, da el contexto mínimo necesario y deja trabajar al agente

Review antes de commit

El agente genera, tú revisas. Lee cada diff como si lo hubiera escrito un junior. No hagas merge de código que no entiendas, aunque "funcione"

El patrón que más impacto tiene

Spec-first + test-first: defines qué quieres en lenguaje natural, el agente genera los tests, luego implementa hasta que pasan. Si los tests son buenos, la implementación es correcta por definición. Es el flujo que más consistentemente produce buen código con IA.

Para profundizar

Addy Osmani - AI-Assisted Development Harper Reed - LLM Codegen Workflow

686f6c61

102 Configurar Claude Code como un pro

La diferencia entre un Claude Code que "funciona" y uno que multiplica tu productividad está en cómo lo configuras. Estos ficheros definen su comportamiento.

Estructura de configuración

Fichero	Alcance	Para qué
`~/.claude/CLAUDE.md`	Global (todos los proyectos)	Idioma, estilo de commits, preferencias personales, herramientas
`.claude/CLAUDE.md`	Proyecto	Stack del proyecto, convenciones, arquitectura, reglas de equipo
*`.claude/rules/.md`**	Proyecto (modular)	Reglas por dominio: testing, seguridad, estilo, deploy
`.mcp.json`	Proyecto	Servidores MCP: BD, APIs, navegador, herramientas externas
`settings.json`	Global / proyecto	Permisos, hooks, modelo por defecto, variables de entorno

Ejemplo: CLAUDE.md de proyecto

 # Proyecto: API de gestión de pedidos

 ## Stack

- TypeScript strict, Node 22, Fastify, Drizzle ORM, PostgreSQL

- Tests: Vitest. Cobertura mínima: 80%

- Lint: Biome. Formateo automático al guardar

 ## Convenciones

- Commits: tipo(scope): descripción. En español

- No hacer push directo a main. Siempre PR

- Cada endpoint tiene tests de integración

- Validar inputs con Zod en cada handler

 ## Arquitectura

- src/routes/ → endpoints Fastify

- src/services/ → lógica de negocio

- src/db/ → esquema Drizzle y migraciones

- src/lib/ → utilidades compartidas

 ## Seguridad

- API keys en variables de entorno, nunca en código

- Validar todos los inputs antes de procesar

- Rate limiting en todos los endpoints públicos

Ejemplo: .claude/rules/testing.md

 # Reglas de testing

- Siempre ejecutar npm test antes de considerar la tarea terminada

- Tests de integración con base de datos real (Docker), no mocks

- Nombres de test descriptivos: "debería devolver 404 si el pedido no existe"

- Un fichero de test por módulo: orders.test.ts para orders.ts

Consejo clave

Las rules son el multiplicador más infravalorado de Claude Code. 30 minutos configurando buenas rules te ahorran horas de correcciones. Mantenlas en git, revísalas en cada PR, e itéralas cada semana con lo que aprendas.

Para profundizar

Claude Code - Settings Claude Code - Memory

686f6c61

103 Configurar OpenCode y Cursor

Cada herramienta tiene su propio sistema de reglas. La idea es la misma: darle contexto persistente para que no tengas que repetirte en cada conversación.

OpenCode

Fichero	Para qué
`AGENTS.md`	Reglas generales del proyecto. Se genera con `/init`
`opencode.json`	Configuración: modelo, provider, reglas, seguridad

 # AGENTS.md (generado con /init, editable)

 ## Reglas

- Resolver la tarea completamente antes de confirmar

- Tests verdes antes de considerar terminado

- Pedir confirmación en cambios destructivos

 ## Stack

- Python 3.12, FastAPI, SQLAlchemy, PostgreSQL

- Tests: pytest. Formateo: ruff

 ## Límites

- Confirmación si se modifican más de 5 archivos

- Confirmación si se eliminan archivos

- Nunca modificar archivos de configuración de producción

Cursor

Fichero	Para qué
`.cursorrules`	Reglas de proyecto (raíz del repo). Formato Markdown libre
*`.cursor/rules/.md`**	Reglas modulares por dominio (similar a Claude Code)

 # .cursorrules

 ## Estilo

- TypeScript strict, 2 espacios, comillas simples

- Prettier + ESLint. No commitear sin que pasen

 ## Arquitectura

- Next.js 15 App Router, Server Components por defecto

- Tailwind CSS, sin CSS custom salvo excepciones justificadas

- Componentes en src/components/, páginas en src/app/

 ## Comunicación

- Explicar brevemente cada decisión antes de implementar

- Si hay alternativas, presentarlas con trade-offs

Comparativa rápida

	Claude Code	OpenCode	Cursor
Fichero principal	CLAUDE.md	AGENTS.md	.cursorrules
Reglas modulares	.claude/rules/*.md	No	.cursor/rules/*.md
MCPs	.mcp.json	Sí (config)	Sí (settings)
Hooks/automatización	Sí (hooks + skills)	Limitado	No
Generación automática	No (manual)	/init	No (manual)

Consejo práctico

Si usas varias herramientas en el mismo proyecto, mantén un fichero base compartido (Markdown con las convenciones) y adapta el formato a cada herramienta. Las reglas son las mismas; solo cambia dónde se ponen.

Para profundizar

OpenCode Cursor - Rules

686f6c61

104 Escribir rules efectivas: el arte de instruir al modelo

Las rules son el ROI más alto que puedes conseguir con una herramienta de IA. 30 minutos bien invertidos te ahorran horas de correcciones. Pero no todas las rules son iguales.

Rules malas vs buenas

 # MAL: vagas, genéricas

- Escribe buen código

- Sigue las mejores prácticas

- Haz tests

- Sé conciso

 # El modelo ya "sabe" esto.
 # No aportan nada.

 # BIEN: específicas, accionables

- Tests con Vitest. Mínimo 80% cobertura

- Validar inputs con Zod en cada handler

- Commits: tipo(scope): desc. En español

- No usar any. Tipar todo explícitamente

- Ejecutar npm test antes de confirmar

 # Concretas, verificables, únicas
 # de tu proyecto.

Estructura de una buena rule

Sección	Qué poner	Ejemplo
Stack	Versiones exactas, frameworks, herramientas	TypeScript 5.7, Node 22, Fastify 5, Drizzle
Convenciones	Lo que es específico de tu equipo	camelCase, sin abreviaturas, español en commits
Arquitectura	Dónde va cada cosa en tu proyecto	src/routes/, src/services/, src/db/
Prohibiciones	Lo que NO debe hacer nunca	No usar console.log, no push a main, no any
Flujo de trabajo	Pasos obligatorios antes de terminar	Lint, tests, build antes de considerar hecho

Iterar rules: el ciclo virtuoso

Trabaja con el modelo → detecta cuándo hace algo que no quieres
Añade la rule → corrige ese comportamiento concreto
Commitea la rule → todo el equipo se beneficia
Revisión semanal → elimina rules obsoletas, refina las que no funcionan

Para ponerlo en práctica ahora

Abre tu proyecto, crea un CLAUDE.md (o .cursorrules) y escribe 5 reglas concretas de tu stack. La primera vez cuesta; después lo actualizarás cada vez que el modelo haga algo que no te gusta. En una semana, notarás la diferencia.

686f6c61

105 Crear una skill: extensiones reutilizables para tu agente

Una skill es una capacidad empaquetada que el modelo activa automáticamente cuando detecta que aplica, o que invocas manualmente con /nombre. Cada skill vive en su propio directorio con un fichero SKILL.md.

Estructura oficial (directorio + SKILL.md)

 # Personal: ~/.claude/skills/deploy-check/SKILL.md
 # Proyecto: .claude/skills/deploy-check/SKILL.md

deploy-check/

├── SKILL.md            # Obligatorio

├── reference.md        # Docs adicionales (opcional)

└── scripts/

    └── validate.py      # Scripts de apoyo (opcional)

SKILL.md: frontmatter + instrucciones

 ---
 name: Deploy Check
 description: Verificar que el proyecto está listo

  para desplegar. Comprobar tests, lint, build,

  variables de entorno y dependencias. Usar

  cuando se mencione deploy, release o ship.
 allowed-tools: Bash, Read, Grep, Glob
 ---

 # Deploy Check

 ## Instructions

1. Ejecutar `npm test` y verificar que pasan

2. Ejecutar `npm run lint` sin errores

3. Ejecutar `npm run build` sin errores

4. Verificar que .env.example tiene todas las vars

5. Comprobar que no hay secretos en el código

 ## Examples

Para referencia detallada, ver [reference.md](reference.md).

Campos del frontmatter

Campo	Obligatorio	Para qué
`name`	Sí	Nombre visible de la skill
`description`	Sí	El modelo lee esto para decidir cuándo activarla. Incluir qué hace y cuándo usarla
`allowed-tools`	No	Restringe las herramientas disponibles (ej: solo lectura con Read, Grep, Glob)

Claves para una buena skill

Description específica: "Helps with data" no funciona. "Analyze Excel spreadsheets, generate charts. Use when working with .xlsx files" sí
Secciones estándar: ## Instructions (pasos), ## Examples (casos), ## Requirements (dependencias)
Progressive disclosure: SKILL.md carga siempre; los ficheros extra solo cuando el modelo los necesita
allowed-tools: úsalo para skills de solo lectura o con alcance limitado (seguridad, auditoría)

Para ponerlo en práctica ahora

Crea ~/.claude/skills/mi-review/SKILL.md con un checklist de code review de tu equipo. El description es lo más importante: si menciona las palabras clave correctas, el modelo la activará solo cuando haga falta. Pruébalo pidiendo un code review en tu siguiente sesión.

Para profundizar

Claude Code - Skills (documentación oficial) Anthropic - Equipping agents with Agent Skills

686f6c61

106 Anatomía de un plugin: skills + agentes + hooks

Un plugin empaqueta skills, agentes, hooks y comandos en una unidad instalable y compartible. Es así como se distribuyen las extensiones de Claude Code.

Estructura de directorios

 mi-plugin/

├── .claude-plugin/

│   └── plugin.json      # Manifiesto: nombre, versión, autor

├── skills/

│   ├── deploy-check/

│   │   └── SKILL.md      # Skill (model-invoked)

│   └── code-review/

│       └── SKILL.md      # Skill (model-invoked)

├── agents/

│   └── reviewer.md      # Agente autónomo especializado

├── hooks/

│   └── hooks.json       # Definición de event handlers

└── commands/

    └── setup.md         # Comando: /mi-plugin:setup

Cada pieza tiene su rol

Componente	Qué hace	Cuándo se activa
Skill	Prompt especializado con instrucciones	El usuario invoca `/nombre` o el modelo lo detecta
Agente	Subproceso autónomo con sus propias tools	Otra skill o agente lo lanza con `Agent tool`
Hook	Script que reacciona a eventos del sistema	Eventos: PreToolUse, PostToolUse, Stop, SessionStart...
Comando	Slash command con argumentos y lógica	El usuario escribe `/plugin:comando`

.claude-plugin/plugin.json mínimo

{

  "name": "mi-plugin",

  "version": "1.0.0",

  "description": "Herramientas de deploy y review",

  "author": {

    "name": "Tu nombre"

  }

}

Para ponerlo en práctica ahora

Empieza con una sola skill en un directorio. Cuando tengas 2-3, empaquétalas en un plugin con su plugin.json. No necesitas agentes ni hooks desde el principio: la complejidad se añade cuando la necesitas, no antes.

Para profundizar

Claude Code - Plugins Claude Code - Skills

686f6c61

107 AI agents en producción: lecciones aprendidas

Tras un año de agentes en producción real, estas son las lecciones que no aparecen en los tutoriales.

Lo que funciona

Tareas acotadas y repetitivas

Clasificar tickets, generar resúmenes, extraer datos de documentos, code review automatizado. Dominio claro, output verificable

Guardrails estrictos

Validación de output, permisos mínimos, spending limits, timeouts agresivos. Los agentes que funcionan en producción tienen más restricciones que libertad

Lo que no funciona (todavía)

Autonomía total

"Déjalo trabajar solo toda la noche" suena bien, pero genera errores que se acumulan sin supervisión. El coste de corregir supera el ahorro

Planificación a largo plazo

Los agentes son buenos en tareas de 10-30 minutos. Proyectos de horas o días requieren intervención humana frecuente para no desviarse

El "agent tax"

Tiempo de supervisión: un agente autónomo necesita que alguien revise su trabajo. Ese tiempo es el "agent tax"
Coste de tokens: un agente que itera 10 veces consume 10x más tokens. Sin límites, las facturas se disparan
Debugging opaco: cuando un agente multi-paso falla, diagnosticar cuál paso falló y por qué es más difícil que debuggear código normal

Regla de oro para producción

Empieza con el agente más simple que resuelva tu problema. Añade complejidad solo cuando el simple no baste. El 80% de los casos de uso reales se resuelven con un prompt bien diseñado + una tool, no con un sistema multi-agente de 5 capas.

686f6c61

108 Lo que deberías saber: realidad del ingeniero

Concepto	Slide
Terminal (Claude Code, Aider) vs IDE (Cursor, Copilot)	86-87
Benchmarks: SWE-bench, Aider Polyglot, cómo leerlos sin engañarte	88
IA en CI/CD: PR review, testing, seguridad automatizada	89
Prompt injection, data leakage, supply chain poisoning	90
Guardrails: input validation, output validation, sandboxing	91
Red teaming: testear tu sistema intentando romperlo	92
EU AI Act: clasificación por riesgo, calendario de compliance	93
Costes: pago por tokens, estrategias de optimización	94
Observabilidad: Langfuse, Helicone, logging de cada llamada	95
Prompts como código: versionado, evals, A/B testing, rollback	96
Evals: medir si tu IA funciona bien de forma sistemática	97
Testing de código generado: mutation testing, property-based	98
Vibe coding: programar por intención, con disciplina	99
Spec-first + test-first: el flujo más productivo con IA	100-101
Configurar Claude Code, OpenCode y Cursor como un pro	102-103
Escribir rules efectivas: el arte de instruir al modelo	104
Crear skills y plugins: extender tu herramienta de IA	105-106
Agentes en producción: agent tax, autonomía real, lecciones	107

686f6c61

109

Modelos OSS en la nube

Ollama Cloud: ejecutar modelos open source sin GPU local, catálogo de modelos, integración con herramientas de coding y cuándo elegir cloud vs local.

686f6c61

110 Ollama Cloud: modelos OSS sin GPU

Ollama Cloud da acceso a modelos open source (Qwen, DeepSeek, Llama, Kimi...) a través de una API en la nube. Misma interfaz que Ollama local, pero sin necesidad de hardware.

Sin GPU local

Accede a modelos de 70B-671B sin tarjeta gráfica. Ideal cuando tu portátil no tiene VRAM suficiente.

Misma API

Compatible con la API de Ollama local. Cambiar entre local y cloud es solo cambiar la URL base.

Modelo freemium

Plan gratuito con límites. Plan Pro para uso intensivo. Mucho más barato que GPUs propias.

Integración directa

Funciona con Claude Code, Cursor, OpenCode, Continue y cualquier herramienta que soporte Ollama.

Caso de uso principal

Tienes un portátil sin GPU dedicada pero quieres usar qwen3-coder-next (el mejor modelo OSS de código en marzo 2026) para programar. Ollama Cloud te lo da en segundos.

Para profundizar

Ollama Cloud Blog de Ollama

686f6c61

111 Catálogo de modelos (marzo 2026)

Selección de los modelos más relevantes disponibles en Ollama Cloud.

Categoría	Modelo	Detalle
Código	qwen3-coder-next	El más usado (901K pulls). Referencia en coding OSS
	devstral-2	123B. Mistral AI, excelente en refactoring
	kimi-k2	Moonshot AI. Buen rendimiento en tareas largas
Razonamiento	deepseek-v3.1	671B, thinking/non-thinking híbrido
	qwen3-next	80B. Muy bueno en matemáticas y lógica
	cogito-2.1	671B MoE. Chain-of-thought nativo
Visión	qwen3-vl	2B-235B. El más versátil en visión
	kimi-k2.5	Multimodal completo (179K pulls)
	mistral-large-3	Visión + texto. Buena calidad general
Otros	glm-5	744B total, 40B activa (MoE)
	minimax-m2.7	Bueno en generación creativa
	devstral-small-2	24B. Ligero y rápido para coding

Para profundizar

Catálogo completo de modelos

686f6c61

112 Primeros pasos con Ollama Cloud

Configurar Ollama Cloud lleva menos de 2 minutos. Solo necesitas una API key.

1. Obtener la API key

 # Registrarse en ollama.com/cloud y copiar la API key
 # Exportar como variable de entorno:

export OLLAMA_API_KEY="sk-..."

 # Verificar que funciona:

curl -s https://api.ollama.com/v1/models \

  -H "Authorization: Bearer $OLLAMA_API_KEY" | jq '.models[:3]' 

2. Primer chat

 # API compatible con OpenAI (drop-in replacement)

curl https://api.ollama.com/v1/chat/completions \

  -H "Authorization: Bearer $OLLAMA_API_KEY" \

  -H "Content-Type: application/json" \

  -d '{"model": "qwen3-coder-next", "messages": [{"role": "user", "content": "Hola"}]}'

3. Desde Python

 from openai import OpenAI

client = OpenAI(

  base_url="https://api.ollama.com/v1",

  api_key=os.environ["OLLAMA_API_KEY"]

)

resp = client.chat.completions.create(

  model="qwen3-coder-next",

  messages=[{"role": "user", "content": "Explica async/await"}]

)

Dato clave

La API es compatible con el formato OpenAI. Si tu código ya usa la librería openai, solo cambias base_url y api_key.

686f6c61

113 Ollama Cloud + herramientas de coding

Cómo integrar Ollama Cloud en las tres herramientas más populares de AI coding.

Claude Code

Soporta modelos de Ollama Cloud como provider alternativo. Útil para tareas de coding con modelos OSS.

Cursor

Selector de modelos en el panel lateral. Elige ollama/qwen3-coder-next directamente. Requiere suscripción Pro.

OpenCode

Ollama Cloud viene preconfigurado. Solo necesitas la API key. Comando: /connect ollama

Continue / otros

Cualquier extensión o herramienta que soporte la API de Ollama funciona sin cambios.

Configuración rápida por herramienta

Herramienta	Cómo configurar	Comando
Claude Code	Exportar OLLAMA_API_KEY	`claude --model ollama/qwen3-coder-next`
Cursor	Settings > Models > Ollama	Seleccionar en el panel lateral
OpenCode	Exportar OLLAMA_API_KEY	`/connect ollama`
Continue	config.json > provider: ollama	Autocompletado en VS Code

Consejo práctico

Usa modelos propietarios (Claude, GPT) para tareas complejas de arquitectura. Usa modelos OSS via Ollama Cloud para tareas repetitivas de código: completar funciones, generar tests, refactoring mecánico.

686f6c61

114 Cloud vs local: cuándo usar cada uno

No es una cuestión de cuál es mejor, sino de cuál encaja en tu situación.

Criterio	Cloud (Ollama)	Local (LM Studio / Ollama)
Hardware necesario	Ninguno	GPU con 8-128 GB VRAM
Modelos grandes (671B)	Sí, sin problema	Imposible sin cluster
Latencia	50-200 ms (red)	10-50 ms (local)
Velocidad (tk/s)	30-80 tk/s	20-120 tk/s (según GPU)
Privacidad	Datos viajan a la nube	Todo queda en tu máquina
Coste mensual	Suscripción (~20 USD/mes)	Electricidad (+ inversión HW)
Offline	No	Sí

Elige cloud cuando...

No tienes GPU, necesitas modelos grandes (deepseek-v3.1 a 671B), quieres empezar en 2 minutos o trabajas en equipo y necesitas un endpoint compartido.

Sin inversión HW Setup instantáneo

Elige local cuando...

Manejas datos sensibles (código propietario, datos de clientes), necesitas latencia mínima, trabajas offline o ya tienes una GPU potente.

Privacidad total Sin costes recurrentes

Recomendación

Lo más práctico: usa ambos. Cloud para modelos grandes y pruebas rápidas, local para código sensible y trabajo diario si tienes GPU. Cambiar es solo cambiar la URL base.

686f6c61

115 Lo que deberías saber: Ollama Cloud

Concepto	Slide
Ollama Cloud: modelos OSS sin GPU, misma API que local	106
Catálogo: qwen3-coder-next, deepseek-v3.1, qwen3-vl...	107
Setup en 2 minutos: API key + curl o Python (compatible OpenAI)	108
Integración: Claude Code, Cursor, OpenCode, Continue	109
Cloud para modelos grandes y prototipos; local para privacidad	110

686f6c61

116 Recursos y siguiente paso

Cursos y guías

Papers fundamentales

Herramientas para probar hoy

Visualizaciones interactivas

MCP

Especificación oficial Servidores disponibles

686f6c61

Índice

Workshop de IA: agentes, modelos y herramientas

Fundamentos

02 ¿Qué NO es la IA?

03 ¿Qué SÍ es la IA?

Hitos clave de la IA moderna

04 ¿Qué es un sistema determinista y por qué la IA no lo es?

Sistema determinista

Sistema estocástico (la IA)

¿Por qué ocurre esto?

Del prompt al token: flujo de generación

05 Principios de la IA

06 La neurona artificial

En código

Funciones de activación

07 Redes neuronales: capas y arquitectura

Estructura de una red (MLP)

¿Qué aprende cada capa?

08 Cómo aprende una red: backpropagation

El bucle de entrenamiento

En pseudocódigo

09 Funciones de pérdida y optimizadores

Funciones de pérdida principales

Optimizadores

Problemas comunes del entrenamiento

10 CNNs: redes convolucionales para visión

Flujo de una CNN

Conceptos clave

11 RNNs y LSTMs: redes para secuencias

Cómo funciona una RNN

RNN vs LSTM vs Transformer

12 ¿Qué es un token?

Ejemplos de tokenización

Palabras frente a tokens

13 ¿Qué es un embedding?

¿Qué es una dimensión?

14 Embeddings en la práctica

Aritmética de significado

Similitud semántica

¿Para qué sirven?

Modelos de embedding (marzo 2026)

15 Entrenamiento vs inferencia

Entrenamiento

Inferencia

Fine-tuning

16 Quantización: modelos que caben en tu portátil

17 Lo que deberías saber: fundamentos

Arquitecturas y modelos

19 ¿Qué es un modelo LLM?

Modelos principales (marzo 2026)

20 Arquitecturas

Evolución de las arquitecturas

De RNN a Transformer

Variantes del Transformer

21 ¿Cómo funciona un Transformer?

Atención = subrayar lo importante

Paso a paso simplificado

Flujo del mecanismo de atención

22 Arquitectura MoE (Mixture of Experts)

Flujo de una petición MoE

Cómo funciona el routing

Modelo denso frente a MoE

23 El mecanismo de atención en detalle

Las matrices Q, K, V

Multi-head attention

Positional encoding

24 Tokenización en profundidad

Algoritmos principales

Impacto en idiomas

Implicaciones prácticas

25 Transfer learning: el paradigma que lo cambió todo

Flujo de transfer learning

Evolución del paradigma

Hitos del transfer learning

26 ¿Cómo funciona MoE?

Así funciona MoE

27 Parámetros de configuración de un modelo

Parámetros principales

Ejemplo práctico: llamada a la API

¿Qué hace top_p (nucleus sampling)?