Prompt engineering corporativo: lo que cambia cuando el agente va a producción
Un prompt que funciona en demo muere en producción. Patrones probados en agentes Gemini Enterprise reales — estructura, guardrails, few-shot, manejo de incertidumbre y versionado.
Fabiano Brito
CEO & Founder
"Prompt engineering" se volvió meme en 2024 — "cualquiera puede hacerlo". En producción corporativa, es lo que separa un agente confiable de uno vergonzoso. Este post trae los patrones que aplicamos en todos los proyectos Autenticare.
Estructura de prompt corporativo — los 7 bloques
Cada prompt en producción tiene 7 bloques, en este orden:
Quién es el agente y cuál es su alcance. Sin esto asume "asistente general".
Tono, valores, restricciones de marca. Aquí "nosotros" se convierte en voz.
Lo que el agente puede y, principalmente, lo que no puede hacer.
Cómo reaccionar cuando no sabe. El bloque más subestimado del prompt corporativo.
Estructura JSON o texto, citas obligatorias, límites de tamaño.
2–5 ejemplos de buen comportamiento, incluyendo 1 de "no sé".
Lista clara con cuándo usar cada tool y el schema esperado.
Sin cualquiera de estos bloques, el comportamiento se degrada en casos no obvios.
El bloque más subestimado: reglas de incertidumbre
El default del LLM es parecer confiado incluso cuando no sabe. En producción, eso es alucinación disfrazada. Siempre incluir literalmente:
"Si la información necesaria no está en el contexto recuperado, responda 'no encontré esa información en la base disponible' — no invente, no generalice de su propio conocimiento. Si la pregunta es ambigua, pida clarificación antes de responder."
En los casos en que el agente está seguro, responde. En los que no, escala a humano. Reduce drásticamente la alucinación. Más en evaluación de agentes en producción.
Few-shot: cómo elegir ejemplos
Un few-shot mal elegido sesga peor que sin ejemplos. Criterios:
- Diversidad: cubrir los 3–5 patrones más comunes, no 5 variaciones del mismo.
- Casos límite: incluir 1 ejemplo de "no tengo información" y 1 de "necesito clarificación".
- Formato espejado: cada ejemplo en el formato exacto esperado de respuesta.
- Curado por humano: nunca usar salidas de LLM como few-shot — se convierte en eco de sesgo.
Patrones que funcionan × anti-patrones
| Patrón recomendado | Anti-patrón a evitar |
|---|---|
| Restricción positiva ("responda en hasta 3 párrafos") | Restricción negativa ("no responda muy largo") |
| Estructura explícita ("Use títulos: Resumen / Contexto / Recomendación") | "Sea claro y organizado" |
| Cita obligatoria ([doc:página] al final de cada afirmación) | "Incluya fuentes cuando sea posible" |
| Enmascaramiento explícito de PII (CPF → ***.***.***-12) | "Evite datos sensibles" |
| Self-check antes de responder | Respuesta directa sin revisión |
Fechas en ISO 8601 (2026-04-20) |
"Esta semana", "el mes pasado" |
| Idioma explícito ("vocabulario brasileño, evite PT-PT") | Dejar al modelo elegir la variante |
Versionado: el prompt es código
El prompt en producción es código. Tratamiento mínimo:
- Repositorio git dedicado, con PR y revisión.
- Cada versión con hash + autor + fecha + motivación.
- A/B test antes de promover al 100%.
- Evaluación automatizada contra gold set en cada PR.
- Rollback en un comando.
Sin esto, "alguien tocó el prompt" se convierte en pesadilla de producción.
Modelo: Pro vs Flash en el mismo agente
Patrón eficiente en producción:
- Gemini 2.5 Flash: clasificación, routing, tareas cortas, validación de schema.
- Gemini 2.5 Pro: razonamiento complejo, generación principal, multimodal pesado.
El costo baja 60–80% sin pérdida percibida de calidad — el usuario recibe Flash para el 70% trivial y Pro para el 30% que importa.
Guardrails más allá del prompt
El prompt solo no basta. Combine con:
- Validación de input: límite de tamaño, sanitización de comandos.
- Filtro de output: regex/clasificador para PII, contenido prohibido.
- Autorización de tool: cada tool con su propia ACL.
- Rate limit: por usuario y por agente.
- Umbral de confianza: por debajo de X, escala a humano.
¿Su agente en producción tiene prompt versionado?
Hacemos auditoría del prompt actual, reestructuramos en 7 bloques, añadimos guardrails y configuramos el gold set. Entrega en 2 semanas.
