Prompt engineering corporativo: lo que cambia cuando el agente va a producción

TL;DR El prompt engineering corporativo es una disciplina, no improvisación. En Gemini Enterprise, el prompt es parte del código — versionado, testeado contra gold set, con guardrails e instrucciones explícitas de incertidumbre. Aquí la plantilla y los errores que cuestan caro en producción.

"Prompt engineering" se volvió meme en 2024 — "cualquiera puede hacerlo". En producción corporativa, es lo que separa un agente confiable de uno vergonzoso. Este post trae los patrones que aplicamos en todos los proyectos Autenticare.

Estructura de prompt corporativo — los 7 bloques

Cada prompt en producción tiene 7 bloques, en este orden:

Persona y misión

Quién es el agente y cuál es su alcance. Sin esto asume "asistente general".

Contexto de empresa

Tono, valores, restricciones de marca. Aquí "nosotros" se convierte en voz.

Capacidades y límites

Lo que el agente puede y, principalmente, lo que no puede hacer.

Reglas de incertidumbre

Cómo reaccionar cuando no sabe. El bloque más subestimado del prompt corporativo.

Formato de salida

Estructura JSON o texto, citas obligatorias, límites de tamaño.

Ejemplos few-shot

2–5 ejemplos de buen comportamiento, incluyendo 1 de "no sé".

Tools disponibles

Lista clara con cuándo usar cada tool y el schema esperado.

Sin cualquiera de estos bloques, el comportamiento se degrada en casos no obvios.

El bloque más subestimado: reglas de incertidumbre

El default del LLM es parecer confiado incluso cuando no sabe. En producción, eso es alucinación disfrazada. Siempre incluir literalmente:

"Si la información necesaria no está en el contexto recuperado, responda 'no encontré esa información en la base disponible' — no invente, no generalice de su propio conocimiento. Si la pregunta es ambigua, pida clarificación antes de responder."

En los casos en que el agente está seguro, responde. En los que no, escala a humano. Reduce drásticamente la alucinación. Más en evaluación de agentes en producción.

Few-shot: cómo elegir ejemplos

Un few-shot mal elegido sesga peor que sin ejemplos. Criterios:

Diversidad: cubrir los 3–5 patrones más comunes, no 5 variaciones del mismo.
Casos límite: incluir 1 ejemplo de "no tengo información" y 1 de "necesito clarificación".
Formato espejado: cada ejemplo en el formato exacto esperado de respuesta.
Curado por humano: nunca usar salidas de LLM como few-shot — se convierte en eco de sesgo.

Patrones que funcionan × anti-patrones

Patrón recomendado	Anti-patrón a evitar
Restricción positiva ("responda en hasta 3 párrafos")	Restricción negativa ("no responda muy largo")
Estructura explícita ("Use títulos: Resumen / Contexto / Recomendación")	"Sea claro y organizado"
Cita obligatoria ([doc:página] al final de cada afirmación)	"Incluya fuentes cuando sea posible"
Enmascaramiento explícito de PII (CPF → *..**-12)	"Evite datos sensibles"
Self-check antes de responder	Respuesta directa sin revisión
Fechas en ISO 8601 (`2026-04-20`)	"Esta semana", "el mes pasado"
Idioma explícito ("vocabulario brasileño, evite PT-PT")	Dejar al modelo elegir la variante

⚠️ Prompts de 4.000 palabras El modelo diluye la atención en prompts largos y verborrágicos. Conciso y estructurado > largo y parlanchín. Las instrucciones contradictorias ("sea conciso y detalle todo") se cancelan mutuamente.

Versionado: el prompt es código

El prompt en producción es código. Tratamiento mínimo:

Repositorio git dedicado, con PR y revisión.
Cada versión con hash + autor + fecha + motivación.
A/B test antes de promover al 100%.
Evaluación automatizada contra gold set en cada PR.
Rollback en un comando.

Sin esto, "alguien tocó el prompt" se convierte en pesadilla de producción.

Modelo: Pro vs Flash en el mismo agente

Patrón eficiente en producción:

Gemini 2.5 Flash: clasificación, routing, tareas cortas, validación de schema.
Gemini 2.5 Pro: razonamiento complejo, generación principal, multimodal pesado.

El costo baja 60–80% sin pérdida percibida de calidad — el usuario recibe Flash para el 70% trivial y Pro para el 30% que importa.

Guardrails más allá del prompt

El prompt solo no basta. Combine con:

Validación de input: límite de tamaño, sanitización de comandos.
Filtro de output: regex/clasificador para PII, contenido prohibido.
Autorización de tool: cada tool con su propia ACL.
Rate limit: por usuario y por agente.
Umbral de confianza: por debajo de X, escala a humano.

Auditoría de prompt

¿Su agente en producción tiene prompt versionado?

Hacemos auditoría del prompt actual, reestructuramos en 7 bloques, añadimos guardrails y configuramos el gold set. Entrega en 2 semanas.

Hablar con Autenticare → Evaluación en producción