Por que um RAG mal arquitetado é o novo SQL Injection

Equipes de tecnologia estão correndo para colocar copilotos internos em produção. O atalho mais comum é apontar um modelo (Claude, GPT-4o, Gemini) para um índice vetorial recém-criado, conectar ao Slack ou Teams e liberar para a empresa toda. Resultado previsível: vazamento de RH para engenharia, vazamento de jurídico para vendas, e auditoria interna parada por 3 semanas tentando explicar o que aconteceu.

Os 5 erros abaixo cobrem 90% dos incidentes que vimos em conversas com líderes técnicos brasileiros nos últimos 6 meses.

Erro 1 — índice único, sem segmentação por permissão

Indexar tudo num único namespace é a falha mais cara. O top-k retrieval não distingue documento de RH com salários do plano estratégico do conselho. A correção é simples: filtros pré-retrieval baseados no claim do usuário (departamento, cargo, projeto) e namespaces separados por nível de confidencialidade.

Erro 2 — não logar o que foi recuperado

Quando o auditor pergunta quem leu o quê, não basta o log do prompt. É preciso logar o conjunto exato de chunks retornados pelo retriever, com hash do documento de origem. Sem isso, não há como provar isolamento — e a LGPD pune a impossibilidade de prova.

Erro 3 — embeddings imutáveis em modelo experimental

Mudar de modelo de embedding obriga a reindexar tudo. Quem investiu em modelos beta (que viraram free tier ou foram descontinuados) tem dívida técnica de 200–800 horas para migrar. Recomendação: usar modelos de embedding em versão estável e suportada por mais de 18 meses, mesmo que custe 2–3x mais por token.

Erro 4 — nenhum guard rail de output

O modelo pode parafrasear o documento original sem violar a similaridade — e ainda assim vazar o conteúdo. A solução é guard rail de output: validar que a resposta não contém PII, não cita números financeiros confidenciais, não menciona projetos ainda não anunciados. Bibliotecas como guardrails-ai cobrem o básico; para produção empresarial, é preciso mapeamento de termos sensíveis específicos da empresa.

Erro 5 — métrica errada no painel executivo

Latência média e taxa de uso são vaidade. O que diretoria precisa ver é: % de respostas com citação verificável, % de respostas escaladas para humano, e número de conversas marcadas como problemáticas pelo usuário. Sem isso, o copiloto vira teatro: parece útil porque é usado, mas não é avaliado pelo que produz.

Como começar antes do go-live

Antes de liberar para a empresa toda, rodar uma fase piloto com um único departamento, escopo definido, e um analista de segurança lendo logs todos os dias por 2 semanas. É chato. É o único jeito que funciona.

Se a sua empresa está nessa fase, o programa Formação IA EBAC Business atende líderes técnicos e arquitetos de IA — formato in-company, com casos reais de RAG corporativo e revisão de arquitetura por instrutor sênior.

RAG corporativo: 5 erros que viram vazamento (e como blindar antes do go-live)