Por que um RAG mal arquitetado é o novo SQL Injection
Equipes de tecnologia estão correndo para colocar copilotos internos em produção. O atalho mais comum é apontar um modelo (Claude, GPT-4o, Gemini) para um índice vetorial recém-criado, conectar ao Slack ou Teams e liberar para a empresa toda. Resultado previsível: vazamento de RH para engenharia, vazamento de jurídico para vendas, e auditoria interna parada por 3 semanas tentando explicar o que aconteceu.
Os 5 erros abaixo cobrem 90% dos incidentes que vimos em conversas com líderes técnicos brasileiros nos últimos 6 meses.
Erro 1 — índice único, sem segmentação por permissão
Indexar tudo num único namespace é a falha mais cara. O top-k retrieval não distingue documento de RH com salários do plano estratégico do conselho. A correção é simples: filtros pré-retrieval baseados no claim do usuário (departamento, cargo, projeto) e namespaces separados por nível de confidencialidade.
Erro 2 — não logar o que foi recuperado
Quando o auditor pergunta quem leu o quê, não basta o log do prompt. É preciso logar o conjunto exato de chunks retornados pelo retriever, com hash do documento de origem. Sem isso, não há como provar isolamento — e a LGPD pune a impossibilidade de prova.
Erro 3 — embeddings imutáveis em modelo experimental
Mudar de modelo de embedding obriga a reindexar tudo. Quem investiu em modelos beta (que viraram free tier ou foram descontinuados) tem dívida técnica de 200–800 horas para migrar. Recomendação: usar modelos de embedding em versão estável e suportada por mais de 18 meses, mesmo que custe 2–3x mais por token.
Erro 4 — nenhum guard rail de output
O modelo pode parafrasear o documento original sem violar a similaridade — e ainda assim vazar o conteúdo. A solução é guard rail de output: validar que a resposta não contém PII, não cita números financeiros confidenciais, não menciona projetos ainda não anunciados. Bibliotecas como guardrails-ai cobrem o básico; para produção empresarial, é preciso mapeamento de termos sensíveis específicos da empresa.
Erro 5 — métrica errada no painel executivo
Latência média e taxa de uso são vaidade. O que diretoria precisa ver é: % de respostas com citação verificável, % de respostas escaladas para humano, e número de conversas marcadas como problemáticas pelo usuário. Sem isso, o copiloto vira teatro: parece útil porque é usado, mas não é avaliado pelo que produz.
Como começar antes do go-live
Antes de liberar para a empresa toda, rodar uma fase piloto com um único departamento, escopo definido, e um analista de segurança lendo logs todos os dias por 2 semanas. É chato. É o único jeito que funciona.
Se a sua empresa está nessa fase, o programa Formação IA EBAC Business atende líderes técnicos e arquitetos de IA — formato in-company, com casos reais de RAG corporativo e revisão de arquitetura por instrutor sênior.