GIGO: Garbage In, Garbage Out. Não importa o modelo de IA que você escolhe — se os dados de entrada são ruins, a saída será ruim. A auditoria de dados é o que separa o consultor que entrega resultado do que vende esperança com tecnologia cara.
Auditoria filtra o que entra no modelo — dado ruim retorna para correção antes de avançar.
📦 Inventário de dados
Você não pode auditar o que não conhece. O primeiro passo é mapear todos os repositórios de dados da organização — incluindo os que ninguém mantém oficialmente (shadow IT) e os que estão em silos que ninguém consegue conectar.
🗺️ O que mapear no inventário
- •Sistemas transacionais — ERP, CRM, e-commerce, sistemas financeiros.
- •Planilhas e documentos — o "shadow IT" de dados em Excel/Sheets, Google Docs, Word.
- •Arquivos não-estruturados — PDFs, e-mails, imagens, áudios de atendimento.
- •APIs externas — dados de terceiros que a empresa usa (Google Analytics, ad platforms, etc.).
💡 Surpresa comum no inventário
As empresas geralmente subestimam seus dados não-estruturados. Uma empresa de serviços pode ter 5 anos de e-mails de atendimento — um ativo potencial para RAG ou análise de sentimento que ninguém mapeou como dado porque "e-mail não é dado".
🔬 Qualidade dos dados — as 4 dimensões
Ter dados não é suficiente — eles precisam ter qualidade nas 4 dimensões que determinam se são utilizáveis por modelos de IA. Uma falha em qualquer dimensão pode tornar o dado inútil ou perigoso.
Completude
Qual % dos campos críticos está preenchido? <80% em campo crítico é problema. Campos vazios produzem predições imprecisas ou erros de processamento.
Métrica: % de campos preenchidos por tabela/fonte
Consistência
O mesmo dado tem o mesmo formato em todos os sistemas? "SP", "São Paulo", "São Paulo - SP" no mesmo campo são 3 entidades diferentes para um modelo.
Métrica: % de entradas com formato padronizado
Atualidade
Dados de 3 anos atrás podem não refletir padrões atuais do negócio — especialmente após a pandemia, mudanças de produto ou de mercado. Dado obsoleto produz predições desatualizadas.
Métrica: data da última atualização; janela temporal útil
Ausência de viés
A amostra representa o universo que o modelo vai atender? Dados de clientes só de uma região, faixa etária ou segmento geram modelos que discriminam os demais — e muitas vezes ilegal.
Métrica: distribuição por grupos relevantes para o caso de uso
⚠️ Alerta: dado ruim, IA ruim
Nenhuma engenharia de prompt, nenhum modelo caro e nenhuma quantidade de GPU compensa dados ruins. Se a auditoria revelar qualidade crítica abaixo do mínimo, a recomendação profissional é: corrija os dados antes de iniciar o projeto de IA.
🔗 Acesso e integração
Dado de qualidade num sistema inacessível é tão inútil quanto dado ruim. A auditoria de acesso verifica se os dados podem ser conectados aos componentes de IA sem gambiarras de exportação manual.
✓ Acesso adequado
- ✓API REST documentada e estável
- ✓Exportação automatizável (webhook/cron)
- ✓Permissões claras — quem acessa o quê
- ✓Dado acessível em tempo real ou near-real-time
✗ Acesso bloqueado
- ✗Sistema legado sem API — só export manual
- ✗Dado em silo de área que não compartilha
- ✗Banco de dados só acessível via VPN interna
- ✗Vendor lock — fornecedor controla os dados
🔒 LGPD, privacidade e soberania de dados
Usar dados pessoais em projetos de IA sem base legal não é só risco jurídico — é risco reputacional. A LGPD define regras claras que o consultor precisa conhecer e comunicar antes de propor qualquer uso de dados de clientes ou colaboradores em modelos.
⚖️ O que verificar em relação à LGPD
- •Base legal: o dado foi coletado com consentimento ou base legítima para o uso proposto?
- •Finalidade: usar o dado em um modelo de IA está dentro da finalidade declarada na coleta?
- •Minimização: você vai usar apenas os dados necessários para a finalidade?
- •RAG com dados internos: documentos internos com dados pessoais precisam de tratamento antes de ir para o vector store.
consentimento ou legítimo interesse
IA dentro do escopo da coleta
só o dado necessário
envolver antes, não depois
🧠 Prontidão para RAG e fine-tuning
As duas abordagens mais comuns de personalizar LLMs exigem tipos de dados completamente diferentes. A auditoria define qual é viável — e o consultor que propõe fine-tuning para uma empresa sem dados rotulados está cometendo um erro caro.
RAG — Retrieval-Augmented Generation
O modelo consulta uma base de documentos em tempo real. O dado ideal é:
- • Documentos textuais com conteúdo relevante
- • Podem ser não-estruturados (PDFs, Word, e-mails)
- • Precisam ser "chunkeáveis" (dividíveis em partes)
- • Atualização frequente é suportada
Requer: documentos organizados + pipeline de indexação
Fine-tuning
O modelo é treinado/ajustado em dados específicos. O dado ideal é:
- • Pares input/output de alta qualidade
- • Mínimo 500-1000 exemplos (idealmente mais)
- • Consistentes e representativos do uso real
- • Rotulados por especialistas do domínio
Requer: dado rotulado de qualidade — ativo raro
💡 Regra de ouro
Para a maioria das empresas brasileiras, RAG é a abordagem certa: mais rápido, mais barato, dado atualizável e sem necessidade de dado rotulado. Fine-tuning fica para casos onde o RAG realmente não resolve — e os dados de treino existem e são de qualidade.
🩺 Entregável: relatório de saúde de dados
O produto final da auditoria é um relatório objetivo que documenta o que foi encontrado, pontua a qualidade por dimensão e declara se os dados estão prontos para cada caso de uso — ou o que precisa ser remediado primeiro.
📋 Estrutura do relatório
pode avançar para o projeto
escopo limitado é viável
remediar antes de avançar
prazo e responsável definidos
🎒 Resumo do módulo
Próximo módulo:
3.4 — Governança e risco: NIST AI RMF, ISO 42001, EU AI Act — como estruturar controles proporcionais