Módulo 3.3 · Auditoria de dados e infraestrutura

GIGO: Garbage In, Garbage Out. Não importa o modelo de IA que você escolhe — se os dados de entrada são ruins, a saída será ruim. A auditoria de dados é o que separa o consultor que entrega resultado do que vende esperança com tecnologia cara.

Auditoria filtra o que entra no modelo — dado ruim retorna para correção antes de avançar.

📦 Inventário de dados

Você não pode auditar o que não conhece. O primeiro passo é mapear todos os repositórios de dados da organização — incluindo os que ninguém mantém oficialmente (shadow IT) e os que estão em silos que ninguém consegue conectar.

🗺️ O que mapear no inventário

•Sistemas transacionais — ERP, CRM, e-commerce, sistemas financeiros.
•Planilhas e documentos — o "shadow IT" de dados em Excel/Sheets, Google Docs, Word.
•Arquivos não-estruturados — PDFs, e-mails, imagens, áudios de atendimento.
•APIs externas — dados de terceiros que a empresa usa (Google Analytics, ad platforms, etc.).

💡 Surpresa comum no inventário

As empresas geralmente subestimam seus dados não-estruturados. Uma empresa de serviços pode ter 5 anos de e-mails de atendimento — um ativo potencial para RAG ou análise de sentimento que ninguém mapeou como dado porque "e-mail não é dado".

🔬 Qualidade dos dados — as 4 dimensões

Ter dados não é suficiente — eles precisam ter qualidade nas 4 dimensões que determinam se são utilizáveis por modelos de IA. Uma falha em qualquer dimensão pode tornar o dado inútil ou perigoso.

Completude

Qual % dos campos críticos está preenchido? <80% em campo crítico é problema. Campos vazios produzem predições imprecisas ou erros de processamento.

Métrica: % de campos preenchidos por tabela/fonte

Consistência

O mesmo dado tem o mesmo formato em todos os sistemas? "SP", "São Paulo", "São Paulo - SP" no mesmo campo são 3 entidades diferentes para um modelo.

Métrica: % de entradas com formato padronizado

Atualidade

Dados de 3 anos atrás podem não refletir padrões atuais do negócio — especialmente após a pandemia, mudanças de produto ou de mercado. Dado obsoleto produz predições desatualizadas.

Métrica: data da última atualização; janela temporal útil

Ausência de viés

A amostra representa o universo que o modelo vai atender? Dados de clientes só de uma região, faixa etária ou segmento geram modelos que discriminam os demais — e muitas vezes ilegal.

Métrica: distribuição por grupos relevantes para o caso de uso

⚠️ Alerta: dado ruim, IA ruim

Nenhuma engenharia de prompt, nenhum modelo caro e nenhuma quantidade de GPU compensa dados ruins. Se a auditoria revelar qualidade crítica abaixo do mínimo, a recomendação profissional é: corrija os dados antes de iniciar o projeto de IA.

🔗 Acesso e integração

Dado de qualidade num sistema inacessível é tão inútil quanto dado ruim. A auditoria de acesso verifica se os dados podem ser conectados aos componentes de IA sem gambiarras de exportação manual.

✓ Acesso adequado

✓API REST documentada e estável
✓Exportação automatizável (webhook/cron)
✓Permissões claras — quem acessa o quê
✓Dado acessível em tempo real ou near-real-time

✗ Acesso bloqueado

✗Sistema legado sem API — só export manual
✗Dado em silo de área que não compartilha
✗Banco de dados só acessível via VPN interna
✗Vendor lock — fornecedor controla os dados

🔒 LGPD, privacidade e soberania de dados

Usar dados pessoais em projetos de IA sem base legal não é só risco jurídico — é risco reputacional. A LGPD define regras claras que o consultor precisa conhecer e comunicar antes de propor qualquer uso de dados de clientes ou colaboradores em modelos.

⚖️ O que verificar em relação à LGPD

•Base legal: o dado foi coletado com consentimento ou base legítima para o uso proposto?
•Finalidade: usar o dado em um modelo de IA está dentro da finalidade declarada na coleta?
•Minimização: você vai usar apenas os dados necessários para a finalidade?
•RAG com dados internos: documentos internos com dados pessoais precisam de tratamento antes de ir para o vector store.

Base legal

consentimento ou legítimo interesse

Finalidade

IA dentro do escopo da coleta

Minimização

só o dado necessário

DPO

envolver antes, não depois

🧠 Prontidão para RAG e fine-tuning

As duas abordagens mais comuns de personalizar LLMs exigem tipos de dados completamente diferentes. A auditoria define qual é viável — e o consultor que propõe fine-tuning para uma empresa sem dados rotulados está cometendo um erro caro.

RAG — Retrieval-Augmented Generation

O modelo consulta uma base de documentos em tempo real. O dado ideal é:

• Documentos textuais com conteúdo relevante
• Podem ser não-estruturados (PDFs, Word, e-mails)
• Precisam ser "chunkeáveis" (dividíveis em partes)
• Atualização frequente é suportada

Requer: documentos organizados + pipeline de indexação

Fine-tuning

O modelo é treinado/ajustado em dados específicos. O dado ideal é:

• Pares input/output de alta qualidade
• Mínimo 500-1000 exemplos (idealmente mais)
• Consistentes e representativos do uso real
• Rotulados por especialistas do domínio

Requer: dado rotulado de qualidade — ativo raro

💡 Regra de ouro

Para a maioria das empresas brasileiras, RAG é a abordagem certa: mais rápido, mais barato, dado atualizável e sem necessidade de dado rotulado. Fine-tuning fica para casos onde o RAG realmente não resolve — e os dados de treino existem e são de qualidade.

🩺 Entregável: relatório de saúde de dados

O produto final da auditoria é um relatório objetivo que documenta o que foi encontrado, pontua a qualidade por dimensão e declara se os dados estão prontos para cada caso de uso — ou o que precisa ser remediado primeiro.

📋 Estrutura do relatório

1. Inventário: lista de fontes de dados com tipo, volume e dono responsável

2. Score de qualidade: notas por dimensão (completude, consistência, atualidade, viés) por fonte

3. Problemas críticos: o que bloqueia o projeto se não for corrigido

4. Prontidão por caso de uso: declaração por caso de uso (Pronto / Pronto com restrições / Não pronto)

5. Plano de remediação: ações prioritárias com responsável e prazo estimado

✅ Pronto

pode avançar para o projeto

⚠️ Restrição

escopo limitado é viável

🛑 Não pronto

remediar antes de avançar

📌 Remediação

prazo e responsável definidos

🎒 Resumo do módulo

✓

Inventário primeiro — você não pode auditar o que não mapeou.

✓

4 dimensões de qualidade — completude, consistência, atualidade e ausência de viés.

✓

LGPD é requisito, não opcional — envolver o DPO antes de propor uso de dados pessoais em IA.

✓

RAG antes de fine-tuning — para a maioria das empresas, RAG é viável; fine-tuning precisa de dado rotulado de qualidade.

Próximo módulo:

3.4 — Governança e risco: NIST AI RMF, ISO 42001, EU AI Act — como estruturar controles proporcionais

← Módulo anterior Próximo Módulo →