MÓDULO 3.3

🗄️ Auditoria de dados e infraestrutura

"Dado ruim, IA ruim." Antes de qualquer modelo, você precisa saber o que existe, onde está, se é confiável e se pode ser usado legalmente. Esta auditoria é o work you do before the work.

6
Tópicos
~45
Minutos
Audit
Nível
Dados
Tipo

GIGO: Garbage In, Garbage Out. Não importa o modelo de IA que você escolhe — se os dados de entrada são ruins, a saída será ruim. A auditoria de dados é o que separa o consultor que entrega resultado do que vende esperança com tecnologia cara.

🗄️ ERP/CRM 📊 Planilhas 📄 Documentos 🌐 APIs ext. 🔬 Auditoria Inventário · Qualidade Acesso · LGPD Prontidão RAG/treino 🧠 Modelo IA dado pronto → output útil dado ruim → corrigir primeiro resultado

Auditoria filtra o que entra no modelo — dado ruim retorna para correção antes de avançar.

1

📦 Inventário de dados

Você não pode auditar o que não conhece. O primeiro passo é mapear todos os repositórios de dados da organização — incluindo os que ninguém mantém oficialmente (shadow IT) e os que estão em silos que ninguém consegue conectar.

🗺️ O que mapear no inventário

  • Sistemas transacionais — ERP, CRM, e-commerce, sistemas financeiros.
  • Planilhas e documentos — o "shadow IT" de dados em Excel/Sheets, Google Docs, Word.
  • Arquivos não-estruturados — PDFs, e-mails, imagens, áudios de atendimento.
  • APIs externas — dados de terceiros que a empresa usa (Google Analytics, ad platforms, etc.).

💡 Surpresa comum no inventário

As empresas geralmente subestimam seus dados não-estruturados. Uma empresa de serviços pode ter 5 anos de e-mails de atendimento — um ativo potencial para RAG ou análise de sentimento que ninguém mapeou como dado porque "e-mail não é dado".

2

🔬 Qualidade dos dados — as 4 dimensões

Ter dados não é suficiente — eles precisam ter qualidade nas 4 dimensões que determinam se são utilizáveis por modelos de IA. Uma falha em qualquer dimensão pode tornar o dado inútil ou perigoso.

1

Completude

Qual % dos campos críticos está preenchido? <80% em campo crítico é problema. Campos vazios produzem predições imprecisas ou erros de processamento.

Métrica: % de campos preenchidos por tabela/fonte

2

Consistência

O mesmo dado tem o mesmo formato em todos os sistemas? "SP", "São Paulo", "São Paulo - SP" no mesmo campo são 3 entidades diferentes para um modelo.

Métrica: % de entradas com formato padronizado

3

Atualidade

Dados de 3 anos atrás podem não refletir padrões atuais do negócio — especialmente após a pandemia, mudanças de produto ou de mercado. Dado obsoleto produz predições desatualizadas.

Métrica: data da última atualização; janela temporal útil

4

Ausência de viés

A amostra representa o universo que o modelo vai atender? Dados de clientes só de uma região, faixa etária ou segmento geram modelos que discriminam os demais — e muitas vezes ilegal.

Métrica: distribuição por grupos relevantes para o caso de uso

⚠️ Alerta: dado ruim, IA ruim

Nenhuma engenharia de prompt, nenhum modelo caro e nenhuma quantidade de GPU compensa dados ruins. Se a auditoria revelar qualidade crítica abaixo do mínimo, a recomendação profissional é: corrija os dados antes de iniciar o projeto de IA.

3

🔗 Acesso e integração

Dado de qualidade num sistema inacessível é tão inútil quanto dado ruim. A auditoria de acesso verifica se os dados podem ser conectados aos componentes de IA sem gambiarras de exportação manual.

✓ Acesso adequado

  • API REST documentada e estável
  • Exportação automatizável (webhook/cron)
  • Permissões claras — quem acessa o quê
  • Dado acessível em tempo real ou near-real-time

✗ Acesso bloqueado

  • Sistema legado sem API — só export manual
  • Dado em silo de área que não compartilha
  • Banco de dados só acessível via VPN interna
  • Vendor lock — fornecedor controla os dados
4

🔒 LGPD, privacidade e soberania de dados

Usar dados pessoais em projetos de IA sem base legal não é só risco jurídico — é risco reputacional. A LGPD define regras claras que o consultor precisa conhecer e comunicar antes de propor qualquer uso de dados de clientes ou colaboradores em modelos.

⚖️ O que verificar em relação à LGPD

  • Base legal: o dado foi coletado com consentimento ou base legítima para o uso proposto?
  • Finalidade: usar o dado em um modelo de IA está dentro da finalidade declarada na coleta?
  • Minimização: você vai usar apenas os dados necessários para a finalidade?
  • RAG com dados internos: documentos internos com dados pessoais precisam de tratamento antes de ir para o vector store.
Base legal

consentimento ou legítimo interesse

Finalidade

IA dentro do escopo da coleta

Minimização

só o dado necessário

DPO

envolver antes, não depois

5

🧠 Prontidão para RAG e fine-tuning

As duas abordagens mais comuns de personalizar LLMs exigem tipos de dados completamente diferentes. A auditoria define qual é viável — e o consultor que propõe fine-tuning para uma empresa sem dados rotulados está cometendo um erro caro.

RAG — Retrieval-Augmented Generation

O modelo consulta uma base de documentos em tempo real. O dado ideal é:

  • • Documentos textuais com conteúdo relevante
  • • Podem ser não-estruturados (PDFs, Word, e-mails)
  • • Precisam ser "chunkeáveis" (dividíveis em partes)
  • • Atualização frequente é suportada

Requer: documentos organizados + pipeline de indexação

Fine-tuning

O modelo é treinado/ajustado em dados específicos. O dado ideal é:

  • • Pares input/output de alta qualidade
  • • Mínimo 500-1000 exemplos (idealmente mais)
  • • Consistentes e representativos do uso real
  • • Rotulados por especialistas do domínio

Requer: dado rotulado de qualidade — ativo raro

💡 Regra de ouro

Para a maioria das empresas brasileiras, RAG é a abordagem certa: mais rápido, mais barato, dado atualizável e sem necessidade de dado rotulado. Fine-tuning fica para casos onde o RAG realmente não resolve — e os dados de treino existem e são de qualidade.

6

🩺 Entregável: relatório de saúde de dados

O produto final da auditoria é um relatório objetivo que documenta o que foi encontrado, pontua a qualidade por dimensão e declara se os dados estão prontos para cada caso de uso — ou o que precisa ser remediado primeiro.

📋 Estrutura do relatório

1. Inventário: lista de fontes de dados com tipo, volume e dono responsável
2. Score de qualidade: notas por dimensão (completude, consistência, atualidade, viés) por fonte
3. Problemas críticos: o que bloqueia o projeto se não for corrigido
4. Prontidão por caso de uso: declaração por caso de uso (Pronto / Pronto com restrições / Não pronto)
5. Plano de remediação: ações prioritárias com responsável e prazo estimado
✅ Pronto

pode avançar para o projeto

⚠️ Restrição

escopo limitado é viável

🛑 Não pronto

remediar antes de avançar

📌 Remediação

prazo e responsável definidos

🎒 Resumo do módulo

Inventário primeiro — você não pode auditar o que não mapeou.
4 dimensões de qualidade — completude, consistência, atualidade e ausência de viés.
LGPD é requisito, não opcional — envolver o DPO antes de propor uso de dados pessoais em IA.
RAG antes de fine-tuning — para a maioria das empresas, RAG é viável; fine-tuning precisa de dado rotulado de qualidade.

Próximo módulo:

3.4 — Governança e risco: NIST AI RMF, ISO 42001, EU AI Act — como estruturar controles proporcionais