4 horas 3 tópicos

👁️ Módulo 2.6: Computer Vision Avançada

Explore técnicas avançadas de visão computacional, incluindo detecção de objetos, segmentação, reconhecimento facial e aplicações industriais.

👁️ Object Detection e Segmentation

O que é

Object detection identifica e localiza múltiplos objetos em imagens através de bounding boxes. Segmentation vai além, classificando cada pixel da imagem (semantic segmentation) ou separando instâncias individuais (instance segmentation). Modelos state-of-the-art incluem YOLO (You Only Look Once), SAM (Segment Anything Model), Mask R-CNN, e GroundingDINO para detecção zero-shot.

Por que aprender

Computer vision é fundamental em inúmeras indústrias - manufatura (controle de qualidade), retail (inventory management), saúde (diagnóstico médico), segurança (vigilância), automotivo (carros autônomos). APIs como Roboflow e Ultralytics tornam essas técnicas acessíveis. Desenvolvedores com skills em CV ganham 20-40% mais que generalistas.

Conceitos chave

• YOLO Family: YOLOv8, YOLOv9 para real-time object detection (>60 FPS)
• Segment Anything (SAM): Meta's foundation model para segmentação universal
• Bounding Box Formats: COCO, YOLO, Pascal VOC annotations
• mAP (mean Average Precision): Métrica padrão para avaliar object detectors
• Non-Maximum Suppression: Eliminação de detecções duplicadas
• Transfer Learning: Fine-tuning de modelos pré-treinados em COCO para custom datasets

🎭 Facial Recognition e Tracking

O que é

Facial recognition identifica ou verifica pessoas através de características faciais únicas. Envolve face detection (localizar faces), face alignment (normalização), feature extraction (embeddings), e matching. Object tracking mantém identidade de objetos ao longo de frames em vídeos. Técnicas incluem DeepFace, FaceNet, ArcFace para recognition, e SORT/DeepSORT para tracking.

Por que aprender

Facial recognition tem aplicações amplas - segurança (controle de acesso), varejo (análise de clientes), marketing (demographic analysis), entretenimento (filtros AR). Tracking é essencial para análise de vídeo, sports analytics, vigilância inteligente. Entretanto, também levanta questões éticas importantes que profissionais devem entender para uso responsável.

Conceitos chave

• Face Detection: MTCNN, RetinaFace para localização robusta de faces
• Face Embeddings: FaceNet, ArcFace para representações vetoriais de 128-512D
• Similarity Metrics: Cosine similarity, Euclidean distance para face matching
• Liveness Detection: Anti-spoofing para prevenir ataques com fotos/vídeos
• Multi-Object Tracking: SORT, DeepSORT, ByteTrack para tracking robusto
• Re-identification: Matching de pessoas entre diferentes câmeras/views

🏭 Aplicações Industriais

O que é

Computer vision industrial envolve automação de inspeção de qualidade, detecção de defeitos, leitura de medidores, contagem de inventário, e robótica. Requer precisão extrema, velocidade (processamento em tempo real), e robustez a condições variadas (iluminação, ângulos, oclusões). Soluções incluem edge computing com câmeras industriais, modelos otimizados (TensorRT, OpenVINO), e pipelines customizados.

Por que aprender

Indústria 4.0 depende fortemente de computer vision para automação. Empresas estão substituindo inspeção manual por sistemas de CV, economizando milhões e aumentando precisão. Aplicações variam de agricultura de precisão, inspeção de linhas de produção, manutenção preditiva, até logística automatizada. É um dos mercados de IA que mais cresce, com salários premium.

Conceitos chave

• Anomaly Detection: Detecção de defeitos em produtos sem exemplos prévios
• OCR Industrial: Leitura de códigos, placas, medidores (EasyOCR, PaddleOCR)
• Edge Deployment: NVIDIA Jetson, Raspberry Pi, Intel NUC para inference local
• Model Optimization: Quantization, pruning, TensorRT para latência <10ms
• Industrial Cameras: Machine vision cameras, high-speed capture, specialized lenses
• Robotics Integration: ROS (Robot Operating System), pick-and-place automation

🚀 3 Aplicações Práticas de Computer Vision

1. Sistema de Controle de Qualidade Industrial

Stack: YOLOv8 + OpenVINO + Intel NUC + Industrial Camera
Funcionalidade: Detecção de defeitos em linha de produção em tempo real

Capabilities:

• Detect: riscos, amassados, cor incorreta
• Process: 60 FPS @ 1080p
• Accuracy: 98.5% (better than human)
• Latência: < 15ms inference

ROI:

✓ Redução de defeitos: 85%
✓ Custo setup: $8k (camera + hardware)
✓ Economia anual: $120k em recalls
✓ Payback: 1 mês

2. Retail Analytics com People Tracking

Stack: DeepSORT + ReID Model + Multiple Cameras + PostgreSQL
Funcionalidade: Análise de fluxo de clientes, heatmaps, dwell time

Métricas Extraídas:

• Traffic Count: Pessoas entrando/saindo por hora
• Dwell Time: Tempo médio por zona da loja
• Heatmaps: Áreas mais visitadas
• Conversion Rate: Visitantes vs compradores (integra com POS)

Impacto: Otimização de layout aumenta conversão em 15-20%. Identificação de horários de pico melhora staffing.

3. Face Recognition Access Control

Stack: ArcFace + MTCNN + Liveness Detection + Redis + Mobile App
Funcionalidade: Controle de acesso sem cartão ou senha

Pipeline:

1. Face Detection: MTCNN localiza face (< 50ms)
2. Liveness Check: Anti-spoofing (photo/video attack)
3. Feature Extract: ArcFace gera embedding 512D
4. Search: Query Redis com 10k+ embeddings (< 10ms)
5. Log: Foto + timestamp + location para audit

99.7%

Accuracy (1:N matching)

< 200ms

End-to-end latency

$2k

Setup por entrada

⚖️ Comparativo: Modelos de Object Detection 2025

Modelo	mAP (COCO)	FPS (T4 GPU)	Tamanho	Melhor Para
YOLOv8n (nano)	37.3%	200+ FPS	6 MB	Edge devices, mobile
YOLOv8m (medium)	50.2%	100 FPS	50 MB	Balance speed/accuracy
YOLOv8x (large)	53.9%	60 FPS	136 MB	Maximum accuracy
RT-DETR	53.1%	70 FPS	90 MB	Transformer-based, accuracy
SAM (Segment Anything)	N/A (segmentation)	5 FPS	2.4 GB	Zero-shot segmentation

Real-time Applications

Escolha: YOLOv8n ou YOLOv8m

Surveillance, robotics onde latência < 50ms é crítica.

High Accuracy

Escolha: YOLOv8x ou RT-DETR

Quality control, medical imaging onde cada % de mAP importa.

Segmentation Tasks

Escolha: SAM ou YOLOv8-seg

Quando precisa pixel-level masks, não apenas bounding boxes.

⚡ Guia: Otimização para Deploy em Produção

Model Optimization

Quantization (INT8)

4x menor, 2-3x mais rápido. Perda mAP: < 1%. Use TensorRT ou OpenVINO.

Pruning

Remove weights redundantes. 30-50% redução com mínima perda accuracy.

Knowledge Distillation

Treina modelo pequeno com teacher grande. Melhor que treinar direto.

Input Optimization

Resize para resolução mínima aceitável. 640x640 vs 1280x1280 = 4x speedup.

Hardware Selection

NVIDIA Jetson (Edge)

Orin Nano: $500, 40 TOPS. Perfeito para 1-4 câmeras 1080p.

Intel NUC + OpenVINO

$300-800. Ótimo para Intel integrated graphics. YOLOv8n @ 60+ FPS.

Cloud GPU (T4, A10)

$0.50-1.50/hora. Escala horizontal para picos de tráfego.

Coral Edge TPU

$60 USB accelerator. 400 FPS em MobileNet. Limitado a TF Lite.

📊 Benchmarks Práticos

YOLOv8n + TensorRT

T4 GPU: 280 FPS @ 640px. Latência: 3.6ms

YOLOv8m + OpenVINO

Intel i7 CPU: 45 FPS @ 640px. Latência: 22ms

MobileNetv3 + Coral

Edge TPU: 400 FPS @ 224px. Latência: 2.5ms

SAM + A100

Cloud: 8 FPS @ 1024px. Custo: $3/hora

← Módulo Anterior Próximo Módulo →