4 horas 4 tópicos

📝 Módulo 2.7: NLP e Text Processing

Domine técnicas avançadas de processamento de linguagem natural, incluindo NER, tradução, análise de sentimento e extração de informação.

📝 Named Entity Recognition

O que é

Named Entity Recognition (NER) identifica e classifica entidades mencionadas em texto (pessoas, organizações, locais, datas, valores monetários, etc.). Modelos modernos incluem spaCy, Stanford NER, BERT-based NER, e GLiNER para zero-shot entity extraction. NER é fundamental para information extraction, knowledge graph construction, e document understanding.

Por que aprender

NER é base para inúmeras aplicações empresariais - análise de contratos (extração de partes, datas, valores), monitoramento de mídia (tracking de menções), compliance (identificação de PII), e pesquisa (indexação semântica). Sistemas de Q&A, chatbots e assistentes virtuais dependem de NER para entender queries. É uma das habilidades NLP mais valorizadas.

Conceitos chave

• Entity Types: PERSON, ORG, LOC, DATE, MONEY, GPE (geo-political entities)
• spaCy NER: Pipeline eficiente com modelos pré-treinados multilíngues
• BIO Tagging: Begin-Inside-Outside scheme para sequence labeling
• GLiNER: Zero-shot NER para entidades customizadas sem treinamento
• Entity Linking: Resolução de entidades para knowledge bases (Wikipedia, Wikidata)
• Custom NER Training: Fine-tuning em domínios específicos (médico, jurídico, financeiro)

🌍 Translation e Multilingual Models

O que é

Machine translation converte texto entre idiomas automaticamente. Modelos modernos incluem Google Translate API, DeepL API, Meta's M2M-100, e NLLB (No Language Left Behind) para 200+ idiomas. Multilingual models como mBERT, XLM-RoBERTa processam múltiplos idiomas em um único modelo. Técnicas incluem neural machine translation (NMT), zero-shot translation, e domain adaptation.

Por que aprender

Globalização exige aplicações multilíngues. Translation permite alcançar mercados internacionais, suporte a clientes em múltiplos idiomas, e análise de fontes globais de dados. Modelos multilíngues permitem transfer learning entre idiomas, reduzindo necessidade de dados em línguas de baixo recurso. Empresas globais priorizam desenvolvedores com essas habilidades.

Conceitos chave

• Transformer NMT: Encoder-decoder architecture para tradução neural
• BLEU Score: Métrica padrão para avaliar qualidade de traduções
• Zero-shot Translation: Tradução entre pares de idiomas não vistos no treinamento
• Multilingual Embeddings: Representações compartilhadas entre idiomas
• Domain Adaptation: Fine-tuning para terminologia específica (técnica, médica)
• Language Detection: Identificação automática de idioma de entrada

📊 Sentiment Analysis e Classification

O que é

Sentiment analysis classifica texto como positivo, negativo ou neutro. Text classification categoriza documentos em classes predefinidas (spam/not spam, tópicos, urgência, etc.). Modelos incluem BERT-based classifiers, RoBERTa, DistilBERT para eficiência, e zero-shot classification com modelos generativos. Aplica-se em reviews, social media monitoring, customer feedback, e content moderation.

Por que aprender

Empresas precisam entender sentimento de clientes em escala - analisar milhares de reviews, tweets, emails manualmente é inviável. Sentiment analysis automatiza isso, fornecendo insights acionáveis. Classification automatiza triagem de tickets, roteamento de emails, moderação de conteúdo. ROI é claro e imediato, tornando essas habilidades altamente valorizadas.

Conceitos chave

• Aspect-Based Sentiment: Sentimento para aspectos específicos (food vs service em reviews)
• Multi-class Classification: Softmax, cross-entropy para múltiplas categorias
• Zero-shot Classification: HuggingFace pipeline para classes sem exemplos de treino
• Class Imbalance: SMOTE, class weights para datasets desbalanceados
• Confusion Matrix: Precision, recall, F1-score para avaliar classifiers
• Active Learning: Seleção inteligente de exemplos para annotation

🔍 Information Extraction

O que é

Information extraction (IE) converte texto não-estruturado em dados estruturados. Inclui entity extraction, relation extraction (identificar relações entre entidades), event extraction, e template filling. Técnicas incluem rule-based systems, statistical models (CRF), neural approaches (BERT, GPT), e hybrid methods. Frameworks como Stanford CoreNLP, AllenNLP facilitam IE complexo.

Por que aprender

A maioria dos dados empresariais está em formato não-estruturado (emails, PDFs, relatórios, contratos). IE transforma esses dados em formato analisável, permitindo automação de processos, business intelligence, e data-driven decisions. Aplicações incluem parsing de currículos, análise de contratos, extração de dados de faturas, e construção de knowledge graphs.

Conceitos chave

• Relation Extraction: Identificar relações entre entidades (works_for, located_in)
• Event Extraction: Detectar eventos (aquisições, lançamentos de produtos) com participantes
• Template Filling: Preencher estruturas predefinidas com informações extraídas
• Open IE: Extração sem esquema predefinido (ReVerb, OpenIE)
• Structured Outputs: JSON Schema, Pydantic models para garantir formato
• Document Understanding: Layout analysis + OCR + IE para PDFs e images

🚀 Pipeline NLP Completo: Da Extração à Produção

Document Intelligence System

Stack: spaCy + Transformers + FastAPI + PostgreSQL + Redis
Funcionalidade: Extração automática de entidades, relações e insights de contratos

Capacidades:

• NER: Pessoas, empresas, datas, valores
• Relation Extraction: Quem assinou com quem
• Summarization: Resumo executivo 200 palavras
• Classification: Tipo de contrato (7 categorias)

Performance:

✓ Accuracy NER: 94%
✓ Throughput: 100 docs/min
✓ Latência p95: 800ms
✓ Custo: $0.05/doc

⚖️ Comparativo: Modelos NLP para Produção

Modelo	Tamanho	Latência	Melhor Para
BERT-base	110M params	~50ms	Classification, NER
DistilBERT	66M params	~30ms	Low-latency tasks
RoBERTa-large	355M params	~150ms	Maximum accuracy

🛠️ Guia: Pipeline de Text Processing

Pré-processamento

• Tokenização: WordPiece, BPE, SentencePiece
• Normalização: Lowercase, remoção acentos
• Limpeza: URLs, emails, números
• Stemming/Lemmatização: Redução a raiz

Pós-processamento

• Decoding: Beam search, top-k sampling
• Formatting: Structured outputs (JSON)
• Validation: Schema checking, constraints
• Filtering: Confidence thresholds

← Módulo Anterior Próximo Módulo →