2.5 Comunicação & ditado

📖 Glossário vivo (leia antes — volte sempre que precisar)

Esta trilha é sobre as habilidades humanas que multiplicam a IA. Aqui o tema novo é comunicação por voz. Fixe estes termos — eles aparecem o módulo inteiro:

Dictation (ditado) — falar em voz alta e o computador transcrever pra texto na hora. Em vez de digitar o prompt, você fala o prompt.

Whisper / Whisper Flow — Whisper é o modelo de reconhecimento de fala da OpenAI; Whisper Flow é o app que Matt usa pra ditar em qualquer campo de texto do computador.

Token — o "pedacinho" de texto que a IA processa (mais ou menos uma sílaba/palavra). Aqui usamos como metáfora: cada ideia que sai do seu cérebro em forma de palavra é um token.

Verbalizar a visão — colocar em palavras claras o que você quer que seja construído (a intenção, o "porquê"), não só ordens soltas.

Overpowered — gíria pra "forte demais", uma vantagem desproporcional. Pocock diz que comunicar bem é "ridiculously overpowered" hoje.

Bandwidth (largura de banda) — quanta informação passa por um canal num dado tempo. Falar tem mais bandwidth que digitar: mais ideias por minuto.

🗣️ Verbalizar a visão

🧠 Imagine assim: você tem na cabeça uma casa perfeita, com cada cômodo no lugar. O pedreiro é rápido e habilidoso — mas só constrói o que você consegue descrever. Se você só diz "faz uma casa", sai qualquer coisa. Se você descreve cada cômodo, sai a sua casa. A IA é o pedreiro; sua fala é a planta.

Na trilha anterior você viu que a IA "comeu" o trabalho tático (escrever o código) e que o seu valor migrou pro lado estratégico (decidir o quê e por quê). Mas decidir não basta — você precisa transmitir a decisão. E aqui está o pulo do gato deste módulo: a forma como você passa a sua intenção pro agente virou a habilidade que mais separa quem voa de quem trava. Pocock chama isso, sem rodeios, de comunicação overpowered — "ridiculously overpowered no mundo do desenvolvimento".

Verbalizar a visão é diferente de dar uma ordem. "Faz o login" é uma ordem vaga. "Quero um login por e-mail e senha, que reaproveite o nosso padrão de autenticação, com mensagens de erro amigáveis e cobertura de teste" é uma visão verbalizada: tem o quê, o porquê e o critério de pronto. O agente é tão bom quanto a clareza da sua fala. O porquê disso é simples: a IA não lê sua mente — ela só tem as palavras que você deu. Quanto mais nítida a visão na sua boca, menos a IA precisa adivinhar — e adivinhar é exatamente onde ela erra.

A mesma visão pode virar a casa certa ou qualquer coisa — depende da clareza da sua fala.

Ilustração conceitual: uma pessoa fala e a fala se transforma em uma planta de construção luminosa que o agente segue

⚠️ Erro comum de iniciante

Achar que "prompt curto = prompt bom". Curto demais vira ordem vaga, e a IA preenche os buracos chutando. Verbalizar a visão é o oposto de ser telegráfico: é ser nítido sobre intenção e critério de pronto — mesmo que dê um parágrafo.

Em 1 frase: o agente constrói exatamente o que você consegue verbalizar — então a clareza da sua fala é o limite do resultado.

Indo mais fundo (opcional): por que "verbalizar" também te ajuda a pensar?

Existe um efeito conhecido como "rubber duck debugging": explicar um problema em voz alta (mesmo pra um patinho de borracha) muitas vezes faz a solução aparecer. Verbalizar a visão pro agente tem o mesmo bônus — ao falar, você descobre buracos no seu próprio plano antes mesmo de a IA tentar. A fala não é só saída; é também uma ferramenta de raciocínio.

⚡ Ditado como velocidade

🧠 Imagine assim: mandar uma mensagem por texto leva 30 segundos; um áudio de voz com a mesma ideia, 8. Falar é uma estrada de várias pistas; digitar é uma rua de mão única. Quem dita pega a estrada.

A pessoa média digita ~40 palavras por minuto e fala ~130. Isso é mais de 3× mais rápido. Quando o seu trabalho deixou de ser teclar código e virou descrever intenção pro agente, essa diferença de velocidade vira diferença de produtividade direta. Por isso Pocock é categórico: "Anyone who's not doing dictation is just so much slower." Não é exagero motivacional — é aritmética de bandwidth.

Dictation (ditado) é exatamente isso: você fala e o computador transcreve o seu prompt em tempo real, em qualquer campo de texto. Em vez de teclar três parágrafos de contexto, você fala três parágrafos em um terço do tempo — e ainda solta detalhes que jamais teria paciência de digitar. O porquê é importante: o gargalo do trabalho com IA não é mais a IA escrever rápido (ela é instantânea); o gargalo virou você conseguir colocar pra fora o que quer. Ditar destrava esse gargalo.

Ilustração: ondas sonoras de uma fala se convertendo em linhas de texto fluindo rápido para uma tela

Recuperação rápida: por que Pocock diz que quem não usa dictation é "so much slower"?

Em 1 frase: a IA já é instantânea; ditar tira você do caminho crítico ao triplicar quanto você consegue dizer por minuto.

🔁 Brain → tokens → brain

🧠 Imagine assim: trabalhar com IA é uma conversa de mão dupla com uma mangueira de água. Você joga ideias (jato pra fora) e recebe respostas (jato pra dentro). Se a mangueira é fina (digitar), pinga. Se é grossa (falar + ouvir/ler rápido), jorra.

Pocock tem uma frase que resume o jogo inteiro: o que importa é "how fast you can output tokens from your brain and input them back into your brain." Traduzindo: a velocidade com que você consegue tirar ideias da sua cabeça em forma de tokens (palavras) e depois devolver pra cabeça as respostas que a IA produziu. Trabalhar com agente é esse ciclo girando: cérebro → tokens → agente → tokens → cérebro, repetidamente.

Os dois lados do ciclo têm gargalos diferentes. No lado de saída, o limite é quão rápido você verbaliza — e é aí que o dictation ajuda (3× mais palavras por minuto). No lado de entrada, o limite é quão rápido você lê e absorve a resposta — e aí entram leitura rápida, diffs bem formatados e até ouvir um resumo. O porquê de pensar nos dois lados: não adianta falar rápido se você leva 10 minutos lendo cada resposta. A meta é engrossar a mangueira nas duas direções.

O trabalho com agente é esse loop girando. Engrosse a mangueira nos dois sentidos.

🔬 Exemplo resolvido: o mesmo bug, dois canais

Você precisa explicar pro agente um bug de paginação. Mesmo bug, dois jeitos de fechar o loop:

Mangueira fina (digitando)

Você digita "corrige a paginação" em 5s, sem contexto (cansa de teclar). A IA chuta, erra, você relê tudo devagar. Loop demorado, várias idas e voltas.

Mangueira grossa (ditando)

Em 20s você fala: "a paginação repete o último item ao virar de página; acho que o offset começa em 1 em vez de 0; cheque o componente de lista e rode o teste X". A IA acerta de primeira; você lê o diff e fecha o loop.

Em 1 frase: sua produtividade com IA = a velocidade do loop cérebro → tokens → cérebro; dictation acelera a metade da saída.

💬 A skill de comunicar

🧠 Imagine assim: dois gerentes com a mesma equipe. Um explica a tarefa de um jeito que todo mundo entende de primeira; o outro fala enrolado e precisa refazer tudo três vezes. Mesma equipe, resultados opostos. A diferença é puramente comunicação.

Aqui está a tese central, e ela é provocadora: comunicar bem é "ridiculously overpowered" no mundo do desenvolvimento — palavras de Pocock. Por décadas, "comunicação" foi tratada como soft skill, algo secundário ao talento técnico. Com agentes, ela virou uma hard skill de saída: é o canal por onde toda a sua estratégia passa pra ser executada. Se você é nítido, o agente acerta; se você é confuso, nenhum modelo do mundo salva.

A boa notícia: comunicar é uma habilidade, não um dom — você treina e melhora. E ela tem três músculos práticos: (1) nitidez — diga o quê, o porquê e o critério de pronto; (2) estrutura — ordene o pensamento (contexto → objetivo → restrições) em vez de despejar tudo junto; (3) concisão sem perda — corte o que não muda a decisão, mantenha o que muda. O erro comum é confundir "ser técnico" com "ser claro": jargão denso impressiona humano, mas confunde o agente tanto quanto confundiria um júnior.

Ilustração: um gerente humano dirigindo uma equipe de agentes de IA com instruções claras e luminosas

✓ Comunicação overpowered

• Diz o objetivo e o porquê, não só a ordem.
• Estrutura: contexto, depois pedido, depois limites.
• Corta o supérfluo, mantém o que decide.

✗ Comunicação que trava

• Ordem solta sem contexto ("faz isso").
• Jargão denso que parece técnico mas confunde.
• Tudo despejado junto, sem ordem.

Em 1 frase: comunicar bem virou hard skill — é o canal por onde toda a sua estratégia chega ao agente, e dá pra treinar.

🛠️ Ferramentas de dictation

🧠 Imagine assim: um botão mágico que, enquanto você segura e fala, transforma sua voz em texto em qualquer lugar da tela — no chat do agente, no editor, no campo de busca. É isso que um app de dictation faz.

A ferramenta que Pocock usa é o Whisper Flow. O nome vem do Whisper, o modelo de reconhecimento de fala da OpenAI — extremamente bom em transcrever, inclusive com sotaque e termos técnicos. O "Flow" é o app que pluga esse motor em todo o sistema: você aciona um atalho, fala, e o texto aparece onde o cursor estiver. Não importa se é o terminal do Claude Code, um campo de e-mail ou o editor — funciona em qualquer lugar.

Existem alternativas (o próprio ditado nativo do sistema operacional, ou outros apps baseados em Whisper), mas o ponto não é a marca — é adotar o hábito. O porquê de uma ferramenta dedicada em vez do ditado nativo: as boas têm latência baixa, pontuação automática, formatação e funcionam global (em qualquer app), o que faz a diferença entre "uso de vez em quando" e "uso o dia todo". O erro comum é instalar, testar uma vez, achar estranho e desistir — a curva é de poucos dias; depois não dá mais pra voltar.

Indo mais fundo (opcional): por que pontuação e contexto técnico importam tanto?

Um ditado fraco transcreve "use o componente list view" como "use o componente list. view" ou erra nomes de variáveis. Quando você está mandando um prompt técnico pro agente, esses erros poluem a instrução e a IA interpreta errado. Motores bons (como Whisper) lidam bem com jargão e pontuam sozinhos — por isso a qualidade do reconhecimento não é detalhe: ela protege a clareza da sua fala até o agente.

Em 1 frase: Whisper Flow (ou similar) transforma sua voz em texto em qualquer app — o importante não é a marca, é adotar o hábito.

🎯 Treinar a fala

🧠 Imagine assim: ninguém fica fluente num idioma lendo sobre gramática — fica falando todo dia, mesmo errado no começo. Ditar é igual: estranho nos primeiros dias, automático depois de uma semana.

Fechando o módulo: comunicação overpowered não cai do céu — é hábito construído. No começo, falar pro computador parece esquisito (todo mundo passa por isso) e você vai querer voltar pro teclado. Resista uma semana. A meta não é falar bonito; é falar estruturado e nítido de forma automática, do jeito que você verbalizaria pra um júnior competente. Abaixo um roteiro mental — uma "skill humana" pra você seguir enquanto o hábito não vem sozinho. Copie e cole num post-it ao lado da tela:

treinar-a-fala.txt

TREINO DE COMUNICAÇÃO OVERPOWERED — 1 semana

1. INSTALE um app de dictation (ex.: Whisper Flow) e defina um atalho global.
2. REGRA: por 1 semana, todo prompt longo é DITADO, não digitado. Sem exceção.
3. ESTRUTURA ao falar (sempre nesta ordem):
   - CONTEXTO: onde estamos / o que já existe.
   - OBJETIVO: o que quero alcançar (a VISÃO, não só a ordem).
   - PORQUÊ: por que isso importa.
   - LIMITES: restrições, padrão a seguir, o que NÃO fazer.
   - PRONTO: como sei que terminou (teste / critério).
4. REVISE a transcrição 1x antes de enviar (pega erro de reconhecimento).
5. LOOP: feche o ciclo lendo o diff/resposta rápido; não releia tudo devagar.

Meta: falar nitido e estruturado vira automatico. Ai voce esta "so much faster".

Recuperação rápida: qual a forma mais fiel de descrever a tese de Pocock sobre comunicação?

Em 1 frase: dite por uma semana com estrutura fixa; o estranho vira automático e você vira "so much faster".

🧾 Resumo do Módulo

✓

Verbalize a visão — o agente constrói só o que você consegue descrever (o quê + porquê + pronto).

✓

Ditado é velocidade — falar tem ~3× a bandwidth de digitar; "quem não dita é so much slower".

✓

Brain → tokens → brain — o trabalho é esse loop; engrosse a mangueira nos dois sentidos.

✓

Comunicar é overpowered — virou hard skill; use Whisper Flow e treine a fala por uma semana.

Próximo módulo:

2.6 — Você no controle do produto: a IA é fraca em ideia original; a visão e as features são suas.

← Voltar para Trilha Próximo Módulo →