Kaique Mitsuo Silva Yamamoto
Ia

Visão Computacional — CNNs, Detecção, Segmentação e ViTs

Fundamentos de visão computacional: CNNs, detecção de objetos (YOLO), segmentação de imagens, Vision Transformers (ViT) e aplicações práticas.

Visão Computacional (Computer Vision — CV) é o campo da IA que dota máquinas da capacidade de interpretar e compreender imagens e vídeos. Tarefas que humanos realizam instantaneamente — reconhecer um rosto, detectar um tumor numa radiografia, ler uma placa de trânsito — exigem modelos sofisticados para serem automatizadas.

Papers de referência: arXiv cs.CV — Computer Vision and Pattern Recognition


Hierarquia de tarefas em visão

TarefaSaídaExemplo
ClassificaçãoClasse da imagem inteira"Esta imagem contém um gato"
Detecção de objetosBounding boxes + classes"Há um carro em (x1,y1,x2,y2)"
Segmentação semânticaClasse por pixelCada pixel é: estrada, céu, pessoa...
Segmentação de instânciaMáscara por objeto individualPessoa 1, Pessoa 2, Carro 1...
Estimação de poseKeypoints do corpo/faceArticulações de um esqueleto humano
Reconhecimento facialIdentidade"Este é João"
OCRTexto em imagensLeitura de documentos, placas

CNNs — a base de visão computacional

Detalhes da arquitetura estão em Redes Neurais Profundas. O que importa especificamente para visão:

Por que convolução funciona para imagens?

  1. Localidade: features relevantes (bordas, texturas) são locais — um filtro 3×3 captura contexto local de cada pixel
  2. Invariância à translação: o mesmo padrão é detectado independente de onde apareça na imagem
  3. Hierarquia de features: camadas iniciais detectam bordas → camadas médias detectam formas → camadas finais detectam objetos completos

Evolução das arquiteturas de classificação

ModeloAnoInovaçãoImageNet Top-5
AlexNet2012ReLU, dropout, GPU training84.7%
VGG-162014Profundidade com filtros 3×392.7%
Inception (GoogLeNet)2014Inception modules (multi-escala)93.3%
ResNet-502015Skip connections95.3%
EfficientNet-B72019Compound scaling97.1%
ViT-H/142021Vision Transformer97.7%
CoAtNet2021CNN + Transformer híbrido98.7%

Detecção de objetos

O problema

Classificação responde "o que há na imagem?" Detecção responde "o que há na imagem e onde está?"

Desafios:

  • Múltiplos objetos de tamanhos e proporções variadas
  • Sobreposição entre objetos
  • Velocidade (aplicações em tempo real)

Two-stage detectors — R-CNN family

  1. Region Proposal Network (RPN): propõe regiões candidatas com objetos
  2. Classification head: classifica cada região proposta

Faster R-CNN (2015): altamente preciso, mas mais lento. Padrão em aplicações que priorizam acurácia.

One-stage detectors — YOLO family

YOLO (You Only Look Once) trata detecção como problema de regressão: divide a imagem em grade, cada célula prevê bounding boxes e classes simultaneamente em um único forward pass.

Vantagens: extremamente rápido (30-100+ FPS), adequado para tempo real.

VersãoAnoInovação
YOLOv12016Conceito original
YOLOv32018Multi-escala, ancora boxes
YOLOv52020PyTorch, fácil deploy
YOLOv82023Ultralytics, anchor-free
YOLOv112024Estado da arte em velocidade/acurácia
# YOLOv8 — detecção em 3 linhas
from ultralytics import YOLO

model = YOLO("yolov8n.pt")   # nano (mais rápido)
results = model("imagem.jpg")
results[0].show()             # exibe com bounding boxes

Segmentação de imagens

Segmentação Semântica — U-Net

A arquitetura U-Net (2015) usa encoder-decoder com skip connections. Popular em imagens médicas e satélites.

Encoder (downsampling):  extrai features, reduz resolução
Skip connections:        preserva detalhes espaciais
Decoder (upsampling):    reconstrói máscara na resolução original

Segment Anything Model (SAM)

Meta AI lançou o SAM em 2023 — modelo fundacional para segmentação que aceita pontos, bounding boxes ou texto como prompt e segmenta qualquer objeto em qualquer imagem.

SAM 2 (2024) estendeu para segmentação de vídeo em tempo real.

from sam2.sam2_image_predictor import SAM2ImagePredictor

predictor = SAM2ImagePredictor.from_pretrained("facebook/sam2-hiera-large")
predictor.set_image(imagem)
masks, scores, _ = predictor.predict(point_coords=[[500, 375]])

Vision Transformers (ViT)

Publicado por Google Brain em 2020 (arXiv:2010.11929), o Vision Transformer aplicou a arquitetura Transformer diretamente a imagens:

  1. Divide a imagem em patches (tipicamente 16×16 pixels)
  2. Lineariza cada patch em um vetor
  3. Adiciona embeddings de posição
  4. Processa com Transformer encoder padrão

Por que isso é revolucionário: elimina o inductive bias das CNNs (localidade, invariância à translação). Com dados suficientes, o modelo aprende essas propriedades — e vai além.

Limitação: ViTs precisam de muito mais dados que CNNs para atingir o mesmo desempenho. Com pre-training em datasets massivos (JFT-300M, ImageNet-21k), superam CNNs.

Modelos ViT de ponta (2024-2025)

  • DINOv2 (Meta): features visuais universais sem supervisão
  • SigLIP (Google): alinhamento texto-imagem eficiente
  • EVA-CLIP (Beijing Academy): escala enorme de ViT

Visão multimódal — texto + imagem

CLIP — Contrastive Language-Image Pre-training

OpenAI (2021): treina encoder de imagem e encoder de texto para que imagens e suas descrições fiquem próximas no espaço de embeddings.

Zero-shot classification: classifica imagens em qualquer categoria descrita em texto, sem fine-tuning.

Modelos generativos de imagem

ModeloTipoUso
Stable DiffusionDiffusion (latent)Geração open-source
DALL-E 3Diffusion + LLMTexto → imagem
MidjourneyDifusão proprietáriaCriação artística
Imagen (Google)Diffusion + T5Alta fidelidade

Como diffusion models funcionam: adicionam ruído progressivamente a uma imagem (forward process), depois treinam um modelo para reverter esse processo (reverse process). Na geração, partem de ruído puro e removem o ruído condicionados ao prompt.


Aplicações práticas

SetorAplicação
SaúdeDiagnóstico por imagem (radiologia, dermatologia, patologia)
AutonomiaVeículos autônomos (Tesla, Waymo), drones
SegurançaReconhecimento facial, detecção de anomalias
VarejoCaixas autônomas (Amazon Go), contagem de estoque
AgronegócioAnálise de lavouras via satélite/drone
ManufaturaInspeção de qualidade automatizada
FinançasOCR de documentos, análise de gráficos

Conexões com outras seções

  • Redes Neurais Profundas — CNNs e ViTs são arquiteturas de deep learning
  • LLMs — modelos multimodais (GPT-4V, Gemini, Claude 3) combinam visão e linguagem
  • Análise Técnica — visão computacional para leitura automatizada de gráficos

Aviso Legal: Conteúdo educativo. Não constitui recomendação de investimento.

On this page