A ilusão do demo
O YOLO (You Only Look Once) é uma das arquiteturas de detecção de objetos mais rápidas que existem. Numa demonstração com vídeo de YouTube, ele detecta carros, pessoas e objetos com 80–90% de precisão em tempo real. Parece mágico.
O problema é que o demo usa um modelo treinado no COCO dataset — 80 categorias genéricas, milhares de imagens balanceadas, iluminação controlada. Quando você tenta usar esse mesmo modelo numa câmera de segurança industrial para detectar se o operador está com o capacete, a realidade é diferente: falsos positivos aos montes, falsos negativos onde mais importa, e latência que não fecha nem de longe.
Num projeto de detecção de EPI em ambiente industrial que desenvolvi, o modelo base do YOLO detectava capacetes com 68% de precisão nas primeiras semanas. Após coleta e anotação dos dados reais do ambiente, retreinamento e ajuste de threshold, chegamos a 94%. Essa diferença de 26 pontos percentuais é o trabalho real que ninguém mostra no tutorial.
O YOLO pré-treinado é o ponto de partida, não a solução. O trabalho real começa quando você abre a câmera do cliente e percebe que as condições de luz, ângulo e escala são completamente diferentes do que o modelo foi treinado.
As 5 armadilhas que aparecem em todo projeto
O modelo detecta capacetes em fotos de estúdio. Na câmera do cliente com iluminação fluorescente, ângulo de 45 graus e fundo cheio de maquinário, ele não reconhece nada. Dados genéricos não substituem dados do ambiente específico.
Um threshold de confiança de 0.5 (padrão) em ambiente ruidoso gera dezenas de alarmes falsos por hora. Os operadores passam a ignorar os alertas — incluindo os verdadeiros. É o mesmo efeito do alarme de incêndio que apita por fumaça de cigarro: quando importa, ninguém liga.
Na câmera USB do notebook, o YOLO processa 30 FPS tranquilo. Na câmera IP via RTSP com codec H.264 e rede local, a latência de decodificação + inferência + envio de alerta pode passar de 3 segundos. Para detecção de EPI em movimento, isso é inaceitável.
Depois de 3 meses em produção, a empresa trocou as luminárias da linha por LED mais intenso. A acurácia caiu de 94% para 71% da noite para o dia. Ninguém percebeu por semanas porque não havia monitoramento automático de qualidade.
"94% de acurácia" soa bem, mas se o dataset tem 90% de frames sem EPI e 10% com capacete, um modelo que diz "sem capacete" pra tudo tem 90% de acurácia. A métrica certa para detecção de objetos raros é precision + recall + F1, não acurácia geral.
O que realmente importa para o cliente
Depois de vários projetos com YOLO, o que percebi é que a acurácia do modelo é o menor dos problemas. O que realmente define sucesso ou fracasso:
- O sistema roda 24/7 sem travar? Vazamento de memória em loop de captura de câmera é mais comum do que parece
- Os alertas chegam ao lugar certo? Detectar o problema é metade do trabalho — o alerta precisa chegar ao supervisor em menos de 5 segundos, no canal certo
- A equipe confia no sistema? Um mês de alarmes falsos destrói a confiança. Calibração de threshold é trabalho contínuo nas primeiras semanas
- É possível auditar? Salvar imagem do frame + metadados do evento permite revisar falsos positivos e melhorar o modelo continuamente
No projeto industrial que menciono aqui, o trabalho de desenvolvimento de modelo foi cerca de 30% do total. Os outros 70% foram: coleta e anotação de dados, calibração de alertas, integração com o sistema de comunicação da fábrica, treinamento da equipe e monitoramento nas primeiras semanas.
Quando YOLO faz sentido e quando não faz
YOLO faz sentido quando você precisa de detecção em tempo real com latência abaixo de 100ms, tem capacidade de coletar dados do ambiente específico, e o problema de negócio tem uma frequência de eventos que justifique o investimento.
Não faz sentido quando o volume de eventos é tão baixo que revisão manual seria mais barata, quando o ambiente muda constantemente (retreinamento frequente eleva o custo operacional), ou quando a precisão necessária está acima do que câmeras comuns conseguem capturar.
Tem câmeras e quer colocar IA pra trabalhar?
Em 30 minutos avalio se visão computacional resolve o seu problema — e qual seria o custo real.