O problema que me fez construir isso
Em 2022, um sistema de detecção de fraude bancária falhou silenciosamente durante três semanas. Os padrões de ataque tinham mudado, mas o modelo — treinado seis meses antes — não foi atualizado. O custo estimado foi de milhões em transações não detectadas.
Isso não é exceção. É a regra. Qualquer modelo de ML enfrenta a mesma limitação: é treinado numa distribuição de dados que representa um momento no tempo. Quando a realidade muda — e sempre muda — o modelo fica defasado.
As soluções existentes atacam o problema de forma parcial. Continual Learning preserva conhecimento antigo mas mantém a arquitetura fixa. Neural Architecture Search encontra boas arquiteturas mas exige retreinamento completo. Nenhuma das duas resolve as três questões ao mesmo tempo.
"O modelo de ML tradicional é uma fotografia de um momento. Quando o mundo muda, a foto fica desatualizada. A questão é: quanto custa tirar uma foto nova toda vez?"
O que eu construí: dNaty
dNaty (Dynamic Neuro-Adaptive sYstem) é um framework de aprendizado de máquina que une três paradigmas em co-otimização simultânea — algo que, até onde mapeei na literatura, nenhum outro sistema faz com garantias formais de convergência:
- Otimização por gradiente local — o sistema refina os pesos a cada geração usando Adam + SAM (Sharpness-Aware Minimization), o que melhora generalização
- Evolução estrutural adaptativa — a arquitetura muda ao longo do tempo: adiciona neurônios onde precisa, remove onde pode, sem reconstruir o sistema do zero
- Memória episódica — o componente que diferencia dNaty de um algoritmo genético com gradiente colado. A memória aprende quais operações estruturais funcionam em quais contextos e usa esse histórico para guiar futuras mutações
A chave é o acoplamento entre esses três componentes. A memória não armazena dados — armazena estratégias. Ela aprende que, neste tipo de problema, adicionar capacidade na segunda camada funciona melhor que remover da primeira. Esse meta-aprendizado é o que torna o sistema progressivamente mais inteligente nas suas decisões estruturais.
O resultado prático: um sistema que começa com uma arquitetura pequena e cresce onde o problema exige — sem precisar de um engenheiro de ML escolhendo a topologia manualmente. Cada geração, a estrutura é uma variável de otimização, não uma constante.
Os números que valem mencionar
Testei em benchmarks padrão para ter números comparáveis. Os resultados principais, com 5 seeds e análise estatística:
O número do esquecimento catastrófico é o mais relevante na prática. No benchmark Split-MNIST — onde o modelo aprende 5 tarefas sequencialmente sem acesso às anteriores — o EWC (Elastic Weight Consolidation, referência no campo) perdeu 99.8% do conhecimento das tarefas antigas após aprender a última. dNaty perdeu apenas 20.4%.
Em termos concretos: se o modelo original detectava 1.000 transações fraudulentas por dia no padrão T1, após aprender um novo padrão T5, o EWC passa a detectar 2. dNaty detecta 796.
Por que a arquitetura que evolui importa
No MNIST, cada seed do dNaty encontrou uma arquitetura diferente — seed 0 terminou com 79.530 parâmetros, seed 1 com 91.371, seed 2 com 55.850. Todas competitivas com o MLP fixo de 109.400 parâmetros.
Isso não é ajuste de hiperparâmetros. É busca de arquitetura real. O sistema cresce onde o problema exige e encolhe onde pode. E, diferente de NAS clássico (como DARTS), isso acontece enquanto o modelo já está operando, não numa fase separada de busca.
"Cada seed encontrou uma arquitetura diferente para o mesmo problema. Isso é a diferença entre um sistema que memorizou a resposta certa e um que aprendeu a raciocinar sobre a estrutura do problema."
O que isso significa para empresas reais
Os benchmarks são abstratos. Veja onde isso tem impacto direto:
Padrões de ataque mudam semanalmente. Com ML tradicional, você retreina do zero periodicamente — e fica cego durante a transição. Com aprendizado contínuo, o modelo aprende os novos padrões sem esquecer os anteriores.
Quando a linha muda de produto, o modelo de inspeção visual precisa ser retreinado. Com evolução estrutural, o mesmo modelo se adapta ao novo produto sem rebuild completo — zero downtime de retreinamento.
Um modelo treinado para detectar a variante original de uma doença precisa aprender novas variantes sem "esquecer" as antigas. Exatamente o que memória episódica + continual learning resolve.
Ameaças evoluem constantemente. Um sistema que aprende novos padrões de intrusão sem desaprender os conhecidos vale muito mais do que retreinamentos periódicos.
Status atual e o que vem a seguir
Este é um projeto de pesquisa independente
- MNIST e FashionMNIST: resultados validados com 5 seeds e análise estatística
- Continual Learning (Split-MNIST): 3 seeds, resultados robustos
- CIFAR-10: resultado preliminar positivo (+6.8pp vs ResNet-8), aguarda validação completa com GPU
- Próximos passos: submissão ao arXiv, ablation study empírico completo, extensão para dados tabulares
- Não publicado ainda — preprint em preparação
Não vou fingir que é um produto pronto. É um framework de pesquisa que demonstra que os três problemas — rigidez estrutural, esquecimento catastrófico e busca cega de arquitetura — podem ser resolvidos simultaneamente com garantias formais de convergência.
O que me interessa agora é entender onde isso tem aplicação real. Se você trabalha com sistemas que precisam se adaptar a dados que mudam — fraude, inspeção industrial, diagnóstico, anomalia — vale uma conversa.
Nota técnica honesta: MNIST e FashionMNIST são benchmarks de entrada no campo. Para aplicação em produção real, seria necessário validação em dados do domínio específico, com métricas de negócio — não de pesquisa. Isso é o que eu faria antes de qualquer implantação.
Trabalha com IA em produção?
Se você enfrenta degradação de modelo, retreinamentos caros ou adaptação a dados que mudam — vale uma conversa de 30 minutos.