🚀 Atualizado em 19 de julho de 2026 (v2.0.3)

Versão v2.0.3 lançada com 8 correções críticas de corretude: skip connections agora em nn.ModuleList (treinam, são persistidas, movem para GPU), quant_aware+latency combinados, memória episódica com attribution correta, eval-mode accuracy, latency predictor com todas as features, e drift detector com edge-bin clipping. Release notes e detalhes técnicos →

O problema que me fez construir isso

Em 2022, um sistema de detecção de fraude bancária falhou silenciosamente durante três semanas. Os padrões de ataque tinham mudado, mas o modelo — treinado seis meses antes — não foi atualizado. O custo estimado foi de milhões em transações não detectadas.

Isso não é exceção. É a regra. Qualquer modelo de ML enfrenta a mesma limitação: é treinado numa distribuição de dados que representa um momento no tempo. Quando a realidade muda — e sempre muda — o modelo fica defasado.

As soluções existentes atacam o problema de forma parcial. Continual Learning preserva conhecimento antigo mas mantém a arquitetura fixa. Neural Architecture Search encontra boas arquiteturas mas exige retreinamento completo. Nenhuma das duas resolve as três questões ao mesmo tempo.

"O modelo de ML tradicional é uma fotografia de um momento. Quando o mundo muda, a foto fica desatualizada. A questão é: quanto custa tirar uma foto nova toda vez?"

O que eu construí: dNaty

dNaty (Dynamic Neuro-Adaptive sYstem) é um framework de aprendizado de máquina que une três paradigmas em co-otimização simultânea — algo que, até onde mapeei na literatura, nenhum outro sistema faz com garantias formais de convergência:

Otimização por gradiente local — o sistema refina os pesos a cada geração usando Adam + SAM (Sharpness-Aware Minimization), o que melhora generalização
Evolução estrutural adaptativa — a arquitetura muda ao longo do tempo: adiciona neurônios onde precisa, remove onde pode, sem reconstruir o sistema do zero
Memória episódica — o componente que diferencia dNaty de um algoritmo genético com gradiente colado. A memória aprende quais operações estruturais funcionam em quais contextos e usa esse histórico para guiar futuras mutações

A chave é o acoplamento entre esses três componentes. A memória não armazena dados — armazena estratégias. Ela aprende que, neste tipo de problema, adicionar capacidade na segunda camada funciona melhor que remover da primeira. Esse meta-aprendizado é o que torna o sistema progressivamente mais inteligente nas suas decisões estruturais.

O resultado prático: um sistema que começa com uma arquitetura pequena e cresce onde o problema exige — sem precisar de um engenheiro de ML escolhendo a topologia manualmente. Cada geração, a estrutura é uma variável de otimização, não uma constante.

Os números que valem mencionar

Testei em benchmarks padrão para ter números comparáveis. Os resultados principais, com 5 seeds e análise estatística:

98.70%Acurácia no MNISTMLP fixo: 97.85% (p=0.015)

−79.6%Esquecimento catastróficovs EWC — estado da arte em CL

52K→90KParâmetros após evoluçãoArquitetura cresce onde precisa

O número do esquecimento catastrófico é o mais relevante na prática. No benchmark Split-MNIST — onde o modelo aprende 5 tarefas sequencialmente sem acesso às anteriores — o EWC (Elastic Weight Consolidation, referência no campo) perdeu 99.8% do conhecimento das tarefas antigas após aprender a última. dNaty perdeu apenas 20.4%.

Em termos concretos: se o modelo original detectava 1.000 transações fraudulentas por dia no padrão T1, após aprender um novo padrão T5, o EWC passa a detectar 2. dNaty detecta 796.

Por que a arquitetura que evolui importa

No MNIST, cada seed do dNaty encontrou uma arquitetura diferente — seed 0 terminou com 79.530 parâmetros, seed 1 com 91.371, seed 2 com 55.850. Todas competitivas com o MLP fixo de 109.400 parâmetros.

Isso não é ajuste de hiperparâmetros. É busca de arquitetura real. O sistema cresce onde o problema exige e encolhe onde pode. E, diferente de NAS clássico (como DARTS), isso acontece enquanto o modelo já está operando, não numa fase separada de busca.

"Cada seed encontrou uma arquitetura diferente para o mesmo problema. Isso é a diferença entre um sistema que memorizou a resposta certa e um que aprendeu a raciocinar sobre a estrutura do problema."

O que isso significa para empresas reais

Os benchmarks são abstratos. Veja onde isso tem impacto direto:

🏦

Detecção de fraude financeira

Padrões de ataque mudam semanalmente. Com ML tradicional, você retreina do zero periodicamente — e fica cego durante a transição. Com aprendizado contínuo, o modelo aprende os novos padrões sem esquecer os anteriores.

🏭

Controle de qualidade industrial

Quando a linha muda de produto, o modelo de inspeção visual precisa ser retreinado. Com evolução estrutural, o mesmo modelo se adapta ao novo produto sem rebuild completo — zero downtime de retreinamento.

🏥

Diagnóstico médico adaptativo

Um modelo treinado para detectar a variante original de uma doença precisa aprender novas variantes sem "esquecer" as antigas. Exatamente o que memória episódica + continual learning resolve.

🔍

Sistemas de segurança e anomalia

Ameaças evoluem constantemente. Um sistema que aprende novos padrões de intrusão sem desaprender os conhecidos vale muito mais do que retreinamentos periódicos.

Status atual e o que vem a seguir

Este é um projeto de pesquisa independente

MNIST e FashionMNIST: resultados validados com 5 seeds e análise estatística
Continual Learning (Split-MNIST): 3 seeds, resultados robustos
CIFAR-10: resultado preliminar positivo (+6.8pp vs ResNet-8), aguarda validação completa com GPU
Próximos passos: submissão ao arXiv, ablation study empírico completo, extensão para dados tabulares
Não publicado ainda — preprint em preparação

Não vou fingir que é um produto pronto. É um framework de pesquisa que demonstra que os três problemas — rigidez estrutural, esquecimento catastrófico e busca cega de arquitetura — podem ser resolvidos simultaneamente com garantias formais de convergência.

O que me interessa agora é entender onde isso tem aplicação real. Se você trabalha com sistemas que precisam se adaptar a dados que mudam — fraude, inspeção industrial, diagnóstico, anomalia — vale uma conversa.

Nota técnica honesta: MNIST e FashionMNIST são benchmarks de entrada no campo. Para aplicação em produção real, seria necessário validação em dados do domínio específico, com métricas de negócio — não de pesquisa. Isso é o que eu faria antes de qualquer implantação.

Trabalha com IA em produção?

Se você enfrenta degradação de modelo, retreinamentos caros ou adaptação a dados que mudam — vale uma conversa de 30 minutos.

Falar com Pedro