Competência técnicaDados & IA

Dados, IA & Machine Learning

RAG e workflows LLM na ACCENSEO, ML scoring na AdsPower, ETL Ligneurs na Pichet. Habilidade construida pelas necessidades reais do negocio, nao pelo hype cycle.

Competência técnicaDados & IA

Dados, IA & Machine Learning

RAG e workflows LLM na ACCENSEO, ML scoring na AdsPower, ETL Ligneurs na Pichet. Habilidade construida pelas necessidades reais do negocio, nao pelo hype cycle.

Confiança Pessoal

4.1/5· Especialista

◆

FundamentalEm desenvolvimentoProficienteAvançadoEspecialista

Evolução desta competência ao longo do tempo

Minha definição

Dados, IA e ML, para mim, e a competencia que transforma eventos e textos em decisões. Cobre as bases relacionais e NoSQL, a dataviz (Apache ECharts, dashboards de negocio), a engenharia de dados, os fundamentos do machine learning e os workflows LLM aplicados (RAG, agentic, avaliacao). E o eixo estrategico explicito do meu projeto 2026-2028: integrar a IA generativa em workflows conformes e operar os dados na escala de um SaaS B2B vertical regulado.

Trabalho em 3 camadas que sustento em paralelo. Armazenamento e modelagem: SQL avancado, modelagem Prisma (~91 modelos no SaaS contabil, 98 no SaaS corretores), MongoDB e PostgreSQL em produção em varias centenas de GB de RAM na ACCENSEO. Pipelines: ETL custom (Akeneo Ligneurs), pipelines ML Azure ML Studio (AdsPower 2016-2018), enriquecimento multi-fornecedor (Claude, GPT, Gemini, TRELLIS, TripoSR, Shap-E). IA aplicada: RAG hands-on no pipeline ACCENSEO, classificacao, geracao 3D, tradução multilingue, extracao de atributos a partir de visuais. Competencia em ascensao ativa para Senior no triptico data engineering + ML aplicado + LLM-Ops.

Quatro frentes paralelas 2026: dev agentico (MCP, agentes de codigo, n8n), LLM-Ops em producao (RAG hibrido, roteamento Claude/GPT/Gemini, monitoramento), engenharia de dados SaaS (Prisma, pgvector, MongoDB) e fundamentos ML (Azure ML Studio, k-means, NLP TF-IDF) — Jose DA COSTA

Em 2026, o moat competitivo de um SaaS B2B vertical não está mais no LLM escolhido mas no contexto que você da a ele - dados proprietarios permissionados, execucao real das tarefas com guardrails e distribuicao embarcada. E a tese desenvolvida pela Microsoft Azure em 10 RAG Shifts Redefining Production AI in 2026: o agentic RAG virou o padrao default para responder perguntas complexas e executar ações, e o RAG hibrido e a baseline de produção. O CTO que sabe projetar um pipeline RAG industrializado (eval + drift detection + cost per feature) em dominio regulado vira procurado.

Minhas evidências

Realização

Anedota 1 : Co-fundar a AdsPower em torno de pipelines ML AdTech

Em janeiro de 2016, co-fundei a AdsPower como CTO e Technical Project Manager de uma startup early-stage sem investidor externo. A aposta: competir com Optmyzr (US) e Dolead (FR) com uma abordagem ML-first para otimizar automaticamente os lances no Google AdWords, Bing Ads e Facebook Ads. O mercado era dominado por motores de recomendacao heuristicos, e o Azure ML Studio acabava de sair do preview público - havia uma janela, mas também um desafio: escassez de competencias ML em Bordeaux em 2017 e runway limitado.

Montei um pipeline ML completo: um Data Collection Service plugado nas APIs Google AdWords + Bing Ads + Facebook Ads, um SERP Scraper custom (Goutte + CasperJS) cobrindo 6 motores (Google, Bing, Yahoo, Yandex, Baidu, DuckDuckGo) e absorvendo mais de 10 milhoes de requisicoes por mes via cache Memcached + queue Redis, e um sidecar Python Flask rodando NLTK + TF-IDF para o NLP multilingue. Em modelos, treinei no Azure ML Studio classificacoes supervisionadas para a predicao de bid, clusters k-means para a deteccao de palavras-chave negativas, e a Google Prediction API para a segmentacao de audiencia. A stack aplicacional: Symfony 3.2 + Angular com builds Electron desktop (Mac/Windows/Linux) e Cordova mobile (iOS/Android). Para encontrar freelancers ML, fiz buscas GitHub geolocalizadas nas tags machine-learning.

3 iteracoes de produto majores entregues em menos de um ano com uma equipe de 4 freelancers que conduzi como Technical Project Manager, plataforma cobrindo 3 redes publicitarias (Google, Bing, Facebook) com recomendacoes em menos de 500 ms, e 3 beta-testadores ativos na v1 de novembro de 2016.

Essa aventura me ensinou na pele que classificacao + bid optimization podem ser produtizadas - não apenas demonstradas em notebook. Os reflexos que forjei la (latencia sub-segundo, fallback heuristico em caso de incerteza do modelo, monitoramento do quality score) são exatamente os que rejogo hoje nos workflows LLM da ACCENSEO. A AdsPower não encontrou seu PMF antes do esgotamento do runway, mas foi minha primeira escola de ML em produção.

Ver a realização

Realização

Anedota 2 : Industrializar o enriquecimento LLM multi-fornecedor na ACCENSEO

Na ACCENSEO, um dos chantiers recorrentes com meus clientes e-commerce e PIM e o enriquecimento massivo de fichas de produto por IA: dezenas de milhares de fichas a otimizar - taxonomia automatica, rewriting SEO de descricoes, melhoria de fotos (recorte, fundos, watermark), geracao de modelos 3D, tradução multilingue, extracao de atributos a partir dos visuais. A armadilha: se você se prender a um único fornecedor LLM, herda suas quedas, seus precos e seus limites de taxa.

Construi um pipeline multi-fornecedor por padrao. No texto, integrei OpenAI GPT, Anthropic Claude e Google Gemini com um roteador que escolhe o modelo conforme a tarefa (Claude para precisao, GPT para criatividade, Gemini para multimodal leve). Em 3D, conectei TRELLIS, TripoSR e Shap-E para gerar modelos 3D a partir das fotos de produto. Em imagem, tratamento automatico de fundo, recorte e watermark. A orquestracao passa por n8n e Make.com para os workflows automatizados, Power Automate para os gatilhos Microsoft, e tudo roda em servidores OVH dedicados dos clientes para preservar a confidencialidade do catalogo.

Enriquecimento desdobrado em escala nas plataformas e-commerce de varios clientes (imobiliario, moda, viticultura, automotivo, cozinha planejada), lift de qualidade catalogo mensuravel sem custo linear em humanos - e um produto interno Addly derivado dessa expertise para Confluence/Atlassian Forge.

Nesse trabalho entendi que a IA generativa em produção se ganha na disciplina de observabilidade (token cost, latencia, taxa de alucinacao detectada) e na estratégia multi-fornecedor, não na sofisticacao do prompt. E o angulo que quero empurrar no próximo papel CTO scale-up: transformar a IA em moat, não em truque de demo.

Ver a realização

Realização

Anedota 3 : Pipeline ETL Akeneo para os portais imobiliarios (Ligneurs)

Durante 4 anos no Pichet (2019-2023), fui o único responsavel tecnico do pipeline de export Ligneurs - o motor de sindicacao automatizada dos anuncios imobiliarios do grupo para uma vintena de portais parceiros (SeLoger, LeBonCoin, BienIci, LogicImmo...). O sistema alimentava um volume estimado em um lead a cada 2 segundos no conjunto dos portais. Toda interrupcao se traduzia diretamente em leads perdidos e em receita perdida.

Concebi uma arquitetura modular por parceiro em vez de um motor generico: um container Docker isolado por portal, orquestrado por Kubernetes em AWS EKS, com GitLab CI para deploys direcionados sem impactar os outros fluxos. No ETL, o pipeline extrai via API REST PIM Akeneo v2, transforma no formato especifico de cada portal (XML, CSV, JSON), pre-renderiza as imagens em multi-formato centralizado (4/3, 16/9, panoramico, quadrado) para evitar reprocessamento por parceiro, e entrega via FTP/SFTP automatizado. Adicionei padroes defensivos sobre fontes heterogeneas: circuit breaker na API PIM, lógica de retry nos uploads FTP, algoritmo de matching SKU entre os programas manuais e os programas do ERP. A migracao v1.4 → v2 foi feita portal por portal com validacao de negocio em cada etapa, nunca em big-bang.

Migracao zero-downtime em todos os portais parceiros, monitoramento centralizado com alertas email automatizados, e o pipeline rodou em operação continua durante 4 anos sem perda significativa de anuncio - nenhum equivalente rodava no departamento com esse nível de confiabilidade.

Esse projeto elevou o padrao de engenharia de dados que carrego em cada missao ACCENSEO: isolamento por parceiro, processamento batch quando o streaming em tempo real não traz nada, observabilidade por fluxo desde a concepcao. E também nesse projeto que entendi de forma duradoura a divida arquitetural de dados: um modulo único generico parece simples a escrita mas se torna ingerenciavel na decima integração parceira.

Ver a realização

Minha autocrítica

Nível Confirmado em ascensao ativa para Senior. Fundacoes solidas: SQL avancado, modelagem Prisma (~91 modelos SaaS contabil, 98 SaaS corretores), MongoDB e PostgreSQL em produção em centenas de GB na ACCENSEO, pipelines ML Azure ML Studio (AdsPower) e workflows LLM aplicados multi-fornecedor (Claude, GPT, Gemini, Google Vertex). O que falta fortalecer: RAG industrializado com eval e guardrails, MLOps grade produção (versionamento, drift detection) e data engineering em larga escala (>TB).

Eixo estrategico explicito do meu projeto 2026-2027. Articula tres camadas: fundacoes data (leitura rápida de schema, auditoria de pipeline), ML aplicado (classificacao, scoring, recomendacao) e IA generativa em produção (RAG, agentes, eval). Para um papel CTO scale-up SaaS B2B vertical, e o que transforma a IA em moat em vez de gadget de demo.

Eixo #1 do projeto 2026-2028: passar de um CTO operador de stack moderna para um CTO agent-native, defendendo uma roadmap IA diante de um board sobre velocidade de produto, FinOps de IA e conformidade AI Act, distinguindo moat de commodity — Jose DA COSTA

Subida deliberada Confirmado → Senior disparada no fim de 2024 e ainda em curso: RAG hands-on plugado no pipeline ACCENSEO, multi-fornecedor (Claude + GPT + Gemini), enriquecimento IA de dezenas de milhares de fichas de produto. A cadencia e mensuravel trimestre a trimestre.

Para mim mesmo: entregar um pequeno projeto RAG ou agentic por trimestre, com eval explicito, para não deixar a competencia se degradar, e manter um diario de prompts que funcionam e que não funcionam.

Aos outros: não confundir demo IA com produção IA - investir desde o inicio em observabilidade do pipeline (token cost, latencia, taxa de alucinacao detectada) e em guardrails (sanitizacao, rate limit, fallback humano). Escolher uma stack data-first antes da stack modelo.

Minha evolução nesta competência

O eixo estrategico 2026-2028

Data e IA são o eixo que distingue o meu perfil CTO em 2026. No plano de 24 meses, eles me permitem cadrar um produto SaaS B2B vertical IA-aumentado, recrutar uma equipe data + ML / LLM coerente e defender uma trajetoria produto IA diante de um board distinguindo o que e moat do que e commodity. Sem esse eixo, o papel CTO 2026-2028 reduz-se a um papel de operador de stack moderna.

Até o fim de 2027, o objetivo observavel e operar uma plataforma data + IA grade produção com pipeline RAG industrializado (eval + drift detection), custo explicito por feature IA e revisao trimestral de qualidade. O deslizamento Confirmado -> Senior se mede sobre o triplo dominio data engineering + ML aplicado + LLM-Ops, não sobre uma nota abstrata.

Plataforma data + IA grade producao final de 2027: pipeline RAG industrializado (eval, drift detection), observatorio de custos LLM (cost per feature, cost per agent), prompt registry versionado comparado em datasets de eval, revisao trimestral Q1-Q4 e passagem Expert 7/10 → 8/10 na tripla maestria data engineering, ML aplicado, LLM-Ops + agentic dev — Jose DA COSTA

RAG hands-on integrado ao pipeline ACCENSEO (Claude + GPT + Gemini + Google Vertex multi-fornecedores), intake semanal das releases LLM. Master Expert em Engenharia de Software ativo até 2026.

Programas DeepLearning.AI Specialization e Coursera MLOps previstos 2026-2027. Cohort Maven Applied LLM (Hamel Husain por exemplo) visada 2026. Certificacao GCP Professional Data Engineer considerada conforme contexto alvo.

Leituras pilares: Designing Machine Learning Systems (Chip Huyen), Building LLM Powered Applications (Valentina Alto), papers selecionados no arXiv. Acompanhamento continuo de Latent Space, Eugene Yan, Simon Willison. Rotina mensal: um novo modelo avaliado num caso real.