Blog ClearSale Brasil

Engenharia de Dados: a importância para o seu negócio

Escrito por Convidado | 21/01/2019 06:00:00

Em um mundo cada vez mais digital, com um fluxo constante de dados e informações, é impossível imaginar uma empresa que não esteja imersa no ecossistema do Big Data, com uma produção de dados exaustiva – e muitas vezes até assustadora. Por isso, obviamente, o fluxo de dados e informações é parte fundamental do valor estratégico de uma empresa.

Neste cenário, surge a questão: como captar e processar um grande volume de dados com a rapidez que o mundo digital exige? Além da tecnologia, é preciso ter mão de obra ultra especializada, e grande partes das empresas já entendeu que não basta ter somente analistas de dados. Está claro que a era do Big Data exige mais do que isso.

Engenheiros de Dados

Atualmente, contar engenheiros de dados capazes de tornar os dados mais legíveis para outras gamas de profissionais, que necessitam destes mesmos dados para um determinado fim – como é o caso dos profissionais de Analytics da ClearSale, por exemplo – é fundamental para tornar cada tomada de decisão mais inteligente e eficiente para o negócio.

Vale ressaltar que o Engenheiro de Dados é um profissional mais voltado à tecnologia, mas que entende, seja superficialmente ou de maneira mais aprofundada, qual a real necessidade do Cientista de Dados, e como traduzir tanta informação para uma estrutura ‘consumível’ de dados.

Benefícios da Engenharia de Dados

Ao ter um especialista da Engenharia de Dados, os ganhos são diversos, e vão desde escalabilidade em tempo real e possibilidade de deixar o trabalho criativo mais livre, até a completa capacidade de entender melhor clientes, produtos e processos dentro de uma organização.

A junção entre Engenharia de Dados, Ciência de Dados e Inteligência Estatística permite que uma empresa não apenas tenha clareza no significado de dados atuais, mas que também seja capaz de prever o que estes mesmos dados podem representar no futuro do negócio.

Normalmente, Cientistas de Dados gastam boa parte de seu tempo limpando e processando dados. Com o trabalho dos engenheiros desta área, estes dados chegam aos cientistas ‘pré-prontos’ para consumo, o que aumenta consideravelmente o tempo útil para outras tarefas mais específicas da função.

E neste momento há um ganho importante de escalabilidade, pois, ao invés de se ter 10 Cientistas de Dados gastando 80% do tempo replicando conceitos, limpando bases e processando quantidades massivas de dados, você pode ter dois cientistas focados em análise e mais dois engenheiros focados na infraestrutura tecnológica, gerando, também, um grande ganho de eficiência.

Início da Engenharia de Dados

Em pleno 2019, o que mais temos é volume de dados e ferramentas disponíveis para ajudar na organização e no processamento dos mesmos A capacidade de trabalhar em cima deles é, primordialmente, dos profissionais de Engenharia de Dados.

No começo, esta função era exercida por analistas de Business Inteligence, que construíam os famosos data warehouses, muitas vezes utilizados por eles mesmos na análise de dados. Era uma função feita, principalmente, pela área de tecnologia.

No entanto, com novas técnicas de análises descritivas e prescritivas, com a imersão de profissionais de estatística e áreas relacionadas, somadas a um ‘boom’ de ingestão de dados, essa profissão se transformou.

Claro que o trabalho nesta área, via de regra, é complexo. Durante todo o processo de formação e maturação de um profissional é preciso respeitar a curva de aprendizado necessária para o exercício pleno da função.

Além disso, é preciso ficar claro que o Engenheiro de Dados não substitui o Cientista de Dados ou profissionais de Inteligência Estatística. São áreas que podem – e devem – trabalhar em conjunto para garantir todos os ganhos competitivos possíveis no ecossistema de cada organização.

Engenharia de Dados na ClearSale

No contexto do core business da ClearSale, a Engenharia de Dados é fundamental. O time desta área é responsável por captar, organizar e processar toda a informação que será utilizada pelos Cientistas de Dados e pela equipe de Analytics, em um trabalho contínuo de melhoria de tecnologia e modelos estatísticos.

A sinergia entre profissionais dessas áreas faz com que a empresa ganhe eficiência, rapidez e escalabilidade para cuidar da segurança de seus clientes, tanto na maior capacidade na detecção de fraudes quanto na geração de insights que ajudem no desenvolvimento do trabalho.

Além disso, este trabalho conjunto é indispensável para aumentar a produtividade de maneira geral, fazendo com que cada especialista possa concentrar esforços no escopo de seu trabalho.

Aprofundamento técnico

A ClearSale tem uma posição pragmática em relação a tecnologia e provedores. Atualmente, usa um misto de bancos relacionais, não relacionais e colunares, procurando utilizar cada tecnologia de modo específico, de acordo com cada propósito.

Usamos ambientes híbridos on-premises e mais de um provedor de serviços em nuvem. A empresa optou por uma arquitetura kappa para ingestão de dados, dando prioridade para aplicações serverless, desde a extração dos bancos transacionais (quando não há possibilidade de uso direto de single source of truth/log data stores das aplicações transacionais legadas, usamos a simulação pelos extratores), passando por camadas de processamento distribuído, até a chegada do dados prontos para consumo – seja para uso transacional na detecção da fraude em realtime, seja para a análise de dados em batch.

Quando decidimos implementar um grande datalake que reunisse as informações de transações de variados segmentos, nos preocupamos com a governança de dados ao gerar metadados com toda a ‘arvore genealógica’ dos mesmos, uma vez que a discrepância em números é um problema recorrente quando a informação está disponível, e cientistas de dados, sendo criativos como devem ser, criam suas próprias definições de conceitos - outra oportunidade para engenheiros, onde conceitos universais podem ser materializados em visões de dados unificadas.

Com a implementação de uma arquitetura que usa modelos de machine learning as a service, ganhamos eficiência no retreinamento de modelos e deploy dos mesmos em produção. Aplicamos a mesma metodologia devops utilizada pelos times de desenvolvimento em pacotes de elt/etl, facilitando o uso de testes integrados e rápida integração após commit, com uma taxa próxima de zero de erros em pacotes em produção.

A linguagem universal interna foi decidida por python, embora alguns analistas prefiram usar R para análises especificas. O C# ainda é a linguagem utilizada pelos devs para o back-end, mas algumas partes do sistema já utilizam frameworks criados em python por times de desenvolvimento dentro de analytics.

O mindset dentro da empresa, hoje, principalmente pelo crescimento acelerado ano após ano, é de ter uma arquitetura de escalabilidade infinita, com baixo tempo de resposta e com baixo custo administrativo, para que os engenheiros e analistas estejam focados em desenvolvimento e otimização de novos processos, ao invés de se preocupar com trabalhos repetitivos, que possam ser automatizados ou ‘terceirizados’ para plataformas as a service. Essa diretriz vai diretamente ao encontro com uma metodologia lean, adotada em todos os níveis e times da empresa.

*Artigo escrito por Rubens Monteiro, head de Engenharia de Dados da ClearSale

*Colaboração de Felipe Tchilian, jornalista responsável pelo blog