3/06/2021 • 10 min. de leitura

Data Lake: conheça e saiba por que é importante no combate a fraudes

Muito provavelmente você já ouviu falar em Big Data, já que o mundo empresarial está imerso em uma verdadeira revolução de informações. Contudo, há uma quantidade ainda maior de dados em estado bruto, que podem ser utilizados pelas organizações, mas que não estão devidamente armazenados. É nesse contexto que entra o conceito de Data Lake.

As organizações estão aprendendo a coletar, organizar, interpretar e analisar informações para criar insights e embasar decisões importantes, incluindo as relacionadas com a segurança. Segundo pesquisa realizada em 2021 pelo Cappra Institute, as empresas brasileiras contam com 10 petabytes armazenados — volume que deve crescer até 175% nos próximos 5 anos.

Neste artigo, você verá como surgiu o conceito de Data Lake, o que ele significa, suas principais diferenças em relação ao Big Data, o funcionamento e as vantagens que apresenta. Além disso, mencionamos a eficiência do Data Lake no combate às fraudes, as especificidades da solução ClearSale e alguns cases de sucesso. Boa leitura!

Como surgiu a necessidade de contar com um Data Lake?

O termo Data Lake (lago de dados) foi criado há mais de 10 anos por James Dixon, CTO do Pentaho, um software de código aberto para o Business Intelligence (inteligência de negócios). O objetivo era solucionar o problema crescente quanto à necessidade de um repositório único de dados, escalável e de baixo custo.

Na ocasião, o desafio era que a solução permitisse que as empresas tivessem acesso a um armazenamento fácil de todos os tipos de dados existentes na organização — muitas vezes ainda brutos, ou seja, que ainda não haviam passado por nenhuma manipulação ou tratamento para alguma finalidade específica.

O que é Data Lake?

Data Lake é uma espécie de repositório que centraliza e armazena todos os tipos de dados gerados por uma organização, mesmo que eles ainda não tenham sido processados e analisados. É uma tecnologia que garante mais capacidade de retenção de informações, com custo consideravelmente menor do que outros meios mais tradicionais.

A ideia é manter dados que possam ser úteis sempre disponíveis e em segurança para uso. Ele fornece armazenamento massivo para qualquer tipo de informação, com enorme poder de processamento e capacidade de lidar com tarefas simultâneas.

As informações contidas em um Data Lake podem ter diversas origens, como dados relacionais e não relacionais, advindas de aplicações corporativas, aplicativos móveis, dispositivos de Internet das Coisas (IoT), websites, redes sociais etc.

Quais são as diferenças entre Data Lake e Big Data?

O Data Lake é um dos componentes no amplo universo do Big Data. O Big Data pode ser definido como todo o conjunto de dados gerados a cada segundo, em praticamente tudo o que há no mundo. O Data Lake é o espaço onde se restringe determinado conjunto de dados, ainda brutos, para o processamento imediato ou posterior, com os mais variados objetivos.

Diferentemente de um Data Warehouse, por exemplo, o Data Lake armazena dados brutos em qualquer formato, sendo responsabilidade dos analistas, cientistas e engenheiros de dados atribuir sentido a essas informações. Em última análise, ele é um repositório de armazenamento e uma engrenagem para o processamento de dados gerados na era do Big Data.

Como funciona o Data Lake?

No Data Lake, não é preciso realizar estruturação de dados antes do armazenamento. Tais dados são preservados em seu formato de origem e processados conforme a demanda, reduzindo o esforço de estruturar dados que podem não ser convertidos em vantagens competitivas para o negócio.

Nesse sentido, o Data Lake pode armazenar todos os três tipos de dados, classificados como: dados não estruturados, dados semiestruturados e dados estruturados. Saiba mais sobre cada um deles a seguir.

Dados não estruturados

São informações que não estão organizadas nem contam com uma hierarquia interna explícita. Aqui, entra a maior parte dos dados disponíveis na Internet, como os arquivos de texto, vídeos, imagens e dados de redes sociais.

Dados semiestruturados

São informações que já foram organizadas de alguma maneira, mas ainda não se encontram totalmente estruturadas — como os arquivos XML, HTML e OWL.

Dados estruturados

São formatados e organizados em sistemas relacionais, de acordo com parâmetros específicos — como arquivos do Excel, CSV, SQL e JSON.

Claro que, assim como em outras formas de armazenamento, o ideal é saber o que é possível ou não descartar, preservando dados que podem conter informações importantes e contribuir com a melhoria de processos sensíveis para o negócio.

A maioria dos Data Lakes utiliza tecnologias de código aberto, o que reduz ainda mais os custos em comparação com outros tipos de armazenamento de dados. As informações escolhidas para serem salvas no Data Lake são enviadas a um sistema que realiza o armazenamento de forma simples e rápida.

Quais são as vantagens do Data Lake?

O Data Lake é a maneira mais moderna que existe atualmente para o armazenamento de um grande volume de dados com a velocidade que o mundo exige. Esse é um conceito que atende plenamente às principais necessidades do mercado.

É uma forma muito flexível de armazenar dados, já que isso é feito de forma “pura”, sem respostas para questões direcionadas — o que torna possível usar esses dados para gerar informações sobre praticamente qualquer necessidade que possa surgir em uma organização.

Um Data Lake é extremamente acessível e permite o compartilhamento de informações entre usuários, mesmo que eles não detenham profundos conhecimentos de TI.

Ao agrupar um volume tão grande de dados, o Data Lake abre a possibilidade de cruzar ainda mais informações. Dessa forma, ele permite descobertas e obtenção de insights inéditos, até então. Além disso, ele proporciona outros benefícios.

Baixo custo

Menor custo na implementação por conta da não necessidade de processamento para que os dados entrem no Lake, tornando a estrutura mais simples de implantar e manter.

Rapidez na inserção de dados

Por dispensar a necessidade de um pré-processamento e um esquema de escrita, permite simplesmente realizar a adição de dados a qualquer momento, conforme são criados.

Compatibilidade com ferramentas de ciências de dados

Por terem informações não estruturadas, os Lakes apresentam mais compatibilidade com as demais ferramentas de Data Science.

Escalabilidade

Devido à facilidade de inserção de dados, o Lake se torna um repositório com enorme capacidade de crescimento, de acordo com a geração de Big Data.

Colaboração

Facilita a colaboração entre diferentes membros e dispensa o suporte técnico de TI.

Como o Data Lake ajuda no combate a fraudes?

A informação é uma das mais importantes ferramentas de soluções antifraude eficientes. A possibilidade de armazenar dados de maneira segura e com fácil acesso faz com que seja possível atuar de maneira rápida e eficaz na eventualidade de um ataque de cibercriminosos, por exemplo.

Com o uso do seu Data Lake, a ClearSale conseguiu desenvolver e aprimorar tecnologias e serviços que conseguem, de maneira consistente, mapear a ação de fraudadores nos mínimos detalhes. Essa tecnologia proprietária objetiva controlar a fraude em compras e contratações, com uma visão que vai além do simples preenchimento de dados, conseguindo compreender o contexto de cada transação.

Para fazer isso, a ClearSale estruturou um efeito de rede incomparável no mercado, por meio de inovações tecnológicas, combinando alta tecnologia com o trabalho de profissionais ultraespecializados. Tudo isso somado ao Data Lake gerado por nossa atuação no e-commerce brasileiro e nos segmentos de serviços financeiros, vendas diretas e telecomunicações.

Vale ressaltar que o futuro do Big Data reserva possibilidades que, se bem gerenciadas por meio de uma boa estratégia de Data Lake, facilitarão muitos os processos das empresas e elevarão os resultados. Tudo isso com baixo custo, muita eficiência e, principalmente, com muita segurança em todas as frentes de atuação, para todas as partes envolvidas em cada processo.

Como funciona o Data Lake da ClearSale?

A seguir, conheça o Data Lake da ClearSale em números, relevância e diferenciais.

Tamanho da base de dados do Data Lake

A confiabilidade dos nossos clientes em mais de 20 anos de combate às fraudes online nos permite ter base de dados sólida e com qualidade acima da média de mercado. 

Relevância na atuação

Atuamos em diversos segmentos, como, por exemplo, e-commerces, bancos digitais, vendas diretas, telecom e financeiro.

Diferenciais

Um dos nossos principais diferenciais é o acesso que temos a dados de mais de 96,5% dos brasileiros, incluindo os que não fazem parte do universo digital e até mesmo os desbancarizados. Além disso, proporcionamos:

  • soluções desenvolvidas para suportar evolução nas decisões em etapas de crédito;
  • melhores análises por meio da combinação das nossas soluções com o seu processo de crédito;
  • diferencial positivo no suporte às segmentações e clusterizações ao nível granular inédito no mercado.

Score de crédito

O score gerado pelas soluções da ClearSale é um cálculo complexo, que utiliza como base o perfil exclusivo dos consumidores. Por meio de informações de consumo aliadas às relações financeiras e ao Data Lake da ClearSale, obtemos insights relevantes sobre o potencial de perfis pouco explorados pelo mercado financeiro. Dessa forma, conseguimos elevar as aprovações, principalmente do público não bancarizado.

Tecnologia antifraude

Há mais de 20 anos, desenvolvemos tecnologia para soluções antifraude utilizando inteligência de dados, para analisar o comportamento e a reputação do consumidor no ambiente digital.

Somos globais e premiados

Estamos presentes em 5 países e já efetuamos análises de transações em mais de 170 países. Além disso, ganhamos diversos prêmios no segmento de tecnologia.

Inteligência de dados

Temos uma base de dados sólida, construída em mais de 20 anos de história, e que a todo momento é retroalimentada com dados de novos pedidos. Com isso, a nossa Inteligência Artificial analisa e toma a decisão de aprovar ou reprovar cada pedido.

Para garantir a eficiência do processo, não reprovamos pedidos automaticamente. Contamos com a análise humana para captar sutilezas que permitem aprovar até os pedidos mais complexos. Reprovar um pedido é a nossa última alternativa. Isso é possível devido aos recursos altamente tecnológicos que utilizamos, como, por exemplo:

  • Big Data;
  • Machine Learning;
  • Human Touch;
  • 2FA.

Visão macro

A união do nosso Data Lake com a Inteligência de Dados permite criar uma rede de proteção única no mercado. Nela, padrões de ataques identificados em um cliente ajudam a proteger toda a base.

Com isso, conseguimos uma visão cross-segment que nos coloca sempre um passo à frente da fraude, além da confiança de mais de 5 mil empresas. Veja, a seguir alguns exemplos dos nossos cases de sucesso.

Quais são os melhores cases de sucesso ClearSale?

O Data Lake da ClearSale já ajudou muitas empresas. A seguir, conheça alguns cases de sucesso e saiba como outras organizações usam a nossa tecnologia na criação de uma experiência única e segura para os clientes.

Case Dafiti: internacionalizando a operação para a América Latina com a ajuda da ClearSale

A Dafiti é uma das marcas que sempre foi vista como inovadora. Pioneira em vendas de calçados 100% online, a empresa atua no mercado brasileiro há 8 anos. Em 2015, a fusão com a Kanui e a Tricae gerou o Dafiti Group, maior grupo de e-commerces de moda e lifestyle da América Latina.

Como muitas empresas, a Dafiti começou com um time interno de gestão de fraude, mas o tempo de resposta não era tão adequado e eles sentiam muita falta de terem troca de informações com o restante do mercado.

O desafio estava em ter um modelo de risco mais eficiente e com mais dados. Além disso, eles desejavam melhorar seus indicadores relacionados à fraude e aperfeiçoar a experiência do cliente.

Solução ClearSale

Com o Total ClearSale, os indicadores de aprovação, autorização no banco e chargeback melhoraram consideravelmente. O índice de chargeback teve redução de 20%, em média, do valor que a empresa via em 2016. 

Os índices de aprovação chegaram a melhorar 8%, e a autorização no banco, entre 6% e 8%. O foco da ClearSale está na aprovação máxima.

Case BookPartners: focando no atendimento ao cliente

Com mais de 16 anos de mercado, a BookPartners é a maior distribuidora do ramo de livros no Brasil. Trata-se de uma holding que atende todo o mercado editorial e seus devidos processos.

Após se deparar com um prejuízo de mais de R$ 200 mil em fraudes, a BookPartners percebeu que precisava tornar a análise de fraude mais automatizada, agilizando processos e voltando o seu foco para o atendimento ao cliente, já que a equipe estava focada em fazer a análise manual dos pedidos.

Solução ClearSale

Com o produto Total ClearSale, a BookPartners viu uma melhora substancial em seu atendimento, já que sua equipe pôde focar totalmente no atendimento ao cliente, deixando a parte de análise de pedidos com a ClearSale. 

Em um ano de atuação, houve reflexo no aumento de vendas, na diminuição das fraudes e foi visível uma melhora no faturamento da companhia.

Conforme mostramos em diversos momentos deste artigo, o Data Lake desempenha um importante papel no combate à fraude. Para ajudar as empresas nesse sentido, a ClearSale desenvolveu e aprimorou tecnologias e serviços que atuam com foco no mapeamento da ação de fraudadores em seus mínimos detalhes, prevenindo e capturando crimes eletrônicos.

Esperamos que essas informações tenham sido esclarecedoras, para que você possa tomar melhores decisões sobre riscos e prevenção a fraudes e segurança. Nesse sentido, sugerimos que conheça também a plataforma Data Trust, a mais nova solução da ClearSale para a gestão de fraude.

Escrito por

Leitura em Libras