Até meia duzia de anos atrás, a diferença entre um modelo estatístico (normalmente uma regressão logística) e uma rede neural era marginal. A rede neural apresentava uma capacidade de separação ligeiramente maior, ao custo de ser uma caixa preta. Com o potencial parecido, a adoção de um método ou outro se dava por questões de preferência para cada cenário ou pelo tipo de profissional disponível para a criação do algoritmo.
Recentemente as redes neurais passaram a suportar uma quantidade de camadas muito maiores (deep learning), o que possibilitou, dentre outras coisas, a exploração efetiva e surpreendente dos dados não estruturados, como texto, voz, imagens e vídeos. Com a capacidade de processamento cada vez maior, surgiram os identificadores de imagem, tradutores simultâneos, "interpretadores" de texto e outras novidades que surpreendem o mundo.
A construção corporativa de algoritmos supervisionados (os chamados modelos preditivos) sempre foi um processo cuja qualidade depende da realização apropriada de uma série de etapas que continuarão existindo. Eu enfatizo que a capacidade da execução de cada etapa deste processo de forma eficiente e criativa tem mais resultado no algoritmo final do que o ajuste e o método utilizado. São elas:
Entrevistas: O Data Scientist, em sua formação original, não está ligado ao tema para o qual desenvolverá o modelo. Normalmente um profissional da área de exatas, ele criará algoritmos para os diferentes processos de tomada de decisão corporativos ou acadêmicos. É necessário um entendimento do problema, o que se dá com a entrevista dos profissionais da área. O Data Scientist pode trabalhar desde a previsão de mortalidade de borboletas africanas até decisão de publicação de advertising para a terceira idade. A versatilidade, a capacidade de aprendizado e compreensão de áreas não ligadas à sua formação original é um grande diferencial aqui.
Compreensão do fenômeno: Uma vez entendido o ambiente, há que se estudar o que explica o fenômeno a ser predito, ou seja, por quê o fenômeno acontece? Quais as relações causais envolvidas no processo? Um exemplo básico: se você quer prever qual público se torna inadimplente, deve observar e responder previamente algumas perguntas. Por que uma pessoa se torna inadimplente? Quando elas contratam o produto, elas já estariam mal intencionadas? Elas contratam dívidas incompatíveis com a renda? Existe fraude no processo? Existe pressão de vendas? Estas são algumas dentre inúmeras perguntas a serem feitas. E existem inúmeras para cada processo. Um profissional que quer criar algoritmos sem se levantar da cadeira terá sempre capacidade limitada.
Seleção de informações relevantes: Compreendidas as possíveis relações causais, onde estão as informações que poderão explicar o fenômeno? Com a disponibilidade de informações de fácil acesso (ou nem tanto), explosão das API's, crawlers e afins, para muitos processos é comum encontrar mais informações relevantes no (irritante termo) Big Data do que dentro de casa. Um profissional curioso, antenado e "fuçador" executa bem esta etapa.
Amostragem: A escola computacional compreende uso de bases de dados cada vez maiores para permitirem o ajuste de um gigantes presentes nas múltiplas camadas. Ainda assim, a definição da variável resposta, a separação da base de dados, a certificação de uso de dados do passado, a separação dos dados entre ajuste, validação e teste, etc. requerem bom senso, alguma experiência e algum conhecimento de estatística.
Trabalho das Variáveis: Esta é a única etapa que foi realmente extinta quando se deixa a "escola" estatística para a "escola" computacional. O desenho artesanal, quase artístico de variáveis, uma etapa extremamente criativa e que também gera muito aprendizado acerca do fenômeno, não é mais necessário. Com minha formação estatística, posso dizer que é uma etapa que deixa saudades. Sua eliminação, entretanto, aumenta muito a importância da compreensão do fenômeno.
Ajuste e Avaliação do Ajuste: Com a abordagem computacional, os ajustes e suas respectivas avaliações ficam muito mais baseados em pesquisa em comunidades e em tentativa e erro. Com a impossibilidade de compreensão matemática da relação causal implícita nas equações, os profissionais devem saber pesquisar nas comunidades as arquiteturas de rede que mais se adequaram para as respectivas atividades. Uma vez encontrado algo aderente, parte-se para a tentativa e erro até a convergência de explicação satisfatória do fenômeno. Aqui o processo foi transformado, exigindo mais conectividade e esforço do que conhecimento técnico acadêmico.
Implementação: Todas aquelas API's, extrações de dados internos, crawlers, etc. não são fáceis de serem implantadas com precisão, estabilidade e principalmente, sem erros. Muitas vezes não é simples replicar a obtenção efetiva de todas as informações, principalmente externas, que explicam o fenômeno e foram utilizadas como dados de entrada. Se um crawler foi utilizado, por exemplo, ele terá que funcionar sem erros em produção no futuro. Caso a origem seja alterada, ele precisará de manutenção. Assim como API's. Mais do que um algoritmo, muitas vezes o que foi desenhado foi uma nova aplicação, que deve ser acompanhada continuamente. O conhecimento de TI ou o bom relacionamento e diálogo com esta área é fundamental.
"A completude, a criatividade e a visão holística, muito mais do que a álgebra linear, serão os grandes diferenciais".
Tudo isso posto, quem seria o profissional apropriado para Data Science? Seria o que conseguisse realizar bem todas as etapas acima. Sem nenhuma dúvida, estatísticos experientes tem fácil capacidade de adaptação a estas mudanças, aprofundando-se um pouco mais em TI, com suas novas linguagens e arquiteturas. A escola computacional também gera profissionais plenamente capazes de executar um bom trabalho desde que consigam executar bem as partes de pesquisa e entendimento do problema e do fenômeno, além da capacidade de pensar probabilisticamente. Para tomar uma posição e não ficar em cima do muro: Do ponto de vista estrito de preparação acadêmica, eu acho que o fiel da balança penderia ligeiramente para o lado do estatístico. Insisto, porém, que buscar conhecimento extra em relação às disciplinas escolares seria mais importante do que a formação em si, qualquer que fosse o curso. A completude, a criatividade e a visão holística, muito mais do que a álgebra linear, são os grandes diferenciais aqui.
*Artigo originalmente publicado no Blog do autor www.lustosa.website e com algumas alterações para a plataforma Computerworld