Ciência de Dados: o básico e como se qualificar numa das áreas mais promissoras da TI

“Sem dados você é apenas outra pessoa com uma opinião” – Willian Edwards Deming, estatístico, palestrante e autor

Noções Introdutórias

Tudo é feito de dados e vivemos em plena ascensão do mundo virtual alimentado diariamente pela intitulada sociedade da informação em que nos encontramos. Estamos em plena 4ª Revolução Industrial, também conhecida por Indústria 4.0, sem precedentes históricos no que tange à produção de dados. Vale conferir a agenda do governo brasileiro para a industria 4.0 aqui e também os dados da Data Never Sleeps de 2018 na imagem abaixo que, em seu sexto ano consecutivo, conforme site oficial, mostra a média de dados gerados a cada minuto, e como esses dados estão alimentando a inovação. Além disso, pela primeira vez, o escopo foi expandido para fornecer um instante (snapshot) de dados em vários setores, incluindo tecnologia, mídia, varejo, serviços financeiros, viagens e mídia social.

18-domo-data-never-sleeps-6

Focando especificamente no cerne deste artigo e para ser breve e objetivo, é preciso citar alguns conceitos introdutórios como a diferenciação de dado, informação e conhecimento de acordo com a bibliografia recente, antes de entrar no tema principal.

Dados são fatos brutos coletados e normalmente armazenados. O dado pode ser analógico, transmitido por ondas que podem sofrer interferências eletromagnéticas, ou digital que é o dado transmitido em pacotes de bits(zeros e uns) independente de sua estrutura, origem ou destino. Apesar do Cientista de Dados trabalhar com ambos os tipos, atualmente o foco é o dado digital. Já a Informação é o dado analisado e munido de algum significado e o Conhecimento é a informação interpretada, compreendida e aplicada para um determinado fim.

Origem da Ciência de Dados

De acordo com o artigo “50 years of Data Science“, de David Danoho, a expressão Ciência de Dados originou-se em meados da década de 60 quando John Tukey iniciou uma provocação por uma reforma das estatísticas acadêmicas em seu artigo “The Future of Data Analysis“, publicado pela Princeton University e Bell Telephone Laboratories. Porém muitos especialistas da área, bem como pesquisadores da academia, assumem que a expressão Data Science foi cunhada de fato no início do século XXI por William S. Cleveland que, em 2001, escreveu o artigo “Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics.“. Posteriormente, em torno de um ano após o artigo de Cleveland, o Conselho Internacional para a Ciência começou a publicar o CODATA Data Science Journal junto ao seu Comitê de Dados para Ciência e Tecnologia a partir de abril de 2002. E em 2003, a Columbia University começou a publicar o Journal of Data Science. Tais publicações periódicas contribuíram para a popularidade da Ciência de Dados que atualmente é a área com maior procura dentro da tecnologia e ao mesmo tempo com a maior carência de profissionais qualificados.

O que é Ciência de Dados?

Segundo o instituto Brasileiro de Pesquisa e Análise de Dados(IBPAD), a Ciência de Dados é uma atividade interdisciplinar que concilia principalmente duas grandes áreas: Ciência da Computação e Estatística, além de ser aplicada como apoio em diferentes áreas do conhecimento, tais como: Medicina, Biologia, Economia, Comunicação, Ciências Políticas, etc.

Data_Science_VD

De acordo com o famoso Diagrama de Venn para Data Science acima, a ciência de dados é a interseção entre hacking skills, conhecimentos de estatística e matemática e competências significativas. Como cada um destes pontos de interseção abordam um mundo a parte que torna difícil descrever brevemente em um único artigo, não vou discorrer sobre cada um deles especificamente.

Segundo Amaral(2016) ciência de dados são os processos, modelos e tecnologias que estudam os dados durante todo o seu ciclo de vida, da produção ao descarte. Já Grus (2016) define bem objetivamente como a ciência direcionada para extração de conhecimento a partir de dados desorganizados. Partindo deste ponto sobre a extração de dados desorganizados, vale citar a definição do professor Luis Alfredo Vidal de Carvalho (Coppe/UFRJ – 2005) para mineração de dados:

“Trata-se de um conjunto de técnicas reunidas da Estatística e da Inteligência Artificial com o objetivo específico de descobrir conhecimento novo que por ventura esteja escondido em grandes massas de dados(big data) “

Mas como podemos definir a IA (Inteligência Artificial) citada? Apesar deste não ser o foco do artigo, vale citar para entendimento geral do tema principal que, segundo Isaias Lima, Carlos pinheiro e Flávia Santos (2014), a IA como ciência é uma área de pesquisa da própria ciência da computação com o objetivo de buscar métodos ou sistemas computacionais que possuam ou reforcem a capacidade de comportamentos inteligentes do ser humano. Genericamente seria prover a capacidade de sistemas computadorizados adquirir e armazenar conhecimentos, planejar eventos, resolver problemas, representar informações, comunicar-se por meio de linguagens coloquiais, ou seja, aprender como um ser humano.

E onde entra a expressão Big Data? Big Data já defini em outro artigo que você pode conferir aqui ou aqui.

Diante de tantas definições e variedades de definições, vale citar Marvin Minsky (The Society of Mind – 1985):

“O ato de forçar definições para as coisas que nós não entendemos geralmente causa mais danos do que benefícios. Além disso, apenas em lógica e matemática é que as definições detêm perfeitamente os conceitos. As coisas com as quais lidamos na vida prática são frequentemente muito complicadas para permitirem uma representação clara baseada em expressões compactas. Em todo caso, não podemos nos privar de buscar uma definição para as coisas, no sentido de entender o que elas são.”

O campo da ciência de dados foi extremamente fomentado devido ao advento da popularidade sobre o machine learning(aprendizado de máquina), o que exige o conhecimento de linguagens de programação aos profissionais que desejam adentrar na área.

4 Pilares fundamentais para se tornar um Cientista de Dados.

  1. Pensamento e raciocínio lógico matemático: é extremamente necessário ter a capacidade de realizar operações lógicas, ou seja, a capacidade de organizar dados ou informações para se obter um contexto, um significado e um resultado ou consequência.
  2. Matemática e Estatística: basicamente todos os algoritmos aplicados à machine learning são baseados em conceitos matemáticos e a estatística é característica intrínseca da ciência de dados.
  3. Conhecimento em Programação: extração de dados exige criatividade devido ao emaranhado de dados possíveis para um determinado fim e exige também formas viáveis para extração. Tanto a criatividade quanto a viabilidade são postas em prática a partir de programas oriundos do conhecimento de linguagens de programação, sendo a linguagem R e Python as principais. Porém há diversas outras utilizadas como Scala, Java e Julia, além de pacotes para análise de dados como Matlab, Octave, SPSS, SAS, IBM Watson Analytics e outros.
  4. Conhecimento em Banco de dados: todos os dados disponíveis podem ser armazenados, ainda que temporariamente, para produzirem o conhecimento necessário para determinado fim. Praticamente em quase todas as fases do ciclo de vida do dado pertencente à análises estarão relacionadas à bancos de dados, sejam estes relacionais ou não relacionais. É de extrema importância o conhecimento da linguagem SQL, de bancos de dados tradicionais, Data Warehouses, NoSQL, Hadoop, etc.

9 Certificações Acadêmicas Relevantes para Data Science

1 – Certificação de Ciência de Dados pela Universidade de Harvard (edX). Este programa de Certificação em Harvard ensinará a você os principais fundamentos da ciência de dados, incluindo R e aprendizado de máquina usando estudos de caso do mundo real para iniciar sua carreira em ciência de dados. Espalhado em 9 cursos, este programa imersivo está entre os melhores programas de mestrado on-line disponíveis na plataforma líder de e-learning edX. Os cursos que compõem este programa incluem R Básico, Visualização, Probabilidade, Inferência e Modelagem, Ferramentas de Produtividade, Wrangling, Regressão Linear, Aprendizado de Máquina seguido de um projeto Capstone para testar e testar tudo o que você aprende no curso. Duração: 9 cursos, 4 semanas por curso, 2-4 horas por semana. Avaliação: 4,6 de 5.

2 – Certificação em Ciência de Dados e Estatística pelo MIT (edX). Esta série de 5 cursos irá ajudá-lo a fortalecer sua base de ciência de dados, estatística e aprendizado de máquina. Você aprenderá a analisar big data e entender como fazer previsões baseadas em dados por meio de inferência estatística e modelagem probabilística para extrair dados significativos para a tomada de decisões. A jornada começará a partir dos fundamentos da probabilidade e da estatística antes de passar para técnicas de análise de dados e algoritmos de aprendizado de máquina. É aconselhável ter o nível universitário de cálculo, raciocínio matemático e proficiência em programação python para aproveitar ao máximo essa certificação. Você pode candidatar-se a uma variedade de funções após a conclusão desta certificação, incluindo a de um cientista de dados, analista de dados e analista de sistema, para citar alguns. Duração: 5 cursos, 2 a 16 semanas por curso. Avaliação: 4,6 de 5.

3 – Certificação de Aprendizado de Máquina pela Stanford University (Coursera). Stanford Coursera Course Andrew Ng, ex-chefe do Google Brain e Baidu AI Group criou este curso junto com outros professores da Universidade de Stanford. É um dos mais procurados cursos e certificações em torno de aprendizado de máquina disponível online. Você aprenderá sobre Aprendizado supervisionado, Aprendizado não supervisionado, entre outras áreas-chave, e o curso inclui vários estudos de caso e aplicativos para ajudá-lo a aprender como aplicar algoritmos para construir robôs inteligentes. Este é um dos melhores cursos de ciência de dados que você pode optar. Duração: 55 horas. Classificação: 4.9 de 5.

4 – Data Science MicroMasters Certificação pela UC SanDiego (edX). Esta é essencialmente uma versão on-line de um programa de mestrado em Ciência de Dados pela UC San Diego, onde professores e instrutores da universidade irão transmitir conhecimento on-line. Espalhado por vários meses, isso é ideal para estudantes e profissionais que procuram um programa de aprendizado imersivo que se aprofunde nos conceitos de ciência de dados. O curso que compõe este programa inclui Python para Data Science, Probabilidade e Estatística, Fundamentos de Aprendizado de Máquina e Análise de Big Data usando o Spark. Uma equipe de 5 instrutores, todos da UC San Diego, farão essas aulas. Duração: 4 cursos, 10-15 semanas por curso. Avaliação: 4.7 de 5.

5 – Ciência de dados aplicada com certificação Python (University of Michigan). Este é um programa de 5 cursos da Universidade de Michigan que o ajudará a aprender ciência de dados através da linguagem de programação python. Você precisará ter conhecimentos básicos de Python e aprenderá sobre kits de ferramentas populares de python, como pandas, matplotlib, nltk e networkx, entre outros, para entender os dados. Em particular, os 5 cursos cobrirão Plotagem Aplicada, Representação de Dados e Gráficos em Python, Aprendizagem Automática Aplicada em Python, Mineração de Texto Aplicada em Python e Análise de Redes Sociais Aplicadas em Python. Você será ensinado por Christopher Brooks, Kevyn Collins-Thompson, Daniel Romero e V. G. Vinod Vydiswaran. Avaliação: 4.5 de 5.

6 – Certificação de Ciência de Dados de John Hopkins (Coursera). Este curso de certificação da John Hopkins irá ajudá-lo a lançar a sua carreira na Data Science. Consiste em uma introdução de nove cursos à ciência de dados, desenvolvida e ensinada por professores renomados, incluindo Roger D. Peng, PhD Professor Associado, Bioestatística; Brian Caffo, PhD e Jeff Leek, PhD Professor Associado, Bioestatística. Neste programa, você aprenderá sobre programação, obtenção e limpeza de dados, análise exploratória de dados, pesquisa reproduzível e inferência estatística entre as outras áreas. O treinamento será seguido por um Projeto Capstone, onde você criará um produto de dados usando dados do mundo real. Nossa equipe de especialistas acredita que essa é uma das melhores certificações de cientistas de dados que você encontrará na web. Avaliação: 4.5 de 5.

7 – Estatísticas com certificação R da Duke University. Esteja pronto para se surpreender com os excelentes professores da Duke, incluindo Mine Çetinkaya Rundel, David Banks, Colin Rundel e Merlise A Clyde neste curso onde você aprenderá tudo sobre Estatística Bayesiana, Regressão Linear e Modelagem, Estatística Inferencial e Probabilidade e Dados. É uma especialização de nível iniciante e você não precisa de nenhuma experiência anterior para se inscrever para esta. Avaliação: 4.7 de 5.

8 – Mestrado de Ciência da Computação em Ciência de Dados Online (Illinois). Este Mestrado em Ciência da Computação em Ciência de Dados (MCS-DS) é um grau em linha de Illinois. Você será ensinado a construir visualização de dados especializados, aprendizado de máquina, mineração de dados e computação em nuvem. É oferecido em colaboração com o Departamento de Estatística da Universidade e o iSchool mais bem classificado. Multidão de empresários, educadores e gênios técnicos se formaram nessa escola. Este é um dos poucos cursos de graduação em Ciência de Dados disponíveis on-line. Avaliação: 4.5 de 5.

9 – Especialização em Ciência de Dados e Big Data. Através de disciplinas teóricas e práticas, os alunos são conduzidos a estudar e experimentar os conceitos, vivenciando a aplicação de técnicas para desenvolvimento de projetos relacionados a Ciência de Dados e Big Data com o intuito de gerar valor para os negócios. O curso visa formar cientistas de dados aperfeiçoando as habilidades mais importantes. 

4 Certificações Profissionais Relevantes para Data Science

1 – Certificado do IBM Data Science Professional (Coursera). Se você decidiu seguir uma carreira em Ciência de Dados ou aprendizado de máquina, então este é um bom lugar para começar. Esta certificação consiste em uma série de 9 cursos que ajudam você a adquirir habilidades necessárias para trabalhar nos projetos disponíveis no setor. As palestras abrangem uma ampla gama de tópicos, incluindo visualização de dados, análise, bibliotecas e ferramentas de código aberto. No final do programa, você terá várias tarefas e projetos para mostrar suas habilidades e aprimorar seu currículo. Duração: 3 a 5 semanas por curso, 2 a 7 horas por semana. Avaliação: 4,6 de 5.

2 – Programa Profissional Microsoft em Ciência de Dados (edX). Este programa profissional da Microsoft consiste em 9 cursos além de um projeto e levará cerca de 16 a 32 horas por curso. É um programa de 10 cursos e você também pode escolher cursos individuais, se quiser. Você aprenderá a usar o Microsoft Excel para explorar dados, usar o Transact-SQL para consultar um banco de dados relacional, criar modelos de dados usando o Excel ou o Power BI, aplicar métodos estatísticos a dados e usar R ou Python para explorar e transformar dados. . O programa é dividido em 4 unidades principais, que consistem ainda em 10 cursos. Tudo é seguido por um projeto para ajudá-lo a aplicar tudo o que aprender durante a duração deste curso. Avaliação: 4.5 de 5.

3 – Aprendizagem Profunda (Deep Learning) Certificação por deeplearning.ai. Aprenda como construir redes neurais e conduzir projetos de aprendizado de máquina bem-sucedidos nesta especialização de 5 cursos em deeplearning.ai. Você será ensinado sobre Python, Tensor Flow, RNNs, LSTM, Adam, Convolutional Networks e Xavier, entre outros aspectos. O programa é ministrado por Andrew Ng, co-fundador da Coursera & Adjunct Professor da Stanford University; Younes Bensouda Mourri, Ciências Matemáticas e de Computação, Stanford University e Kian Katanforoosh, Professor Adjunto da Universidade de Stanford, deeplearning.ai, Ecole Centrale Paris. Este é um dos programas mais procurados em Deep Learning disponível online. Classificação: 4.9 de 5.

4 – Curso de engenharia de dados – Google Cloud (Coursera). Esta certificação de engenharia de dados, projetada por especialistas do Google Cloud, ajudará você a dominar projetos de sistemas para o processamento de dados. Você aprenderá como implementar várias técnicas de aprendizagem de máquina e analise dados. Você trabalhará com dados estruturados, não estruturados e de fluxo contínuo. Este curso não é recomendado para iniciantes, mas destinado a alunos intermediários que desejam obter experiência neste domínio. Duração: 5 semanas, 6 a 12 horas por semana. Avaliação: 4,6 de 5.

Considerações Finais

Pode-se perceber que a ciência de dados é realmente interdisciplinar e necessita de uma gama de conhecimentos que podem ser direcionados para determinada área de atuação. Esta necessidade de se dominar o negócio, a matemática, a estatística, a programação, bancos de dados e ferramentas de visualização de dados acaba por exigir uma melhor qualificação dos profissionais, o que gera a escassez atual deste profissional. Porém é totalmente plausível a inserção nesta área caso haja dedicação para desenvolvimento de novas habilidades técnicas ou aprimoramentos do negócio. De qualquer forma o futuro permeia a ciência de dados e não há como fugir desta realidade.

Se desejar alguma sugestão de bibliografia para leitura sobre determinados temas da ciência de dados deixe nos comentários que responderei com os livros que já tive contato e o link de onde adquiri-los.

Este breve artigo serve apenas para trazer alguma luz sobre o tema e não visa de maneira alguma destrinchar tudo sobre a ciência de dados e nem abordar as questões polêmicas sobre o tema. Críticas construtivas são bem-vindas.

Renan Saisse

Mais artigos deste autor »

Cientista de Dados especialista em relacionamento digital na Oi S.A com mais de 10 anos de experiência em TI e Telecom, Pesquisador na Comunidade Blockchain Brasil, Membro do Grupo de Estudos em Aplicações Blockchain de Interesse Público do Instituto de Tecnologia e Sociedade do Rio de Janeiro (ITS Rio), Articulista em sites especializados de TI, tendo atuado anteriormente como Analista de Sistemas, Auditor de Tecnologias/Operações e Gerente de Projetos de Tecnologia nas áreas de Faturamento, Co-Faturamento, AntiFraude, Revenue Assurance e Roaming Internacional.

Graduado em Análise e Desenvolvimento de Sistemas, Pós-Graduado em Prevenção e Investigação de Crimes Digitais e em Perícia Forense Aplicada à Informática. Atualmente Acadêmico do curso de Bacharel em Direito na UFRJ.

Possui cursos de extensão em Ciência Política (USP/Veduca), Direito Digital (EMERJ), Linguagem de Programação Python (Harvard/EDX) e Ethical Hacking. Certificado em ITIL V3, Cobit V4.1. Endereço eletrônico: [email protected]


2 Comentários

Alexandre
1

Bom dia
Gostei muito do seu artigo ,estou querendo iniciar nesta área e já tenho procurado cursos e artigos ,como citou acima que se desejasse alguma sugestão de bibliografia para leitura sobre determinados temas da ciência de dados era só solicitar ,gostaria e agradeceria muito .
Att

Rosana
2

Boa tarde, Saisse!
Artigo interessante. Quero me especializar na área. Poderia por gentileza me enviar bibliografias e se há pós stricto sensu em Universidades Públicas no Brasil ?
Agradeço demais sua gentileza.
Parabéns pela matéria.
Abraço.

Deixe seu comentário

Seu endereço de e-mail não será publicado. Campos com * são obrigatórios!