Optativa 2: O que é Ciência de Dados?

A área conhecida como Ciência de Dados (do inglês, Data Science) é amplamente divulgada como uma área de trabalho “nova”. No entanto, o termo surgiu pela primeira vez na década de 60 como um nome alternativo para estatísticas, sendo formalizado apenas no final da década de 1990 por profissionais de ciência da computação (Amazon Web Services, 2025). Por exemplo, John Tukey, sob a denominação Análise Exploratória de Dados (Exploratory Data Analysis), foi um dos primeiros a chamar a atenção para o que hoje é conhecido como Ciência de Dados.

É importante notar que, embora o termo Ciência de Dados seja novo, a relação com a Estatística é profunda e histórica. Segundo Morettin e Singer (2022, p. 09, ebook), quando fazemos uma análise mais aprofundada da disciplina percebemos que ela consiste “principalmente na aplicação de algumas técnicas estatísticas a problemas que exigem grande capacidade computacional”. Muitos tópicos centrais da Ciência de Dados, como Árvores de Decisão e Algoritmos de Suporte Vetorial (do inglês, Support Vector Machines), surgiram na literatura estatística ou em campos relacionados, mas só puderam ser aplicados em larga escala graças ao avanço da capacidade computacional.

De fato, muitos modelos empregados neste campo estavam disponíveis (e esquecidos) na literatura estatística há décadas, mas não eram aplicados em larga escala devido a limitações computacionais (Morettin e Singer, 2022). Assim, podemos dizer que a Ciência de Dados é como uma disciplina multidisciplinar que combina técnicas da Estatística e da Ciência da Computação. Segundo Blei e Smyth (2017), a Ciência de Dados pode ser entendida sob três perspectivas: estatística, computacional e humana.

Perspectiva Estatística

A Estatística é fundamental para o trabalho do cientista de dados, guiando a coleta e a análise de dados complexos. Muitos tópicos negligenciados tradicionalmente por estatísticos, como aqueles envolvendo dados de natureza não ortodoxa (imagens, sons e outros), agora são abordados, mas o tratamento ainda não pode prescindir do componente estatístico.

A Estatística atua no entendimento das relações entre as características dos dados e a população da qual foram obtidos, o que é conhecido como Inferência Estatística. O Aprendizado com Estatística (do inglês, Statistical Learning) e o Aprendizado Automático (do inglês, Machine Learning) estão associados ao uso de modelos estatísticos acoplados a algoritmos computacionais para extrair informação de grandes conjuntos de dados.

Perspectiva Computacional

A Ciência da Computação contribui desenvolvendo algoritmos para extrair informações de conjuntos de dados e para distribuir e armazenar conjuntos de dados em múltiplos processadores e equipamentos com grande capacidade de memória, proporcionando velocidade de cálculo. O interesse na área muitas vezes se dirige ao desenvolvimento de algoritmos para “aprender” a partir dos dados.

Outro equívoco comum é imaginar que a Ciência de Dados tradicional trata apenas de pequenos volumes de dado), quando, na verdade, ela também pode lidar com grandes conjuntos. Estes grandes conjuntos de dados são conhecidos como Big Data.

Perspectiva Humana

Em relação ao contexto humano, os modelos estatísticos e os métodos computacionais são combinados por cientistas de dados para resolver problemas específicos de outras áreas do conhecimento humano (Morettin e Singer, 2022). De forma simplificada, pode-se dizer que a atividade de Ciência de Dados envolve os seguintes processos:

  • Ter um problema a ser resolvido com questões claramente especificadas.
  • Obter um conjunto de dados e os meios para sua obtenção e organização.
  • Especificar o problema original em termos das variáveis do conjunto de dados.
  • Descrever e resumir os dados à luz do problema.
  • Escolher as técnicas estatísticas apropriadas para a resolução.
  • Apresentar os resultados.

Devido à complexidade, especialmente com grandes conjuntos de dados que podem incluir imagens e sons, é necessária uma equipe formada por profissionais de diferentes áreas, como estatísticos, especialistas em banco de dados e especialistas em algoritmos computacionais, além de um profissional da área do conhecimento onde o problema se insere.

Aplicações e Técnicas em Ciência de Dados

As principais aplicações da Ciência de Dados são agrupadas em quatro categorias, conforme Morettin e Singer (2022):

  • Previsão (Prediction): técnica usada para estimar valores futuros com base em dados históricos. Geralmente aplicada em problemas de regressão, a previsão busca identificar padrões nos dados para antecipar resultados contínuos, como vendas futuras, temperatura ou preços.
  • Classificação (Classification): utilizada para atribuir categorias ou rótulos a dados com base em suas características. Utilizada em problemas de decisão, como identificar e-mails como “spam” ou “não spam”, a classificação envolve o treinamento de um modelo com exemplos rotulados.
  • Redução da Dimensionalidade: técnica que visa a diminuir o número de variáveis (ou atributos) de um conjunto de dados, mantendo ao máximo a informação relevante. É útil para visualizar dados complexos, melhorar a performance de algoritmos e reduzir o ruído.
  • Agrupamento (Clustering): método que organiza dados em grupos (clusters) com base na similaridade entre eles, sem usar rótulos prévios. Cada grupo contém itens semelhantes entre si e diferentes dos itens de outros grupos.

No contexto do Aprendizado com Estatística, essas aplicações são divididas em duas classes: 1) técnicas de Aprendizado Supervisionado, relacionado à previsão (variável resposta numérica) e classificação (variável resposta qualitativa); e 2) técnicas de Aprendizado Não Supervisionado, onde não há distinção entre variáveis preditoras e respostas, e o objetivo é descrever associações e padrões, agrupar unidades de investigação ou reduzir a dimensionalidade.

Considerações finais

A disciplina Ciência de Dados combina técnicas de Estatística e Ciência da Computação com conhecimentos específicos de um determinado assunto para descobrir insights que nos permitam agir de forma mais incisiva com base nos dados disponíveis (IBM, 2025).

Conforme Blei e Smyth (2017), o campo da ciência de dados exige que os profissionais compreendam o contexto dos dados, reconheçam as responsabilidades envolvidas no uso de dados e comuniquem claramente o que um conjunto de dados pode ou não informar sobre o mundo ao nosso redor. Portanto, aquele que deseja entrar nesta área deve buscar se capacitar nas habilidades técnicas e interpessoais.

Obrigado pela leitura e bons estudos.

Referências

AMAZON WEB SERVICES. AWS: O que é ciência de dados? – Explicação sobre ciência de dados. Disponível em: https://aws.amazon.com/pt/what-is/data-science/. Acesso em: 18 out. 2025.

BLEI, David M.; SMYTH, Padhraic. Science and data science. Proceedings of the National Academy of Sciences, v. 114, n. 33, p. 8689-8692, 2017.

IBM. O que é ciência de dados?. Disponível em: https://www.ibm.com/br-pt/think/topics/data-science. Acesso em: 18 out. 2025.

MORETTIN, Pedro Alberto; SINGER, Julio da Motta. Estatística e ciência de dados. 1. ed. Rio de Janeiro: LTC | Livros Técnicos e Científicos Editora Ltda., 2022.