Por Marcell Biemann, arquiteto de Soluções Analíticas da Via Consulting

Assim como acontece nas pesquisas acadêmicas, para a ciência dos dados devemos seguir rigorosamente uma metodologia científica. Utilizar ferramentas interativas como os Notebooks nos ajudam nisso. Siga com a leitura do quarto texto da série sobre “Dados”.

“The good thing about science is that it’s true whether or not you believe in it.”
Neil deGrasse Tyson

Exploração e indisciplina são incompatíveis. A ciência de dados deve ser disciplinada. Porém, isso não significa ser constrangedora, sem imaginação ou burocrática. Algumas empresas contratam cientistas de dados, os colocam em cubículos e esperam resultados instantâneos. Já outras empresas os colocam para trabalhar no departamento de TI, focados em operação – e não em exploração e inovação.

Uma empresa brasileira moderna do setor financeiro, com a cultura de utilização de dados nas decisões desde a sua fundação, possui de 15 a 20 cientistas de dados: são economistas, físicos, engenheiros, estatísticos, entre outros. Eles ficam espalhados em duplas ou trios pelos diversos departamentos da empresa (Cobranças, CRM, Marketing, etc). Existem compromissos semanais, quando todos se reúnem para compartilhar sobre o que estão trabalhando, trocar experiências e ler artigos.

Reproducibilidade e colaboração são essenciais na exploração dos dados e os Notebooks são as ferramentas indicadas para isso. A interface é inspirada nos cadernos de laboratório de pesquisa. Na pesquisa acadêmica, a metodologia, os resultados e as percepções dos experimentos são documentados sequencialmente em um caderno de laboratório físico. Esse estilo de documentação é um ajuste natural para a pesquisa acadêmica porque os experimentos devem ser inteligíveis, reproduzíveis e pesquisáveis. À medida que a pesquisa começou a fazer a transição para ambientes computacionais, o caderno do laboratório sofreu uma transformação virtual. A primeira interface computacional foi introduzida há quase 30 anos na forma do Mathematica. Desde a concepção do Mathematica, presenciamos uma proliferação de Notebooks, como Jupyter, MATLAB, R Markdown e Apache Zeppelin, para citar alguns.

Uma ciência de dados madura é construída sobre a base do método científico. Primeiro, faça observações – colete os dados para entender seu negócio. Incorpore sistemas de medição, processos ou pessoas em locais apropriados do seu fluxo de trabalho. Pense em questões interessantes para explorar e formule hipóteses testáveis com seus parceiros de negócios. Depois de ter um bom conjunto de perguntas e hipóteses, teste-as – analise os dados, desenvolva um modelo ou crie um novo algoritmo para validar cada hipótese, refine e repita. Essa metodologia garantirá que o valor seja criado quando um rigor científico formal for aplicado. Esse é um sinal inegável de uma capacidade madura de ciência de dados.

  • Faça uma pergunta
  • Faça uma pesquisa de fundo
  • Construa uma hipótese
  • Teste sua hipótese fazendo uma experiência
  • Analise seus dados e tire uma conclusão
  • Comunique seus resultados

Uma parte fundamental do processo científico é conhecer os limites da sua amostra. A chave é procurar e testar o “viés de seleção” – forma como os sujeitos foram selecionados. Também é importante entender que “big data” não resolve o problema de amostras incompletas (amostragem injusta) ou variação amostral (diversidade natural).

 


Fontes:
• www.oreilly.com/data/free/files/ten-signs-of-data-science-maturity.pdf
• blog.modeanalytics.com/data-science-notebook-love-story/

CADASTRE-SE AGORA MESMO

Preencha com o seu email e receba as atualizações do ViaBlog.