Técnicas de análise de dados para a tomada de decisão
7.1 Introdução
A análise de dados é uma técnica crucial na tomada de decisão em empresas e organizações. Com o aumento exponencial da quantidade de dados disponíveis, é importante compreender as técnicas de análise de dados e como elas podem ser aplicadas na tomada de decisões.
Neste capítulo, discutiremos algumas das principais técnicas de análise de dados utilizadas na tomada de decisão, incluindo a análise exploratória de dados, modelagem estatística, análise de regressão, e técnicas de aprendizado de máquina.
7.2 Análise exploratória de dados
A análise exploratória de dados é uma técnica utilizada para explorar e entender os dados disponíveis. Ela é uma das primeiras etapas na análise de dados e pode ajudar a identificar padrões e tendências nos dados. As técnicas utilizadas na análise exploratória de dados incluem gráficos, tabelas de frequência e estatísticas descritivas.
Uma das principais vantagens da análise exploratória de dados é a possibilidade de descobrir informações relevantes que podem ser utilizadas na tomada de decisão. Por exemplo, por meio dessa técnica, é possível identificar relações entre variáveis que não eram conhecidas anteriormente, o que pode levar a novas estratégias ou soluções.
Entre as técnicas utilizadas na análise exploratória de dados, destacam-se a análise de distribuição de frequência, a análise de correlação e a análise de regressão. A análise de distribuição de frequência permite entender a distribuição dos dados, a análise de correlação busca identificar as relações entre as variáveis e a análise de regressão busca entender a relação entre uma variável dependente e uma ou mais variáveis independentes.
Autores acadêmicos como Tufte (2001), Cleveland (1993) e Tukey (1977) são referências na área de análise exploratória de dados, apresentando técnicas e métodos para visualização e interpretação dos dados.
Com a crescente disponibilidade de dados, a análise exploratória de dados se torna cada vez mais relevante na tomada de decisão. Por meio dessa técnica, é possível obter insights valiosos para solucionar problemas e tomar decisões mais fundamentadas e eficientes.
7.2.1 Exemplo prático de Análise exploratória de dados como ferramenta de tomada de decisão
Um exemplo prático de análise exploratória de dados é a identificação de outliers em um conjunto de dados. Suponha que temos um conjunto de dados com as seguintes informações sobre o salário de 10 funcionários de uma empresa:
R$ 2.500,00; R$ 2.800,00; R$ 3.200,00; R$ 3.500,00; R$ 3.600,00; R$ 3.700,00; R$ 3.900,00; R$ 10.000,00; R$ 12.000,00; R$ 15.000,00.
Podemos utilizar algumas medidas descritivas para analisar esses dados, como a média e o desvio padrão. A média do salário desses funcionários é de R$ 6.720,00 e o desvio padrão é de R$ 4.202,00.
Ao observar esses dados, podemos notar que existem dois valores que destoam do restante do conjunto: R$ 12.000,00 e R$ 15.000,00. Esses valores são considerados outliers, ou seja, valores que se encontram muito distantes do restante do conjunto e podem afetar a análise dos dados.
Podemos utilizar a fórmula do coeficiente de variação (CV) para identificar valores que possam ser considerados outliers. O CV é uma medida relativa de dispersão e é calculado pela razão entre o desvio padrão e a média, multiplicado por 100. Um valor de CV acima de 30% pode indicar uma alta dispersão dos dados e a presença de outliers.
Nesse exemplo, o CV é de 62,5%, o que indica uma alta dispersão dos dados e a presença de outliers.
Ao identificar os outliers, podemos tomar decisões quanto à forma como esses valores serão tratados em nossa análise de dados. Por exemplo, podemos excluir esses valores do conjunto de dados ou considerá-los separadamente em nossa análise. A análise exploratória de dados é uma importante ferramenta para a tomada de decisão em análise de dados, pois permite uma análise mais detalhada e uma compreensão mais completa dos dados em questão.
7.3 Modelagem estatística
A modelagem estatística é uma técnica utilizada para criar modelos que descrevem as relações entre as variáveis. Ela é uma técnica útil na tomada de decisões porque permite a identificação de fatores que influenciam os resultados e como eles interagem entre si. As técnicas de modelagem estatística incluem análise de variância, análise de covariância e modelos de regressão.
A modelagem estatística é uma ferramenta poderosa na tomada de decisão, permitindo que os tomadores de decisão obtenham insights valiosos sobre os dados e os processos subjacentes a eles. A modelagem estatística envolve a construção de modelos matemáticos que podem ser usados para descrever e prever o comportamento de um conjunto de dados. Esses modelos podem ajudar a identificar padrões e tendências, bem como a identificar relações de causa e efeito entre diferentes variáveis.
Um exemplo comum de modelagem estatística é a regressão linear, que envolve a criação de uma equação matemática que relaciona duas ou mais variáveis. A partir dessa equação, é possível prever o valor de uma variável com base nos valores de outras variáveis. A regressão linear é frequentemente usada em pesquisas de mercado e análise de dados de vendas para identificar relações entre fatores como preço, publicidade e volume de vendas.
Outra técnica de modelagem estatística é a análise de séries temporais, que é usada para prever valores futuros com base em dados históricos. Essa técnica é comumente usada em finanças para prever o comportamento do mercado de ações, bem como em outras áreas, como previsão de demanda.
Autores acadêmicos que se destacam na área de modelagem estatística incluem George Box, que escreveu "Statistics for Experimenters: An Introduction to Design, Data Analysis, and Model Building" em 1978, e Judea Pearl, que desenvolveu o modelo de redes causais e escreveu o livro "Causality: Models, Reasoning, and Inference" em 2000.
7.3.1 Exemplo prático de Modelagem estatística como ferramenta de tomada de decisão
Vamos supor que uma empresa queira lançar um novo produto no mercado e precise prever as vendas desse produto. A modelagem estatística pode ser utilizada para criar um modelo preditivo de vendas.
Para isso, é possível utilizar uma técnica chamada regressão linear simples. O objetivo da regressão linear é encontrar uma relação linear entre duas variáveis, no caso, a quantidade vendida do produto e uma variável explicativa, que pode ser o preço do produto, por exemplo.
Suponha que a empresa tenha coletado dados de vendas e preços de produtos similares no mercado nos últimos 12 meses. Esses dados estão na tabela abaixo:
Mês
|
Quantidade Vendida
|
Preço
|
1
|
50
|
10
|
2
|
45
|
11
|
3
|
55
|
9
|
4
|
60
|
8
|
5
|
65
|
7
|
6
|
70
|
6
|
7
|
75
|
5
|
8
|
80
|
4
|
9
|
85
|
3
|
10
|
90
|
2
|
11
|
95
|
1
|
12
|
100
|
0
|
Para realizar a regressão linear, é preciso calcular a média e o desvio padrão das variáveis. Assim, temos:
Média de quantidade vendida: 70.42
Desvio padrão de quantidade vendida: 18.22
Média de preço: 5.5
Desvio padrão de preço: 3.2
A equação da regressão linear é dada por:
Quantidade vendida = intercepto + coeficiente * preço + erro
O intercepto é o valor da quantidade vendida quando o preço é zero. Nesse caso, não faz sentido, pois não há produtos com preço zero. Portanto, vamos desconsiderar o intercepto e assumir que a reta passa pela origem.
O coeficiente é a inclinação da reta, ou seja, a variação na quantidade vendida para cada unidade de variação no preço. Para calcular o coeficiente, é preciso utilizar a fórmula:
coeficiente = cov(q, p) / var(p)
Onde cov(q, p) é a covariância entre quantidade vendida e preço, e var(p) é a variância do preço.
Calculando esses valores, temos:
cov(q, p) = -353.5
var(p) = 10.24
coeficiente = -34.56
Assim, a equação da regressão linear fica:
Quantidade vendida = -34.56 * preço
Com essa equação, é possível prever a quantidade vendida para um determinado preço. Por exemplo, se o preço for R$ 9,00, a previsão é que sejam vendidas 311 unidades do produto (quantidade vendida = -34.56 * 9 = -311.04). Claro que esse modelo é apenas uma previsão e não garante que as vendas serão exatamente iguais às previstas, mas pode ser útil para orientar a tomada de decisão da empresa em relação ao lançamento do produto e definição do preço.
7.4 Análise de regressão
Conforme descrito no itens anterior onde foi dado um exemplo de análise de regressão como técnica de modelagem estatísitica, a análise de regressão é uma técnica utilizada para identificar a relação entre duas ou mais variáveis. Ela é uma técnica útil na tomada de decisões porque permite a identificação de fatores que influenciam os resultados e como eles interagem entre si. As técnicas de análise de regressão incluem regressão linear simples e múltipla, regressão logística e análise de sobrevivência.
Um dos principais autores na área de análise de regressão é o estatístico inglês Sir Ronald Fisher, que desenvolveu os conceitos fundamentais da análise de regressão e da análise de variância (ANOVA) no início do século XX. Outro autor importante é o americano Frank Ramsey, que foi um dos primeiros a aplicar a análise de regressão na economia.
A análise de regressão é uma ferramenta estatística utilizada para avaliar a relação entre duas ou mais variáveis quantitativas. Essa técnica pode ser utilizada em diversas áreas, como economia, ciências sociais, biologia, entre outras.
Suponha que uma empresa queira entender a relação entre o preço de seus produtos e o número de unidades vendidas em um determinado período. Para isso, é possível coletar os dados de preços e vendas em um conjunto de amostras aleatórias. Os dados coletados são apresentados na tabela abaixo:
Preço (R$)
|
Unidades vendidas
|
5
|
10
|
7
|
15
|
10
|
20
|
12
|
25
|
15
|
30
|
Para realizar a análise de regressão, é necessário identificar a variável dependente (no caso, o número de unidades vendidas) e a variável independente (o preço do produto). O objetivo é identificar se há uma relação linear entre as duas variáveis e, caso positivo, determinar a equação da reta que melhor se ajusta aos dados.
Para realizar a análise, podemos utilizar um software estatístico como o Excel ou o R. No Excel, podemos usar a função "REGR" para obter os parâmetros da equação da reta. A equação geral da reta é dada por:
y = a + bx
Onde "y" é a variável dependente, "x" é a variável independente, "a" é o intercepto da reta e "b" é o coeficiente angular.
Aplicando a função REGR no Excel, encontramos os valores de "a" e "b" que melhor se ajustam aos dados:
Preço (R$)
|
Unidades vendidas
|
5
|
10
|
7
|
15
|
10
|
20
|
12
|
25
|
15
|
30
|
Média 20
Desvio padrão 8,06
Coeficiente de correlação 0,9881
Intercepto (a) -1,1429
Coeficiente angular (b) 2,4286
Com base nos resultados acima, a equação da reta que melhor se ajusta aos dados é:
y = -1,1429 + 2,4286x
Essa equação pode ser utilizada para prever o número de unidades vendidas para qualquer preço dentro do intervalo observado. Por exemplo, se a empresa decidir vender o produto por R$ 8,00, a previsão de unidades vendidas seria:
y = -1,1429 + 2,4286 * 8 = 18,2857
Portanto, a análise de regressão permite avaliar a relação entre duas variáveis quantitativas e, com base nessa relação, prever valores futuros para a variável dependente. É uma ferramenta importante para tomada de decisão em diversas áreas, como vendas, marketing, finanças, entre outras.
7.5 Técnicas de aprendizado de máquina
As técnicas de aprendizado de máquina são uma classe de técnicas que utilizam algoritmos para encontrar padrões nos dados. Elas são úteis na tomada de decisão porque podem identificar padrões que não seriam facilmente detectados por técnicas estatísticas tradicionais. As técnicas de aprendizado de máquina incluem árvores de decisão, redes neurais e algoritmos de clustering.
Alpaydin (2010) apresenta uma introdução geral ao aprendizado de máquina, abordando desde conceitos básicos até técnicas mais avançadas, com ênfase em aplicações práticas em diversas áreas.
Hastie, Tibshirani e Friedman (2009) fornecem uma visão geral da teoria estatística por trás do aprendizado de máquina, com ênfase na modelagem de dados complexos e na identificação de padrões relevantes para a tomada de decisões.
Goodfellow, Bengio e Courville (2016) concentram-se em técnicas de aprendizado profundo (deep learning), que são baseadas em redes neurais artificiais de múltiplas camadas. O livro aborda tanto a teoria quanto as aplicações práticas de deep learning em áreas como visão computacional e processamento de linguagem natural.
Bishop (2006) também aborda o tema do aprendizado de máquina a partir de uma perspectiva estatística, apresentando uma ampla variedade de técnicas e algoritmos de aprendizado supervisionado e não supervisionado, com ênfase em modelagem probabilística e inferência Bayesiana.
7.5.1 Exemplo prático de técnicas de aprendizado de máquina como ferramenta de tomada de decisão:
Suponha que você trabalhe em uma empresa de e-commerce e precisa identificar quais produtos têm maior probabilidade de serem comprados pelos clientes, com base em dados históricos de compras. Para isso, você pode utilizar técnicas de aprendizado de máquina, como a regressão logística.
Primeiramente, colete dados sobre as compras dos clientes, incluindo informações como idade, gênero, localização geográfica, categoria de produto, preço, entre outros. Organize esses dados em um conjunto de dados e divida-o em dois conjuntos: um conjunto de treinamento e um conjunto de teste.
Em seguida, treine o modelo de regressão logística com o conjunto de treinamento, usando as variáveis relevantes para prever a probabilidade de um cliente comprar um determinado produto. O modelo pode ser expresso por meio da seguinte equação:
P(compra) = 1 / (1 + exp(-z))
Onde z é a soma ponderada das variáveis do modelo, cada uma multiplicada por um coeficiente (w). Por exemplo, se as variáveis do modelo forem idade, gênero e preço, a equação pode ser expressa como:
z = w1 * idade + w2 * genero + w3 * preco
Os coeficientes (w) são ajustados automaticamente pelo modelo durante o treinamento, de forma a maximizar a probabilidade de acerto nas previsões.
Após o treinamento, avalie o desempenho do modelo utilizando o conjunto de teste. Calcule a taxa de acerto e a matriz de confusão para verificar se o modelo é capaz de prever corretamente as compras dos clientes.
Com base nos resultados, é possível identificar quais produtos têm maior probabilidade de serem comprados pelos clientes, e assim direcionar estratégias de marketing e promoção para esses produtos.
Conclusão
A análise de dados é uma técnica importante na tomada de decisão em empresas e organizações. Com a quantidade crescente de dados disponíveis, é importante compreender as técnicas de análise de dados e como elas podem ser aplicadas na tomada de decisão. As técnicas discutidas neste capítulo incluem análise exploratória de dados, modelagem estatística, análise de regressão e técnicas de aprendizado de máquina. A escolha da técnica adequada depende dos dados disponíveis e do problema a ser resolvido.
Referências bibliográficas:
ALPAYDIN, E. Introdução à aprendizagem de máquina. São Paulo: LTC, 2010.
BOX, G. E. P.; HUNTER, W. G.; HUNTER, J. S. Statistics for experimenters: An introduction to design, data analysis, and model building. New York: Wiley, 1978.
BISHOP, C. M. Pattern recognition and machine learning. New York: Springer, 2006.
CLEVELAND, William S. Visualizing data. Summit, NJ: Hobart Press, 1993.
DRAPER, N. R.; SMITH, H. Applied regression analysis. 3. ed. New York: Wiley, 1998.
FISHER, R. A. On the "probable error" of a coefficient of correlation deduced from a small sample. Metron, v. 1, n. 3, p. 1-32, 1921.
GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A. Deep learning. Cambridge: MIT Press, 2016.
HAIR JR, J. F.; BLACK, W. C.; BABIN, B. J.; ANDERSON, R. E. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009.
HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The elements of statistical learning: data mining, inference, and prediction. 2. ed. New York: Springer, 2009.
JAMES, G.; WITTEN, D.; HASTIE, T.; TIBSHIRANI, R. Introdução à mineração de dados: com aplicações em R. Porto Alegre: Bookman, 2014.
KUTNER, M. H. et al. Modelos de regressão linear aplicados. Porto Alegre: Bookman, 2004.
MONTGOMERY, D. C.; PECK, E. A.; VINING, G. G. Introdução à análise de regressão linear. Porto Alegre: Bookman, 2012.
PEARL, J. Causality: Models, Reasoning, and Inference. Cambridge: Cambridge University Press, 2000.
RAMSEY, F. P. A mathematical theory of saving. The Economic Journal, v. 38, n. 152, p. 543-559, 1928.
TUFTY, Edward R. The visual display of quantitative information. 2. ed. Cheshire, Connecticut: Graphics Press, 2001.
TUKEY, John W. Exploratory data analysis. Reading, Mass: Addison-Wesley Pub. Co., 1977.