Analise de Regressão Simples – Exercício de Fixação

Enunciado
A atividade de fixação desta trilha será a resolução de alguns problemas de Análise de Regressão Simples utilizando o R. Problema 1 Para uma amostra de oito operadores de máquina, foram coletados o número de horas de treinamento (x) e o tempo necessário para completar o trabalho (y). Os dados coletados encontram-se na tabela abaixo:

Com estes dados, faça: a) Um gráfico de dispersão para os dados b) Determine o modelo de regressão linear simples entre as variáveis x e y, sendo y a variável resposta. c) Faça uma análise do modelo de regressão utilizando a função summary i: resíduos, significância estatística dos coeficientes, percentual de variância explicada pelo modelo. d) Trace, no gráfico anterior, a reta de regressão.

Resposta 1 – A) Um gráfico de dispersão para os dados x <- c(5.2, 5.1, 4.9, 4.6, 4.7, 4.8, 4.6, 4.9) y <- c(13 , 15 , 16, 20, 19, 17, 21, 16) dados <- data.frame(x = x, y = y) plot(x,y)

Verificamos que se trata de uma correlaçãolinear negativa: observando o gráfico da esquerda para a direita, verifica-se que, conforme a variável “x” aumenta (número de horas de treinamento), a variável “y” (o tempo necessário para completar o trabalho) diminui.
Resposta 1 – b) Determine o modelo de regressão linear simples entre as variáveis x e y, sendo y a variável resposta. mod <- lm(y ~ x, data = dados) mod ## ## Call: ## lm(formula = y ~ x, data = dados) ## ## Coefficients: ## (Intercept) x ## 74.90 -11.91 Aplicamos o comando de Regressão Linear com lm(y~x) Resposta 1 - c) Faça uma análise: Do modelo de regressão utilizando a função summary summary(mod) ## ## Call: ## lm(formula = y ~ x, data = dados) ## ## Residuals: ## Min 1Q Median 3Q Max ## -0.72059 -0.52941 -0.02941 0.27941 0.89706 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 74.897 5.514 13.58 9.88e-06 ***
## x -11.912 1.136 -10.49 4.42e-05 ***
## —
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1
##
## Residual standard error: 0.6624 on 6 degrees of freedom ## Multiple R-squared: 0.9483, Adjusted R-squared: 0.9396
## F-statistic: 110 on 1 and 6 DF, p-value: 4.416e-05

i: resíduos, significância estatística dos coeficientes, percentual de variância explicada pelo modelo.
Observando o p (p-value) e convertendo-o temos: (0,00004416) que é muito menor que os níveis de significância especificados para amostra que geralmente são (0,10;0,05 ou 0,01), a diferença é bem significativa.
Propomos um modelo de regressão linear de primeira ordem dado pela equação: =0+1+² onde 01 são parâmetros desconhecidos ² é o erro aleatório. O R retorna o valor dos coeficientes de ^0 e ^ 1 estimados via Método de Mínimos Quadrados. Logo, a equação da reta ajustada é dada por ^ = -11.91X + 74.90

A função summary apresenta os quartis da distribuição dos resíduos; pelos valores apresentados, os resíduos não indicando distorções na distribuição. Faremos os gráficos diagnósticos do ajuste para melhor análise.

Resposta 1 – d)Trace, no gráfico anterior, a reta de regressão.

par(mfrow = c(2,2))
plot(mod)

Analisando o gráfico dos “Residuals vs Fitted” (resíduos versus ajustado): Este gráfico é um exemplo clássico de um resíduo “bem comportado” . Aqui estão as características de um lote bem-comportado versus o gráfico de ajustes e o que eles sugerem sobre a adequação do modelo de regressão linear simples: a) Os residuais “saltam aleatoriamente” em torno da linha 0. Isso sugere que a suposição de que o relacionamento é linear é razoável. b) Os resíduos formam aproximadamente uma “faixa horizontal” ao redor da linha 0. Isso sugere que as variações dos termos de erro são iguais. c) Nenhum resíduo “destaca-se” do padrão aleatório básico de resíduos. Isso sugere que não há “outliers”. Pelo gráfico Normal Q-Q observamos também que os resíduos têm uma distribuição que se aproxima bem da normal. Estas duas constatações nos permitem dizer que estamos atendendo as hipóteses de homocedasticidade e distribuição normal da variável resposta, requisitos do método dos mínimos quadrados ordinários. Podemos obter o coeficiente de correlação linear (r) por meio do comando:

cor(x,y)

## [1] -0.9737856

Podemos interpretar o sinal negativo como sendo causado pelo decrescimento do valor de y ao longo de x. Por outro lado, se tomarmos o módulo de r (coeficiente linear) teremos uma correlação linear negativa forte, conforme a tabela abaixo:

O trabalho decresce em relação à proporção com que se aumenta o número de horas do treinamento. Ou seja, y decresce quase na mesma velocidade com que x cresce. Por fim, ainda, podemos calcular e interpretar o coeficiente de determinação (^2):

cor(x,y)^2
## [1] 0.9482584

Deste resultado, inferimos que aproximadamente 95% da diminuição do tempo de execução do trabalho está relacionada com o aumento do número de horas do treinamento. Em outras palavras, 95% das variações em y são explicadas por variações em x. Os outros 5% possuem outras causas.

Resposta 1 – d)Trace, no gráfico anterior, a reta de regressão.
z <- plot(x,y) grid(z) #aplicando grid ao gráfico abline(mod) #aplicando reta e regressão ao gráfico para os dados

mod ##
## Call:
## lm(formula = y ~ x, data = dados)
##
## Coefficients:
## (Intercept) x
## 74.90 -11.91

Através dos resultados fornecidos pelo R, concluímos que a equação da reta que melhor aproxima os pontos é = -11,91x+7,90. Além disso, foi traçada a reta de regressão juntamente com o gráfico de dispersão logo abaixo, através do comando abline(mod).

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.