Está en la página 1de 4

PRACTICA 02 DE “ R” DE DISTRIBUCIÓN NORMAL APLICADO A ING.

CIVIL – UNAP 2018-1


INTRODUCCIÓN
Los análisis de normalidad, también llamados contrastes de normalidad, tienen como objetivo analizar cuánto difiere la distribución de los
datos observados respecto a lo esperado si procediesen de una distribución normal con la misma media y desviación típica. Pueden
diferenciarse tres estrategias: las basadas en representaciones gráficas, en métodos analíticos y en test de hipótesis
Usaremos los datos del texto “Applied Statistics for Civl and Environmental Engineers”, pag 6

DATOS:
DATOS: #DATOS=N=210 (VELOCIDADES APROXIMADAS DE 210 VEHICULOS)
(20,9.09,16.12,17.24,11.36,17.24,19.23,29.41,17.85,16.12,15.15,17.85,16.66,10.41,13.51,17.24,
17.24,15.15,15.15,15.62,17.24,16.12,13.88,15.15,15.62,17.24,14.28,15.15,12.82,13.51,15.62,
12.19,13.15,11.36,19.23,17.24,19.23,21.73,18.51,14.70,16.66,12.50,16.66,7.14,17.24,16.12,18.51,16.12,15.15,15.1
5,22.72,16.66,14.28,16.12,13.15,13.15,14.70,13.51,17.24,14.28,14.70,13.51,
15.15,16.66,17.85,17.24,16.12,12.19,13.88,18.51,13.88,13.51,17.85,16.12,17.24,12.19,8.62,9.80,
14.70,16.66,15.15,17.24,12.19,20.00,13.88,16.66,17.85,11.36,20.00,10.63,11.36,17.85,15.62,
15.15,13.88,19.23,14.28,12.82,12.82,17.24,20.00,14.28,14.28,13.88,17.85,15.62,19.23,16.66,
13.88,16.66,14.28,16.66,16.66,14.28,16.66,14.70,17.24,12.19,10.20,17.24,9.80,9.25,11.62,13.88,
17.24,11.11,11.11,12.19,10.41,10.86,14.70,15.15,14.28,14.28,12.82,13.15,12.50,14.28,16.12,
12.82,13.51,12.50,16.12,17.85,17.24,17.24,17.85,15.62,17.24,20.00,13.88,15.62,15.15,8.92,10.86,12.50,11.36,10.4
1,17.85,15.62,14.28,11.11,15.62,17.85,12.82,21.73,14.70,14.70,20.83,11.90,
14.28,17.85,20.83,17.85,14.70,14.70,16.66,20.00,13.88,16.12,16.12,14.70,14.70,10.86,11.62,
16.66,15.62,13.51,15.15,12.82,13.88,9.09,16.12,17.24,12.82,17.24,17.85,14.70,5.37,16.12,15.62,
17.24, 14.70, 12.19, 13.88, 16.12, 22.72, 17.24, 13.15, 16.12)

Para leer los datos con el comando en R


ts = c(….copy…….)

MÉTODOS GRÁFICOS - HISTOGRAMA Y CURVA NORMAL:


> length(ts) [1] 210
> i=c(1:210)
>i
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
[19] 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
[37] 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54
[55] 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72
[73] 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90
[91] 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108
[109] 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126
[127] 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144
[145] 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162
[163] 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180
[181] 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198
[199] 199 200 201 202 203 204 205 206 207 208 209 210
> fts = data.frame(i, ts)
> fts

i ts
1 1 20.00
2 2 9.09
3 3 16.12
4 4 17.24
5 5 11.36
.
.
.

206 206 16.12


207 207 22.72
208 208 17.24
209 209 13.15
210 210 16.12

> ggplot(data = fts, aes(x = ts)) +


+ geom_histogram(aes(y = ..density.., fill = ..count..)) +
+ scale_fill_gradient(low = "#DCDCDC", high = "#7C7C7C") +
+ stat_function(fun = dnorm, colour = "firebrick",
+ args = list(mean = mean(ts),
+ sd = sd(ts))) +
+ ggtitle("Histograma + curva normal teórica") +

JEAN CARLOS MENDIZABAL CHECMAPOCCO Pag 1


+ theme_bw()
`stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
>

> hist(ts)

GRÁFICO DE CUANTILES TEÓRICOS (GRÁFICOS Q-Q):


consiste en comparar los cuantiles de la distribución observada con los cuantiles teóricos de una distribución
normal con la misma media y
desviación estándar que los datos. Cuanto más se aproximen los datos a una normal, más alineados están los puntos entorno a la recta
>
> qqnorm(fts$ts, pch = 19, col = "gray50")
> qqline(fts$ts)
>

JEAN CARLOS MENDIZABAL CHECMAPOCCO Pag 2


MÉTODOS ANALÍTICOS - ASIMETRÍA Y CURTOSIS:
Un valor de curtosis y/o coeficiente de asimetría entre -1 y 1, es generalmente considerada una ligera desviación de la normalidad (Bulmer,
1979), (Brown, n.d.). Entre -2 y 2 hay una evidente desviación de la normal pero no extrema
> kurtosis(ts) [1] 1.455444
> skewness(ts) [1] 0.1548972
>

PRUEBAS DE NORMALIDAD:
Packages
library(normtest) ###REALIZA 5 PRUEBAS DE NORMALIDAD### library(nortest) ###REALIZA 10 PRUEBAS DE NORMALIDAD###
library(moments) ###REALIZA 1 PRUEBA DE NORMALIDAD### Hipótesis
H0: La muestra proviene de una distribución normal.
H1: La muestra no proviene de una distribución normal.
Para pruebas de normalidad siempre se plantean así las hipótesis.

NIVEL DE SIGNIFICANCIA:
El nivel de significancia que se trabajará es de 0.05. Alfa=0.05
Criterio de Decisión
Si P < Alfa Se rechaza Ho
Si p >= Alfa No se rechaza Ho

###Histograma###
>hist(ts)

PRUEBAS DE NORMALIDAD DEL PAQUETE “NORMTEST”


### Prueba de Anderson-Darling·###
> ad.test(ts)
Anderson-Darling normality test
data: ts

A = 0.57499, p-value = 0.1334


> ###Prueba de Cramer-von Mises###
> ###Es útil para pequeñas muestras y usa los momentos como criterio.###
> cvm.test(ts)
Cramer-von Mises normality test data: ts
W = 0.066538, p-value = 0.3086
> ###Pruena de Lilliefors (Kolmogorov-Smirnov)###
> lillie.test(ts)
Lilliefors (Kolmogorov-Smirnov) normality test data: ts
D = 0.052833, p-value = 0.3144
> ###Prueba de Pearson chi-square###
> ###basada en una distribución Ji cuadrado y que corresponde a una prueba de bondad de ajuste.###
> pearson.test(ts)
Pearson chi-square normality test data: ts
P = 11.97, p-value = 0.5301
> ###Prueba de Shapiro-Francia###
> sf.test(ts)
Shapiro-Francia normality test data: ts
W = 0.97341, p-value = 0.003924
>

PRUEBAS DE NORMALIDAD DEL PAQUETE “MOMENTS”


> ###Prueba de Agostino###
> agostino.test(ts)
D'Agostino skewness test data: ts
skew = 0.15632, z = 0.84899, p-value = 0.3959 alternative hypothesis: data have a skewness
>

JEAN CARLOS MENDIZABAL CHECMAPOCCO Pag 3


CONCLUSIONES:
No existe evidencia estadística para rechazar Ho. Es decir, podemos afirmar que la variable ts tiene una distribución normal. Esto se
cumple para todas las pruebas.

CONSECUENCIAS DE LA FALTA DE NORMALIDAD:


El hecho de no poder asumir la normalidad influye principalmente en los test de hipótesis paramétricos (t-test, anova,…) y en los modelos de
regresión. Las principales consecuencias de la no normalidad son:
Los estimadores mínimo-cuadráticos no son eficientes (de mínima varianza).
Los intervalos de confianza de los parámetros del modelo y los contrastes de significancia son solamente aproximados y no exactos.
El teorema del límite central requiere que la población o poblaciones de las que proceden las muestras tengan una distribución normal, no
que la tengan las muestras. Si las muestras se distribuyen de forma normal, se puede aceptar que así lo hacen las poblaciones de origen.
En el caso de que las muestras no se distribuyan de forma normal pero se tenga certeza de que las poblaciones de origen sí lo hacen,
entonces, los resultados obtenidos por los contrastes paramétricos sí son válidos. El teorema del límite central, permite reducir los
requerimientos de normalidad cuando las muestras suficientemente grandes.

VERIFICAR los casos para los valores z, estandarizados, el porcentje de datos utilizando la tabla z, con algunos valores de Zi y Xi

AÑO 2018

JEAN CARLOS MENDIZABAL CHECMAPOCCO Pag 4