Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Los resultados estadísticos que obtenemos con nuestros datos, por ejemplo el valor
medio de tensión arterial o de colesterol del conjunto estudiado, o la proporción de
pacientes diabéticos, son estimaciones o aproximaciones al verdadero valor de esas
cantidades en la población global de la que procede la muestra. Esa aproximación está
sometida al error de muestreo (las distintas muestras posibles dan resultados diferentes,
y la nuestra es solo una muestra más). En la mayoría de los casos se puede medir la
precisión o fiabilidad de esas estimaciones mediante intervalos de confianza.
Por otra parte, algunos estadísticos de uso general, como la media o la proporción,
tienen distribución aproximadamente Normal, y por lo tanto los intervalos de confianza
serán válidos, aunque la variable muestreada no sea Normal, siempre que el tamaño de
muestra sea suficientemente grande (por ejemplo mayor que 100).
Sin embargo estas pruebas no suelen ser muy útiles en la práctica, ya que con muestras
grandes (por ejemplo superiores a 100) tienden a rechazar la hipótesis de Normalidad si
existe una mínima desviación, es decir nos dirá que no es Normal prácticamente
cualquier variable real; y con muestras muy pequeñas, al contrario, tienden a aceptar
prácticamente cualquier variable como Normal (incluso cuando sabemos con seguridad
que no lo es).
Por este motivo se suelen utilizar, con resultados más razonables, comprobaciones
basadas en gráficos. En general es suficiente con un histograma que nos permita apreciar
la forma aproximada de campana típica de esta distribución, y otras características de
forma: si es claramente asimétrica no será Normal; si es muy aplastada, con forma
rectangular (o lo contrario, muy apuntada) no será Normal.
Tambien se emplean gráficos específicos, como el gráfico de cuantiles (Q-Q plot) que
representa los cuantiles de nuestra variable frente a los cuantiles de una variable teórica
Normal, de modo que cuando es Normal los puntos se sitúan a lo largo de la diagonal;
hemos empleado este gráfico para justificar la distribución Normal de los residuos de la
regresión lineal en una unidad anterior. Si queremos aplicarlo a cualquiera de nuestras
variables debemos elegir la opción de menú Gráficas gráfica de comparación de
cuantiles; seleccionamos por ejemplo la variable “colesterol” y dejamos la opción por
defecto “Normal”, pulsando aceptar.
Las líneas rojas punteadas nos ayudan a ver algunos puntos que se alejan de la diagonal,
solamente en la parte extrema de la derecha (hay valores altos de colesterol que se
apartan de la Normalidad, aunque solo ligeramente). Con ese gráfico aceptaremos que la
variable es razonablemente Normal, aunque la prueba de Shapiro-Wilk indique lo
contrario por el elevado tamaño de la muestra.
CURSO ESTADÍSTICA CON ‘R’ PARA PROFESIONALES DE LA SALUD,
Antonio Vaamonde Liste y Ricardo Luaces Pazos NOV 2018 UNIDAD 5
data: Dataset$colesterol
t = 146.2676, df = 872, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
223.9913 230.0843
sample estimates:
mean of x
227.0378
La media es 227,0378 y el intervalo al 95%: 223,99 – 230,08. Entre esos límites debe
estar el valor medio de colesterol en la población de la cual se ha obtenido la muestra
con nivel de confianza 0,95. Nos equivocaremos en esta afirmación, y el verdadero valor
estará fuera del intervalo, un 5% de las veces, una de cada veinte, al utilizar ese nivel de
confianza.
150
100
frequency
50
0
colesterol
C) Coeficientes de regresión.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 135.88052 3.97784 34.159 < 2e-16 ***
imc 0.98913 0.20755 4.766 2.21e-06 ***
peso -0.27468 0.07555 -3.636 0.000294 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El hecho de que los intervalos, aunque sean amplios, no incluyan el cero significa que
podemos descartar razonablemente ese valor: cuando el coeficiente es cero la variable
explicativa no tiene ningún efecto sobre la variable dependiente, pero cuando no es cero,
concluimos que el efecto existe, es estadísticamente significativo, aunque pueda ser
pequeño o débil.
Podemos por lo tanto plantear una hipótesis (que se denomina hipótesis nula, H0): r = 0,
o bien b1 = 0 en el modelo de regresión lineal, y comprobar a continuación si los datos
CURSO ESTADÍSTICA CON ‘R’ PARA PROFESIONALES DE LA SALUD,
Antonio Vaamonde Liste y Ricardo Luaces Pazos NOV 2018 UNIDAD 5
observados son razonablemente compatibles con ella o por el contrario esos datos
observados serían sumamente improbables si H0 fuese cierta.
Existen numerosos contrastes que la ciencia estadística ha ido elaborando para resolver
situaciones específicas como las indicadas a título de ejemplo anteriormente. Para cada
hipótesis H0 se utiliza un estadístico de prueba, cuyo valor se calcula con los datos de la
muestra, y cuya distribución de probabilidad es conocida en el supuesto de que H0 sea
cierta. Esa distribución de probabilidad permite conocer la probabilidad (valor P) de que
el estadístico tome valores como los que se están observando, y si P es muy pequeño, es
decir si la situación observada es altamente improbable, concluimos que la hipótesis es
falsa.
DECISIÓN ESTADÍSTICA
NO RECHAZAR H0 RECHAZAR H0
La aplicación real de los contrastes es en general muy sencilla, cualquiera que sea la
prueba: la mayoría de los programas estadísticos, R también, proporcionan el valor P del
contraste en cada aplicación, que puede interpretarse de forma simple y directa: un valor
muy pequeño (típicamente P = 0,0000) indica una fuerte evidencia de que H0 debe ser
rechazada. Naturalmente es crucial saber cual es la hipótesis nula H0 en cada contraste.
Sin embargo podemos tener información que nos permita afirmar que solo caben dos
opciones: o es cero o es mayor que cero, ya que no tiene sentido que esas dos variables
concretas se relacionen negativamente (o al contrario), y por lo tanto el planteamiento
correcto es con una hipótesis alternativa unilateral, H1: r mayor que cero. Eso permite
utilizar mejor la información de la muestra, ya que el valor P unilateral es más pequeño
que el bilateral, y por lo tanto el contraste es más preciso si está correctamente
especificado. Si tenemos dudas acerca de si debemos utilizar una alternativa uni o
bilateral podemos elegir siempre esta última, ya que la decisión de rechazar H0 será de
este modo correcta en cualquier caso.
>var.test(colesterol~sexo,alternative='two.sided',conf.level=.95,
data=Dataset)
El valor P = 0,5383, mayor que el nivel de significación 0,05, nos permite aceptar que
las varianzas son iguales (no rechazamos la hipótesis nula).
CURSO ESTADÍSTICA CON ‘R’ PARA PROFESIONALES DE LA SALUD,
Antonio Vaamonde Liste y Ricardo Luaces Pazos NOV 2018 UNIDAD 5
Ahora que sabemos que las varianzas son iguales utilizamos, para contrastar si el nivel
de colesterol es distinto, la opción de menú:
En este ejemplo nuestra decisión no cambia, y parece irrelevante que utilicemos una u
otra hipótesis alternativa, pero podría ocurrir que uno de los valores P fuese mayor que
el nivel de significación y el otro no, con lo que nuestra conclusión dependería de la
opción elegida.
Esta prueba requiere que la variable tenga distribución Normal, lo que ha sido
comprobado ya con anterioridad para la variable “colesterol”.
Marcamos las dos variables a comparar. Como suponemos que la segunda medida debe
ser menor que la primera, la diferencia será entre ambas positiva, por lo que marcamos
como hipótesis alternativa “Diferencia > 0”
CURSO ESTADÍSTICA CON ‘R’ PARA PROFESIONALES DE LA SALUD,
Antonio Vaamonde Liste y Ricardo Luaces Pazos NOV 2018 UNIDAD 5
Paired t-test
El valor P del contraste, prácticamente cero (2.2e-16), indica que efectivamente existe
una diferencia significativa entre ambas.
El gráfico muestra que la variable no sigue una distribución Normal, ya que los puntos
se alejan claramente de la diagonal; por lo tanto es muy discutible la aplicación de esta
prueba y no será válida la interpretación que hemos realizado de los resultados
obtenidos. En la próxima unidad didáctica encontraremos un modo de resolver este
problema.
3) Comparación de proporciones
> rowPercents(.Table)
alcohol
sexo no si Total Count
mujer 53.6 46.4 100 519
varón 26.5 73.5 100 362
>prop.test(.Table,alternative='two.sided',conf.level=.95,correct=FALSE)
2-sample test for equality of proportions without continuity correction
data: .Table
X-squared = 63.8488, df = 1, p-value = 1.343e-15
alternative hypothesis: two.sided
95 percent confidence interval:
0.2079311 0.3329731
sample estimates:
prop 1 prop 2
0.5356455 0.2651934
Es una técnica estadística muy potente para determinar el efecto de uno o más factores
(variables cualitativas) sobre una variable cuantitativa. Utiliza un modelo lineal muy
simple, según el cual el valor de la variable dependiente cuantitativa es igual a la suma
de una constante más un valor fijo asociado al nivel que tenga cada factor, a lo que debe
sumarse un residuo cuya distribución es Normal.
Suponiendo una variable cuantitativa de interés Y, que creemos que depende de dos
factores cualitativos A y B:
Y=M +A+B+e
M es una constante (la media de Y), A es un valor fijo distinto para cada nivel que tenga
el factor, lo mismo que B, y e es el residuo aleatorio.
Y = M + A + B + AB + e
Cada una de las sumas de cuadrados se puede convertir, dividiendo por el número de
elementos independientes que la forman, en una media de cuadrados, o cuadrado medio:
Si el factor A no tiene influencia sobre la variable, su cuadrado medio CMA será similar
al cuadrado medio del error CMe; si es mucho más grande ello significa que la
contribución del factor a la variabilidad de Y es importante. Esto es válido para
cualquier otro elemento del modelo. El cociente entre cuadrados medios CMA/CMe tiene
una distribución conocida (F de Snedecor) si el efecto es nulo, lo que permite contrastar
esa hipótesis.
Se utilizan dos supuestos, que es necesario comprobar siempre: los residuos tienen
distribución Normal, y las varianzas de los residuos son homogeneas o similares para los
distintos niveles de los factores. Ambos requisitos son importantes, y si no se cumplen
no es válida la interpretación de los contrastes correspondientes.
CURSO ESTADÍSTICA CON ‘R’ PARA PROFESIONALES DE LA SALUD,
Antonio Vaamonde Liste y Ricardo Luaces Pazos NOV 2018 UNIDAD 5
Podemos modificar (no es necesario) el nombre del modelo que R Commander pone por
defecto. Elegimos la variable explicada “colesterol” y los factores (marcamos el
segundo con Ctrl + botón izquierdo).
> Anova(AnovaModel.6)
Anova Table (Type II tests)
Response: colesterol
Sum Sq Df F value Pr(>F)
icc2 29903 2 7.2322 0.0007713 ***
sexo 17027 1 8.2363 0.0042147 **
icc2:sexo 76 2 0.0183 0.9819036
Residuals 1649750 798
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Se muestran las sumas de cuadrados del modelo para los cuatro elementos (icc2, sexo,
interacción icc2:sexo, y residuos), y los valores del estadístico de contraste F value
(cociente entre cuadrados medios), así como el valor P que permite contrastar la
hipótesis de que cada uno de los efectos es nulo. Vemos como los efectos sobre el
colesterol de icc2 (P = 0,0007713) y sexo (P = 0,0042147) son claramente significativos,
pero no lo es la interacción icc2:sexo (P=0,9819), es decir que el efecto del índice
cintura-cadera no es distinto para cada categoría (hombre/mujer) del segundo factor,
sino que simplemente se añade a éste.
CURSO ESTADÍSTICA CON ‘R’ PARA PROFESIONALES DE LA SALUD,
Antonio Vaamonde Liste y Ricardo Luaces Pazos NOV 2018 UNIDAD 5
Los resultados muestran tambien el valor medio y desviación típica de la variable colesterol
para cada combinación de niveles de los factores, así como el número de casos:
# means
sexo
icc2 mujer varón
alto 234.4892 225.0513
medio 220.8532 211.3605
bajo 248.5000 247.0000
# std. deviations
sexo
icc2 mujer varón
alto 46.66831 45.09082
medio 43.85811 42.86557
bajo 14.84924 64.09368
# counts
sexo
icc2 mujer varón
alto 370 234
medio 109 86
bajo 2 3
El primer gráfico (residuals vs fitted) nos permite comprobar que la variabilidad de los
residuos no es muy diferente para las seis combinaciones de niveles de los dos factores,
y el segundo (Normal Q-Q) que los residuos son razonablemente Normales, ya que los
puntos se ajustan aproximadamente a la diagonal. Por lo tanto ambos requisitos se
cumplen aceptablemente.
Hemos comprobado que los dos factores tienen efecto significativo. Cuando el factor
tiene dos niveles (como sexo) está claro que ambos son diferentes, pero cuando tiene
más de dos niveles (como icc2, que tiene tres), solo sabemos que alguno de ellos es
significativamente distinto de otro, sin que sepamos cuales. Para profundizar en este
análisis podemos utilizar contrastes múltiples con comparaciones dos a dos. Para ello
elegimos en el menú de R Commander:
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
medio - alto == 0 -14.166 3.757 -3.770 0.0004 ***
bajo - alto == 0 16.767 20.485 0.819 0.6664
bajo - medio == 0 30.933 20.661 1.497 0.2631
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Adjusted p values reported -- single-step method)
R representa tambien un gráfico que nos ayuda a ver mejor estas diferencias entre grupos:
TAREA 5:
2) Calcule intervalos de confianza para la media de las variables trigl y hba1c, y para
la proporción de hipertensión diagnosticada hta2.
El archivo, cuyo nombre debe ser el primer apellido del alumno con los caracteres T5 a
continuación (ej. GarciaT5.pdf), debe enviarse antes de las 23,55h del día 1 de
diciembre a través de la opción “enviar tarea” en la plataforma del curso.