Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Por ejemplo, si quiere comparar una media observada con una media teórica:
La prueba t
¿Qué es una prueba t?
Una prueba t (también conocida como prueba t de Student) es una herramienta para evaluar
las medias de uno o dos grupos mediante pruebas de hipótesis. Una prueba t puede usarse
para determinar si un único grupo difiere de un valor conocido (una prueba t de una
muestra), si dos grupos difieren entre sí (prueba t de muestras independientes), o si hay una
diferencia significativa en medidas pareadas (una prueba t de muestras dependientes o
pareada).
Asunciones de la prueba t
Aunque las pruebas t resisten relativamente bien las desviaciones de la hipótesis, al hacer
una prueba t se asume que:
Para pruebas t de dos muestras, debemos tener muestras independientes. Si las muestras no
son independientes, puede ser más adecuada una prueba t pareada.
Tipos de prueba t
Hay tres pruebas t para comparar medias: la prueba t de una muestra, la prueba t de dos
muestras y la prueba t pareada. La siguiente tabla resume las características de cada una y
ofrece orientación a la hora de escoger la más adecuada. Visite las páginas específicas de
cada tipo de prueba t para ver ejemplos, además de más detalles sobre sus asunciones y sus
cálculos.
Número de
Uno Dos Dos
variables
Medida continua Medida continua
Medida Categórico o Categórico o
Tipo de
continua nominal para nominal para definir
variable
definir grupos pares en un grupo
La tabla anterior solo muestra las pruebas t para medias de población. Otra prueba t
habitual es para coeficientes de correlación. Esta prueba t se usa para determinar si un
coeficiente de correlación tiene una diferencia de cero significativa.
Ha:μ≠20
Aquí tenemos una prueba bilateral. Usaremos los datos para determinar si la media de la
muestra es lo bastante distinta de 20, por encima o por debajo, como para declarar que la
media poblacional desconocida es distinta de 20.
Supongamos que queremos saber si lo que pone en la etiqueta es correcto. ¿Los datos
apoyan la idea de que la media poblacional desconocida es de al menos 20? ¿O no? En este
caso, nuestras hipótesis son:
Ho:μ>=20
Ha:μ<20
Aquí tenemos una prueba unilateral. Usaremos los datos para determinar si la media de la
muestra es lo bastante inferior a 20 como para rechazar la hipótesis de que la media
poblacional desconocida es igual o mayor a 20.
) y alternativa (Ha
) antes de reunir los datos.
Decida el valor alfa (o valor α). Esto implica determinar el riesgo que desea correr de
llegar a una conclusión errónea. Por ejemplo, digamos que define α=0,05 al comparar dos
grupos independientes. En este caso decide correr un riesgo del 5 % de concluir que las
medias poblacionales desconocidas son distintas cuando no lo son.
Revise posibles errores de datos.
Revise las asunciones de la prueba.
Haga la prueba y saque sus conclusiones. Todas las pruebas t de medias implican
calcular la estadística de la prueba. A continuación, compare la estadística de la prueba con
el valor teórico de la distribución t. El valor teórico implica tanto al valor alfa como a los
grados de libertad de sus datos. Para más detalles, visite las páginas de la prueba t de una
muestra, la prueba t de dos muestras y la prueba t pareada.
¿Qué necesito?
Para la prueba t de dos muestras, necesitamos dos variables. Una variable define los dos
grupos. La segunda variable es la medida de interés.
También tenemos una idea, o hipótesis, de que la medias de las poblaciones subyacentes de
los dos grupos son diferentes. He aquí un par de ejemplos:
Tenemos estudiantes que hablan inglés como primera lengua y otros que no. Todos los
estudiantes realizan una prueba de lectura. Nuestros dos grupos son los hablantes de
inglés nativos y los no nativos. Nuestras medidas son las puntuaciones de las pruebas.
Nuestra idea es que las puntuaciones medias para las poblaciones subyacentes de
hablantes de inglés nativos y no nativos no son iguales. Queremos saber si la puntuación
media para la población de hablantes de inglés nativos es diferente de la de las personas
que aprendieron inglés como segundo idioma.
Medimos los gramos de proteína en dos marcas diferentes de barras energéticas.
Nuestros dos grupos son las dos marcas. Nuestra medida es los gramos de proteína en
cada barra energética. Nuestra idea es que la media de gramos de proteína para las
poblaciones subyacentes de las dos marcas puede ser diferente. Queremos saber si
tenemos pruebas de si la media de gramos de proteína para las dos marcas de barras
energéticas es diferente.
Los valores de los datos deben ser independientes. Las medidas de una observación no
afectan a las medidas de cualquier otra observación.
Los datos de cada grupo se deben obtener a través de una muestra aleatoria de la
población.
Los datos de cada grupo tienen distribución normal.
Los valores de datos son continuos.
Las varianzas de los dos grupos independientes son iguales.
Para grupos de datos muy pequeños, puede ser difícil probar estos requisitos. A
continuación comentamos cómo comprobar los requisitos utilizando software y qué hacer si
un requisito no se cumple.
Los datos de muestra vienen de un grupo de hombres y mujeres que hicieron ejercicio en un
gimnasio tres veces por semana durante un año. Luego, su entrenador medía la grasa
corporal. Los datos se muestran en la tabla siguiente.
Se puede ver claramente una cierta superposición en las medidas de grasa corporal para los
hombres y las mujeres en nuestra muestra, pero también algunas diferencias. Con solo
mirar los datos, es difícil extraer conclusiones sólidas sobre si las poblaciones subyacentes
de hombres y mujeres del gimnasio tienen la misma media de grasa corporal. Ese es el
valor de las pruebas estadísticas: ofrecen una forma común y estadísticamente válida de
tomar decisiones, de modo que todas las personas tomen la misma decisión sobre el mismo
conjunto de valores de datos.
Vamos a empezar por responder lo siguiente: ¿Es la prueba tde dos muestras un método
adecuado para evaluar la diferencia de grasa corporal entre hombres y mujeres?
Los dos histogramas están en la misma escala. Con solo un vistazo rápido, podemos ver
que no hay puntos muy inusuales, o valores atípicos. Los datos tienen aproximadamente
forma de campana, así que nuestra idea inicial de una distribución normal parece razonable.
Al examinar la estadística del resumen, vemos que las desviaciones estándar son similares.
Esto da fuerza a la idea de varianzas iguales. Esto también podemos comprobarlo utilizando
una prueba de varianzas.
Sin necesidad de hacer ninguna prueba, podemos ver que los promedios para hombres y
mujeres en nuestra muestra no son los mismos. Pero ¿hasta qué punto son diferentes? ¿Son
los promedios “lo bastante próximos” como para que podamos sacar la conclusión de que la
media de grasa corporal es la misma para la población mayor de hombres y mujeres del
gimnasio? ¿O son los promedios demasiado diferentes como para que podamos sacar esa
conclusión?
Explicaremos en mayor detalle los principios en los que se basa la prueba t de dos muestras
en la sección de detalles estadísticos, más abajo, pero antes vamos a recorrer todos los
pasos, de principio a fin. Empezaremos por calcular nuestra estadística de prueba. Este
cálculo empieza por hallar la diferencia entre los dos promedios:
Esta diferencia en nuestras muestras estima la diferencia entre las medias de población para
los dos grupos.
A continuación, calculamos la desviación estándar combinada. Esto crea una estimación
combinada de la desviación estándar general. La estimación se ajusta para diferentes
tamaños de grupo. Primero, calculamos la varianza combinada:
s2p=((n1−1)s21)+((n2−1)s22)n1+n2−2
s2p=((10−1)5.322)+((13−1)6.842)(10+13−2)
=(9×28.30)+(12×46.82)21
=(254.7+561.85)21
=816.5521=38,88
√ 38.88 =6,24
Ahora tenemos todas las piezas para nuestra estadística de prueba. Tenemos la diferencia de
promedios, la desviación estándar combinada y los tamaños muestrales. Así calculamos la
estadística de nuestra prueba:
t=diferencia de promedios de grupoerror estándar de la diferencia=7.34(6.24×√ (1/10+1/13) )=7.342.62=2,80
Para evaluar la diferencia entre las medias a fin de tomar una decisión sobre los programas
del gimnasio, comparamos la estadística de la prueba con un valor teórico de la distribución
t. Esta actividad tiene cuatro fases:
1. Decidimos el riesgo que estamos dispuestos a asumir por declarar una diferencia
significativa. Para los datos de grasa corporal, decidimos que estamos dispuestos a asumir
un riesgo del 5 % por decir que las medias desconocidas de la población para hombres y
mujeres no son iguales cuando en realidad lo son. En lenguaje de estadísticas,
establecemos el nivel de significación, α , en 0,05. Es una buena idea tomar esta decisión
antes de recopilar los datos y de calcular las estadísticas de la prueba.
2. Calculamos una estadística de prueba. Nuestra estadística de prueba es de 2,80.
3. Hallamos el valor teórico a partir de la distribución t basado en nuestra hipótesis nula que
afirma que las medias para hombres y mujeres son iguales. En la mayor parte de libros de
estadística hay tablas de valores para la distribución t que se pueden consultar. También
se pueden encontrar en línea. La situación más probable es utilizar software y no tablas
impresas.
Para hallar este valor, necesitamos el nivel de significación (α = 0,05) y los grados de
libertad. Los grados de libertad (gl) se basan en el tamaño muestral de los dos grupos.
Para los datos de grasa corporal, es:
df=n1+n2−2=10+13−2=21
3.
Detalles estadísticos
Vamos a echar un vistazo a los datos de grasa corporal y a la prueba t de dos muestras
utilizando términos estadísticos.
Nuestra hipótesis nula es que las medias de población subyacente son iguales. La hipótesis
nula se escribe así:
Ho:μ1=μ2
La hipótesis alternativa es que las medias no son iguales. Esto se expresa así:
Ho:μ1≠μ2
Calculamos el promedio de cada grupo, y luego la diferencia entre los dos promedios. Esto
se expresa así:
¯¯¯¯¯x1−¯¯¯¯¯x2
La fórmula presenta el tamaño muestral para el primer grupo como n1 y para el segundo
grupo como n2. Las desviaciones estándar para los dos grupos son s1 y s2. Esta estimación
permite que los dos grupos tengan un número diferente de observaciones. La desviación
estándar acumulada es la raíz cuadrada de la varianza, y se escribe como sp.
¿Y si el tamaño muestral de ambos grupos es el mismo? En esta situación, la estimación
acumulada de la varianza es simplemente el promedio de las varianzas para ambos grupos:
s2p=(s21+s22)2
t=(¯¯¯¯x1−¯¯¯¯x2)sp√ 1/n1+1/n2
. La fórmula anterior amplía esta idea a dos grupos que utilizan una estimación combinada
para s (desviación estándar) y que pueden tener tamaños de grupo distintos.
La fórmula muestra el tamaño muestral para el primer grupo como n1 y para el segundo
grupo como n2. Los estadísticos escriben el valor de t con α = 0,05 y 21 grados de libertad
como:
t0,05,21
El valor t con α = 0,05 y 21 grados de libertad es de 2,080. Nuestra comparación tiene dos
posibles resultados:
Cuando las varianzas de los dos grupos no son iguales, no podemos utilizar la estimación
combinada de la desviación estándar. Lo que hacemos es tomar el error estándar de cada
grupo por separado. La estadística de la prueba es:
t=(¯¯¯¯x1−¯¯¯¯x2)√ s21/n1+s22/n2
El cálculo de los grados de libertad para el valor de t es más complejo con varianzas
desiguales que con varianzas iguales, y se suele encargar a los paquetes de software
estadístico. La clave está en recordar que no se puede utilizar la estimación combinada de la
desviación estándar y, por tanto, no se puede utilizar la fórmula simple para los grados de
libertad.
Las distribuciones normales son simétricas, es decir, "iguales" a ambos lados del centro.
Las distribuciones normales no tienen valores extremos ni valores atípicos. Puede
comprobar estas dos características de una distribución normal con gráficos. Antes
decidimos que los datos de la grasa corporal estaban “suficientemente próximos” a la
distribución normal como para seguir adelante con la hipótesis de normalidad. En la figura
siguiente se muestra un gráfico de cuantiles normales para hombres y mujeres, que da
apoyo a nuestra decisión.
Figura 2: Gráfico de cuantiles normales para las medidas de grasa corporal para hombres y mujeres
También puede llevar a cabo una prueba formal de normalidad utilizando software. En la
figura anterior se muestran los resultados de la prueba de normalidad con el software JMP.
Hacemos pruebas de grupo por separado. Tanto la prueba para hombres como para mujeres
muestran que no podemos rechazar la hipótesis de distribución normal. Podemos seguir
adelante con la hipótesis de que los datos de grasa corporal para hombres y mujeres tienen
una distribución normal.
Sin entrar en detalles de los distintos tipos de pruebas de varianzas desiguales, utilizaremos
la prueba F. Antes de hacer la prueba, decidimos aceptar un riesgo del 10 % de concluir
que las varianzas son iguales cuando no lo son. Esto significa que hemos definido α = 0,10.
Como en el caso de la mayor parte del software estadístico, JMP muestra el valor p de una
prueba. Se trata de la probabilidad de hallar un valor más extremo que el observado para la
estadística de la prueba. Es difícil calcular esto a mano. Para la figura anterior, si la
estadística de la prueba F es 1,654, el valor p es 0,4561. Esto es mayor que nuestro valor de
α: 0,4561 > 0,10. No se puede rechazar la hipótesis de varianzas iguales. En términos
prácticos, podemos seguir adelante con la prueba t para dos muestras de varianzas iguales
para los dos grupos.
Como nuestra prueba es bilateral y hemos definido α = 0,05, la figura muestra que el valor
de 2,080 “corta” el 2,5 % de los datos en cada una de las dos colas. Solo el 5 % de los datos
globales está más lejos en las colas que 2,080. Como nuestra estadística de la prueba de
2,80 está más allá del punto de corte, rechazamos la hipótesis nula de medias iguales.
En la siguiente figura se muestran los resultados de la prueba t para dos muestras con los
datos de grasa corporal del software JMP.
Figura 5: Resultados de la prueba t para dos muestras del software JMP
Los resultados de la prueba t para dos muestras que supone varianzas iguales son los
mismos que nuestros cálculos anteriores. La estadística de la prueba es 2,79996. El
software muestra resultados para una prueba bilateral y para las pruebas unilaterales. La
prueba bilateral es la que queremos (Prob > |t|). Nuestra hipótesis nula es que la grasa
corporal media para hombres y mujeres es igual. Nuestra hipótesis alternativa es que la
grasa corporal media no es igual. Las pruebas unilaterales son para hipótesis alternativas
unilaterales; por ejemplo, para una hipótesis nula de la grasa corporal media para hombres
es menor que en el caso de las mujeres.
Podemos rechazar la hipótesis de grasa corporal media igual para los dos grupos y concluir
que tenemos pruebas de que la grasa corporal es diferente en la población entre hombres y
mujeres. El software muestra un valor p de 0,0107. Decidimos aceptar un riesgo del 5 % de
concluir que la grasa corporal media para hombres y para mujeres es distinta, cuando no lo
es. Es importante tomar esta decisión antes de llevar a cabo la prueba estadística.
La figura muestra también los resultados para la prueba t que no asume varianzas iguales.
Esta prueba no utiliza la estimación combinada de la desviación estándar. Como se ha
mencionado anteriormente, esta prueba tiene también una fórmula compleja para grados de
libertad. Se puede ver que los grados de libertad son 20,9888. El software muestra un valor
de p de 0,0086. De nuevo, con nuestra decisión de un riesgo del 5 %, podemos rechazar la
hipótesis nula de grasa corporal igual para hombres y para mujeres.
Otros temas
¿Y si tengo más de dos grupos?
Si hay más de dos grupos independientes, no se puede utilizar la prueba t para dos
muestras. Se debe utilizar un método de comparación múltiple. Uno de estos métodos es
ANOVA, o análisis de varianza. Otros métodos de comparación múltiple son la prueba de
Tukey-Kramer de todas las diferencias por pares, el análisis de medias (ANOM) para
comparar medias grupales con la media general o la prueba de Dunnett para comparar cada
media grupal con una media de control.
Si los tamaños de sus muestras son muy pequeños, es posible que sea difícil hacer la prueba
de normalidad. En esa situación, puede que deba basarse en su comprensión de las medidas.
Por ejemplo, para los datos de grasa corporal, el entrenador sabe que la distribución de la
grasa corporal subyacente es una distribución normal. Incluso para una muestra pequeña, el
entrenador probablemente continuará con la prueba t y asumirá normalidad.
Año de 2010
La prueba t de Student es una prueba paramétrica, por lo que para que su uso sea válido se
requiere cumplir con las siguientes suposiciones básicas:
Suposiciones básicas para la aplicación de pruebas
parametricas
Variable Dependiente medida por lo menos en un nivel de intervalos.
Asignación aleatoria de los individuos que conforman cada una de las muestras.
Muestras representativas en términos de número y de composición.
Distribución normal de la variable dependiente en la población bajo estudio.
Estas suposiciones tienen su razón de ser. La primera condición es clara pues hay que
calcular medias y varianzas, lo que hace necesario que esta variable tenga la propiedad de
aditividad que solamente se alcanza en el nivel de medición de intervalos. Las otras tres
condiciones tienen la finalidad de establecer las condiciones para que las leyes de la
probabilidad operen óptimamente.
Las pruebas paramétricas pueden tolerar leves infracciones a estas suposiciones básicas: las
muestras pueden ser pequeñas, la distribución de la variable dependiente puede apartarse
algo de la normalidad, etcetera. Sin embargo cuando son muchas o graves estas
infracciones deberia optarse por un procedimiento no paramétrico, como una U de Mann-
Whitney, una prueba de la mediana o incluso una Ji-cuadrada.
Para evaluar la magnitud de la diferencia entre las medias se establece como modelo una
distribución que representa las diferencias que cabria esperar del error de muestreo. De esta
manera, la diferencia entre ambas muestras se compara con el error estándar de esta
distribución muestral de diferencias. El resultado de la comparación es un valor
estandarizado (t) que deberá ubicarse en la distribución t de Student. La forma de la
distribución proporciona la probabilidad de encontrar dentro de una misma población una
diferencia igual o mayor que la obtenida entre las medias de nuestros grupos. Si es poco
probable que esa diferencia provenga de dos grupos de la misma población se podría
concluir que los dos grupos son de diferentes poblaciones lo que indicaria que la variable
independiente tiene una relación con la variable dependiente.
Como ejemplo vamos a suponer que se desea comparar a dos grupos de estudiantes
respecto de su habilidad de lectura después de haber impratido a uno de ellos un programa
instruccional. De acuerdo con el diseño empleado, los alumnos del primer grupo deberían
tener una ejecución diferente de la mostrada por los estudiantes del segundo grupo.
Datos
Grupo 2
Grupo 1
9 15 16 19 10
8 14 17 10 10 12 17 16 19 13
14 14 17 19 11 19 18 16 23 21
13 19 23 12 22 12
22 23 18 11
Se puede observar en esta tabla que los intervalos de confianza de ambas medias no se
traslapan, lo que permite anticipar que la diferencia entre ambas medias va a ser muy
grande.
Esta relación puede apreciarse en la siguiente gráfica. El punto central representa la media
de cada grupo y los bigotes se extienden a los limites superior e inferior del intervalo de
confianza respectivo.
20
0
22
20
18
16
14
12
10
Intervalos de confianza para ambas medias
Calculo Resultado
Dif -4.1842
EEdif 1.3156
t -3.1804
gl 33
Sig. p < 0.05
La diferencia entre ambos grupos es significativa con p < 0.05 para una prueba bilateral,
por lo que se puede considerar que el programa instruccional sí influyó en la habilidad de
lectura.
Prueba T de Wilcoxon
La prueba T de Wilcoxon es un procedimiento estadístico de significancia no paramétrico. Se
supone que se emplea un diseño de muestras relacionadas, que la variable independiente es
dicotómica y la variable dependiente es una variable continua y cuya medición es por lo menos
ordinal. Esta prueba es una excelente alternativa a la prueba t de Student para muestras
relacionadas. Se utiliza cuando la variable dependiente está en un nivel de medición de intervalos
pero por las características de la investigación no cumplen con los supuestos básicos de las
pruebas paramétricas o cuando la variable dependiente es definitivamente ordinal.
Procedimiento
El primer paso consiste en organizar los datos de los grupos en pares ordenados como lo
muestra la Tabla 1. En la primera fila se colocan los datos de el primer par: del lado
izquierdo el correspondiente al sujeto del Grupo 1 y del lado derecho el correspondiente al
sujeto del grupo 2 y de la misma manera los datos de los siguientes pares de sujetos.
Las diferencias ei se escriben en la cuarta columna (Rd). Los rangos de las diferencias se
separan en las siguientes dos columnas de la tabla escribiendo en la quinta columna (R+)
los rangos que corresponden a las diferencias positivas y en se sexta columna (R-) los
rangos que corresponden a las diferencias negativas. Cuando la diferencia es cero, no se
asigna rango y el par es descartado de cualquier análisis posterior. Finalmente, se suman los
rangos de las columnas quinta y sexta. El valor menor será el valor T de Wilcoxon Para
determinar la significancia de T, se determina el número de diferencias distintas de cero y
con ese valor se consulta la tabla de significancia de T
12 10 2 2 2
19 18 1 1 1
6 1 5 5 0
16 10 6 5 5
8 1 6 6 0
16 13 3 3.5 3.5
11 1 7 7 0
17 17 0
E= 3
15 15 0
Ndif 7
eet = 5.656854249492381
Correccion: 3
El primer paso para efectuar una prueba U de Mann-Whitney es combinar los datos de
ambos grupos y ordenarlos. A continuación se les asigna un rango: al dato menor se le
asigna el rango 1, al siguiente el rango 2 y asi suscesivamente.
En caso de que haya varias puntuaciones iguales (empates) a cada valor se le asigna el
promedio de los rangos que les corresponderían si se les diera rangos suscesivos a cada una
de ellas.
En la Tabla 1 se presentan datos ficticios de dos grupos. En la primera columna se anotan todos los
datos diferentes. En la segunda columna se escribe la cuenta de cuántas veces se repite cada
valor.
En la tercera columna se anotan los rangos que le correspoderían si fuesen valores diferentes y en
la cuarta está el rango promedio (R asig). En la quinta columna se calcula el valor T que se obtiene
mediante la operación
A continuación se sustituyen los datos de la primera tabla por los rangos correspondientes y se
suman los rangos en cada grupo (R1 y R2). Esto se muestra en la Tabla 3.
13 19 9 4 5a8 6.5 5 16 34
9 11 10 1 9 9 0 6.5 12
18 16 11 5 10 a 14 12 10 31 23.5
8 8 13 3 15 a 17 16 2 2.5 2.5
9 19
21.5 16
10 14
36.5 12
15 13
2.5 23.5
20 11
19 27
8 16 14 3 18 a 20 19 2
6.5 12
14 17 15 2 21 a 22 21.5 0.5
34 31
9 11 16 2 23 a 24 23.5 0.5
19 12
19 18 17 5 25 a 29 27 10
12 21.5
14 11 18 3 30 a 32 31 2
27 16
11 15 19 3 33 a 35 34 2
27 36.5
17 13 20 2 36 a 37 36.5 0.5
27 6.5
17 20 Suma de T[i] 39.5
6.5 27
17 9
31
9 17
Sumas:
18
R1 R2
337 366
A continuación se calculan los valores u para cada grupo. En la siguiente tabla se presentan
las fórmulas y los resultados u para cada grupo. El estadístico U de Mann-Whitney será el
menor de ambos valores.
Fórmula u U
195 147
147
Fórmula Resultado
171
39.5
32.7545
Si 0 < r < 1, existe una correlación lineal positiva y será más fuerte cuanto más se
aproxime a 1, es decir, los puntos se aproximarán más a una recta con pendiente positiva
cuanto más se aproxime r a 1:
Si -1 < r < 0, existe una correlación lineal negativa y será más fuerte cuanto más se
aproxime a -1, es decir, los puntos se aproximarán más a una recta con pendiente negativa
cuanto más se aproxime r a -1:
Si r=1, tienen una correlación funcional, es decir, los puntos forman una recta con
pendiente positiva:
Si r=-1, tienen una correlación funcional, es decir, los puntos forman una recta con
pendiente negativa:
Si r=0, no existe ninguna clase de correlación lineal entre las variables, aunque sí puede
existir una correlación curvilínea:
Se sabe que el número de clientes diarios de un núcleo de población que acuden a un centro
comercial depende de la distancia entre ambos. Los datos de seis centros comerciales y sus
distancias a un núcleo de población son los siguientes:
a) Hallar la media de cada variable
Apartado a:
En primer lugar, colocamos ambos valores en una tabla, donde en la última fila realizamos
la suma total:
La media de x, será igual a la suma de los valores de x, entre el número total de datos de x:
La media de «y», será igual a la suma de los valores de «y», entre el número total de datos
de «y»:
El número total de datos es igual a 6 y la suma de los valores «y» lo obtengo de la última
fila de la segunda columna de la tabla. La media de «y» es:
Apartado b:
En este caso, los valores se repiten sólo una vez, por lo que f es igual a 1, tanto en la
covarianza como en las desviaciones típicas de cada variable:
Por tanto, la f desaparece de las fórmulas (porque multiplicamos por 1) y me quedan así:
Para calcular la covarianza tengo que calcular la suma de la multiplicación de cada valor de
x por su valor de «y» correspondiente. Eso lo hago añadiendo una tercera columna a la
tabla, donde en cada fila multiplico x por «y» y en la última fila sumo el valor de todas las
multiplicaciones:
Ahora voy a calcular las desviaciones típicas de x y de «y». Para ello necesito la suma de
todos los valores de x y de «y» elevados al cuadrado y eso lo calculo añadiendo dos
columnas más a la tabla, una donde elevo al cuadrado cada valor de x de la fila y otro
donde elevo al cuadrado cada valor de «y» de la fila. En la última fila de cada columna
sumo todos los valores de la columna:
Una vez tengo los valores de la covarianza y de ambas desviaciones típicas, procedo a
calcular el coeficiente de correlación lineal:
Vemos que r es muy próximo a -1, lo que quiere decir, que los puntos se ajustan bastante a
una recta con pendiente negativa.
Donde:
"x" es igual a la variable número uno, "y" pertenece a la variable número dos, "zx"
es la desviación estándar de la variable
uno, "zy" es la desviación estándar de la variable dos y "N" es el número de datos.
Interpretación del coeficiente de correlación de Karl
Pearson
El coeficiente de correlación de Pearson tiene por objeto indicar cuánto se asocian dos
variables entre sí para que
Correlación menor que cero: Si la correlación es menor que cero, significa que es negativa,
es decir, que las variables están inversamente relacionadas.
Cuando el valor de alguna variable es alto, el valor de la otra variable es bajo. Cuanto más
se acerca a -1, más clara es la covariación extrema. Si el coeficiente es igual a -1, nos
referimos a una correlación negativa perfecta.
Correlación mayor que cero: Si la correlación es igual a +1, significa que es perfectamente
positiva. En este caso significa que la correlación es positiva, es decir, que las variables
están directamente correlacionadas.
Cuando el valor de una variable es alto, el valor de la otra también es alto, lo mismo ocurre
cuando son bajas. Si está cerca de +1, el coeficiente será la covariación.
Correlación igual a cero: Cuando la correlación es igual a cero significa que no es posible
determinar algún sentido de covariación. Sin embargo, no significa que no haya una
relación no lineal entre las variables.
Cuando las variables son independientes significa que están correlacionadas, pero esto
significa que el resultado es verdadero.
X : años de antigüedad 3 4 5 6
Y : infracciones 4 3 2 1
Representar gráficamente los datos anteriores. Razonar si los datos muestran una
correlación positiva o negativa.
Calcular el coeficiente de correlación e interpretarlo en términos de la situación real.
a)