Está en la página 1de 38

¿Para qué la usamos?

Prueba paramétrica Prueba no paramétrica


Comparar una media Prueba de los rangos con signo de
Prueba t para una muestra
observada con una teórica Wilcoxon
Comparar dos medias Prueba t para dos muestras
Prueba de Mann-Whitney
independientes independientes
Comparar varias medias Prueba de Kruskal-Wallis/prueba
ANOVA
independientes de Mood
Comparar dos medias Prueba t para dos muestras
Prueba de Wilcoxon
observadas dependientes dependientes
Prueba de Friedman / Prueba de
Comparar varias medias ANOVA de medidas
Durbin Skilling-Mack, Prueba de
observadas dependientes repetidas, modelos mixtos
Page
Probar la asociación entre Chi-cuadrado sobre tabla Prueba Exacta de Fisher ; método
dos variables cualitativas de contingencia Monte Carlo
Probar la asociación entre Prueba de correlación de Prueba de correlacion de
dos variables cuantitativas Pearson Spearman
Comprobar la existencia de Prueba de Dixon / Prueba Gráfico de cajas (boxplot ) (no es
valores atípicos (outliers) de Grubbs una prueba)

Por ejemplo, si quiere comparar una media observada con una media teórica:

 ¿Necesita comparar la media de una clase con la media de la región? Vamos a


utilizar una prueba paramétrica porque podemos suponer que los datos siguen una
distribución normal. Tiene que elegir el t-test.
 ¿Necesita comparar el liking score mediano de una nueva marca de chips con la
marca más apreciada del mercado?  No podemos suponer que los liking scores sigan
una distribución normal entonces vamos a utilizar una prueba no paramétrica : la
prueba de los rangos con signo de Wilcoxon.

La prueba t
¿Qué es una prueba t?
Una prueba t (también conocida como prueba t de Student) es una herramienta para evaluar
las medias de uno o dos grupos mediante pruebas de hipótesis. Una prueba t puede usarse
para determinar si un único grupo difiere de un valor conocido (una prueba t de una
muestra), si dos grupos difieren entre sí (prueba t de muestras independientes), o si hay una
diferencia significativa en medidas pareadas (una prueba t de muestras dependientes o
pareada).

¿Cómo se usan las pruebas t?


Primero defina la hipótesis que quiera comprobar y determine un riesgo asumible de llegar
a conclusiones erróneas. Por ejemplo, al comparar dos grupos, podría estimar que sus
medias son iguales, y determinar una probabilidad aceptable de concluir que hubiera una
diferencia cuando no es el caso. A continuación, calcule la estadística de la prueba de sus
datos y compárela con un dato teórico de la distribución t. En función del resultado, o bien
rechaza o bien no puede rechazar su hipótesis nula. 

¿Y si tengo más de dos grupos?


No puede usar una prueba t. Utilice un método de comparación múltiple. Algunos ejemplos
serían el análisis de varianza(ANOVA), la comparación por pares de Tukey-Kramer, la
comparación con control de Dunnett y el análisis de medias (ANOM).  

Asunciones de la prueba t
Aunque las pruebas t resisten relativamente bien las desviaciones de la hipótesis, al hacer
una prueba t se asume que:

 Los datos son continuos.


 La muestra de datos se ha tomado aleatoriamente de la población.
 Hay homogeneidad en la varianza (por ejemplo, la variabilidad de datos de cada
grupo es similar).
 La distribución es aproximadamente normal.

Para pruebas t de dos muestras, debemos tener muestras independientes. Si las muestras no
son independientes, puede ser más adecuada una prueba t pareada.

Tipos de prueba t
Hay tres pruebas t para comparar medias: la prueba t de una muestra, la prueba t de dos
muestras y la prueba t pareada. La siguiente tabla resume las características de cada una y
ofrece orientación a la hora de escoger la más adecuada. Visite las páginas específicas de
cada tipo de prueba t para ver ejemplos, además de más detalles sobre sus asunciones y sus
cálculos.

Prueba t de una Prueba t de dos


Prueba t pareada
muestra muestras
Sinónimos Prueba t de Student  Prueba t de  Prueba t de grupos
grupos pareados
independientes  Prueba t de muestras
 Prueba t de dependientes
muestras
independientes
 Prueba t de
varianzas iguales
 Prueba t
combinada
 Prueba t de
varianzas
desiguales

Número de
Uno Dos Dos
variables
 Medida continua  Medida continua
 Medida  Categórico o  Categórico o
Tipo de
continua nominal para nominal para definir
variable
definir grupos pares en un grupo

Determinar si la Determinar si las medias Determinar si la diferencia


Objetivo de media de población es de población de dos entre medidas pareadas de
la prueba igual o no que un grupos distintos son o no una población es o no igual
valor específico iguales a cero
La diferencia media de
La frecuencia cardíaca La frecuencia cardíaca
Ejemplo: frecuencias cardíacas de un
media de un grupo de media de dos grupos de
comprobar grupo de personas antes y
personas es igual a 65 personas es la misma o
si... después de hacer ejercicio
o no no
es cero o no
Estimación
Media de la muestra de Media de las diferencias
de la media Media de la muestra
cada grupo entre pares de la muestra
de población
Desconocida, usamos
Desviación Desconocida, usamos
Desconocida, usamos desviación estándar de las
estándar de desviación estándar para
desviación estándar diferencias entre pares de
la población cada grupo
medidas
Número de Suma de observaciones Número de observaciones
Grados de observaciones por en cada muestra menos 2, pareadas de la muestra
libertad muestra menos 1, o: o: menos 1, o:
n–1 n1 + n2 – 2 n–1

La tabla anterior solo muestra las pruebas t para medias de población. Otra prueba t
habitual es para coeficientes de correlación. Esta prueba t se usa para determinar si un
coeficiente de correlación tiene una diferencia de cero significativa. 

Pruebas unilaterales frente a bilaterales


Cuando establece la hipótesis, también establece si su prueba es unilateral o bilateral. Debe
tomar esta decisión antes de reunir los datos o de empezar cualquier cálculo. Esta decisión
se toma en las tres pruebas t sobre medias.
Para explicarlo, usemos un ejemplo de prueba t. Supongamos que tenemos una muestra
aleatoria de barritas de proteínas, y la etiqueta de las mismas indica 20 gramos de proteína
en cada barrita. La hipótesis nula es que la media poblacional desconocida es 20.
Supongamos que solo queremos saber si los datos indican que tenemos una media
poblacional distinta. En este caso, nuestras hipótesis son:
Ho:μ=20

Ha:μ≠20

Aquí tenemos una prueba bilateral. Usaremos los datos para determinar si la media de la
muestra es lo bastante distinta de 20, por encima o por debajo, como para declarar que la
media poblacional desconocida es distinta de 20.

Supongamos que queremos saber si lo que pone en la etiqueta es correcto. ¿Los datos
apoyan la idea de que la media poblacional desconocida es de al menos 20? ¿O no? En este
caso, nuestras hipótesis son:
Ho:μ>=20

Ha:μ<20

Aquí tenemos una prueba unilateral. Usaremos los datos para determinar si la media de la
muestra es lo bastante inferior a 20 como para rechazar la hipótesis de que la media
poblacional desconocida es igual o mayor a 20.

Consulte la sección de «Colas para pruebas de hipótesis» en la página sobredistribución t


para ver imágenes que ilustran los conceptos de pruebas unilaterales y bilaterales.

Cómo realizar una prueba t


Para todas las pruebas t que implican medias, el análisis conlleva los siguientes pasos:

1. Defina su hipótesis nula (Ho

) y alternativa (Ha
 ) antes de reunir los datos.
 Decida el valor alfa (o valor α). Esto implica determinar el riesgo que desea correr de
llegar a una conclusión errónea. Por ejemplo, digamos que define α=0,05 al comparar dos
grupos independientes. En este caso decide correr un riesgo del 5 % de concluir que las
medias poblacionales desconocidas son distintas cuando no lo son.
 Revise posibles errores de datos.
 Revise las asunciones de la prueba.
 Haga la prueba y saque sus conclusiones. Todas las pruebas t de medias implican
calcular la estadística de la prueba. A continuación, compare la estadística de la prueba con
el valor teórico de la distribución t. El valor teórico implica tanto al valor alfa como a los
grados de libertad de sus datos. Para más detalles, visite las páginas de la prueba t de una
muestra, la prueba t de dos muestras y la prueba t pareada.

La prueba t de dos muestras


¿Qué es la prueba t de dos muestras?
La prueba t de dos muestras (también llamada prueba t de muestras independientes) es un
método utilizado para probar si las medias de población desconocidas de dos grupos son
iguales o no.

¿Es lo mismo que una prueba A/B?


Sí, una prueba t de dos muestras se utiliza para analizar los resultados de pruebas A/B.

¿Cuándo puedo usar esta prueba?


Puede utilizar la prueba cuando los valores de sus datos son independientes, son elegidos
aleatoriamente de dos poblaciones normales y los dos grupos independientes tienen
varianzas iguales.

¿Y si tengo más de dos grupos?


Utilice un método de comparación múltiple. El análisis de varianza (ANOVA) es uno de
ellos. Otros métodos de comparación múltiple son la prueba de Tukey-Kramer de todas las
diferencias por pares, el análisis de medias (ANOM) para comparar medias grupales con la
media general o la prueba de Dunnett para comparar cada media grupal con una media de
control.

¿Y si las varianzas de mis dos grupos no son iguales?


Aún puede utilizar la prueba t de dos muestras. Utiliza una estimación distinta de la
desviación estándar. 

¿Y si mis datos no tienen una distribución próxima a la


normal?
Si los tamaños de sus muestras son muy pequeños, es posible que no pueda hacer la prueba
de normalidad. Puede que deba basarse en su comprensión de los datos. Si no puede
suponer normalidad de forma segura, puede efectuar una prueba no paramétrica que no
asume la normalidad.
Uso de la prueba t de dos muestras
En las secciones siguientes comentamos qué se necesita para efectuar la prueba, cómo
comprobar nuestros datos, cómo llevar a cabo la prueba y detalles estadísticos.

¿Qué necesito?

Para la prueba t de dos muestras, necesitamos dos variables. Una variable define los dos
grupos. La segunda variable es la medida de interés.

También tenemos una idea, o hipótesis, de que la medias de las poblaciones subyacentes de
los dos grupos son diferentes. He aquí un par de ejemplos:

 Tenemos estudiantes que hablan inglés como primera lengua y otros que no. Todos los
estudiantes realizan una prueba de lectura. Nuestros dos grupos son los hablantes de
inglés nativos y los no nativos. Nuestras medidas son las puntuaciones de las pruebas.
Nuestra idea es que las puntuaciones medias para las poblaciones subyacentes de
hablantes de inglés nativos y no nativos no son iguales. Queremos saber si la puntuación
media para la población de hablantes de inglés nativos es diferente de la de las personas
que aprendieron inglés como segundo idioma.
 Medimos los gramos de proteína en dos marcas diferentes de barras energéticas.
Nuestros dos grupos son las dos marcas. Nuestra medida es los gramos de proteína en
cada barra energética. Nuestra idea es que la media de gramos de proteína para las
poblaciones subyacentes de las dos marcas puede ser diferente. Queremos saber si
tenemos pruebas de si la media de gramos de proteína para las dos marcas de barras
energéticas es diferente.

Suposiciones de la prueba t de dos muestras

Para llevar a cabo una prueba válida:

 Los valores de los datos deben ser independientes. Las medidas de una observación no
afectan a las medidas de cualquier otra observación.
 Los datos de cada grupo se deben obtener a través de una muestra aleatoria de la
población.
 Los datos de cada grupo tienen distribución normal.
 Los valores de datos son continuos.
 Las varianzas de los dos grupos independientes son iguales.

Para grupos de datos muy pequeños, puede ser difícil probar estos requisitos. A
continuación comentamos cómo comprobar los requisitos utilizando software y qué hacer si
un requisito no se cumple.

Ejemplo de prueba t de dos muestras


Una forma de medir el estado físico de una persona es medir su porcentaje de grasa
corporal. El porcentaje de grasa corporal promedio varía con la edad, pero según ciertas
pautas, el intervalo normal para hombres es del 15-20 % de grasa corporal, y para mujeres,
del 20-25 %.

Los datos de muestra vienen de un grupo de hombres y mujeres que hicieron ejercicio en un
gimnasio tres veces por semana durante un año. Luego, su entrenador medía la grasa
corporal. Los datos se muestran en la tabla siguiente.

Tabla 1: Porcentaje de grasa corporal agrupado por género


Agrupar Porcentajes de grasa corporal

Hombres 13,3 6,0 20,0 8,0 14,0

19,0 18,0 25,0 16,0 24,0

15,0 1,0 15,0

Mujeres 22,0 16,0 21,7 21,0 30,0

26,0 12,0 23,2 28,0 23,0

Se puede ver claramente una cierta superposición en las medidas de grasa corporal para los
hombres y las mujeres en nuestra muestra, pero también algunas diferencias. Con solo
mirar los datos, es difícil extraer conclusiones sólidas sobre si las poblaciones subyacentes
de hombres y mujeres del gimnasio tienen la misma media de grasa corporal. Ese es el
valor de las pruebas estadísticas: ofrecen una forma común y estadísticamente válida de
tomar decisiones, de modo que todas las personas tomen la misma decisión sobre el mismo
conjunto de valores de datos.

Comprobar los datos

Vamos a empezar por responder lo siguiente: ¿Es la prueba tde dos muestras un método
adecuado para evaluar la diferencia de grasa corporal entre hombres y mujeres?

 Los valores de datos son independientes. La grasa corporal de cualquier persona no


depende de la grasa corporal de otra persona.
 Suponemos que las personas medidas representan una muestra aleatoria simple de la
población de miembros del gimnasio.
 Asumimos que los datos tienen una distribución normal, y podemos comprobar esta
suposición.
 Los valores de datos son las medidas de grasa corporal. Las medidas son continuas.
 Asumimos que las varianzas para hombres y mujeres son iguales, y podemos comprobar
esta suposición.
Antes de pasar al análisis, debemos siempre echar un vistazo rápido a los datos. En la
siguiente figura se muestran histogramas y estadísticas de resumen para los hombres y las
mujeres.
Figura 1: Histograma y estadísticas de resumen para los datos de grasa corporal

Los dos histogramas están en la misma escala. Con solo un vistazo rápido, podemos ver
que no hay puntos muy inusuales, o valores atípicos. Los datos tienen aproximadamente
forma de campana, así que nuestra idea inicial de una distribución normal parece razonable.

Al examinar la estadística del resumen, vemos que las desviaciones estándar son similares.
Esto da fuerza a la idea de varianzas iguales. Esto también podemos comprobarlo utilizando
una prueba de varianzas.

A partir de estas observaciones, la prueba t de dos muestras parece un método apropiado


para probar si hay una diferencia de medias.

Cómo efectuar la prueba t de dos muestras

Para cada grupo, necesitamos el promedio, la desviación estándar y el tamaño muestral.


Estos valores se muestran en la siguiente tabla.

Tabla 2: Estadísticas de promedio, desviación estándar y tamaño muestral agrupadas


por género
Tamaño Promedio (X- Desviación
Agrupar
muestral (n) barra) estándar (s)

Mujeres 10 22,29 5,32

Hombres 13 14,95 6,84

Sin necesidad de hacer ninguna prueba, podemos ver que los promedios para hombres y
mujeres en nuestra muestra no son los mismos. Pero ¿hasta qué punto son diferentes? ¿Son
los promedios “lo bastante próximos” como para que podamos sacar la conclusión de que la
media de grasa corporal es la misma para la población mayor de hombres y mujeres del
gimnasio? ¿O son los promedios demasiado diferentes como para que podamos sacar esa
conclusión?

Explicaremos en mayor detalle los principios en los que se basa la prueba t de dos muestras
en la sección de detalles estadísticos, más abajo, pero antes vamos a recorrer todos los
pasos, de principio a fin. Empezaremos por calcular nuestra estadística de prueba. Este
cálculo empieza por hallar la diferencia entre los dos promedios:

22,29 - 14,95 = 7,34

Esta diferencia en nuestras muestras estima la diferencia entre las medias de población para
los dos grupos.
A continuación, calculamos la desviación estándar combinada. Esto crea una estimación
combinada de la desviación estándar general. La estimación se ajusta para diferentes
tamaños de grupo. Primero, calculamos la varianza combinada:
s2p=((n1−1)s21)+((n2−1)s22)n1+n2−2

s2p=((10−1)5.322)+((13−1)6.842)(10+13−2)

=(9×28.30)+(12×46.82)21

=(254.7+561.85)21

=816.5521=38,88

A continuación, tomamos la raíz cuadrada de la varianza combinada para obtener la


desviación estándar combinada. Es decir:

√ 38.88 =6,24

Ahora tenemos todas las piezas para nuestra estadística de prueba. Tenemos la diferencia de
promedios, la desviación estándar combinada y los tamaños muestrales.  Así calculamos la
estadística de nuestra prueba:
t=diferencia de promedios de grupoerror estándar de la diferencia=7.34(6.24×√ (1/10+1/13) )=7.342.62=2,80

Para evaluar la diferencia entre las medias a fin de tomar una decisión sobre los programas
del gimnasio, comparamos la estadística de la prueba con un valor teórico de la distribución
t. Esta actividad tiene cuatro fases:

1. Decidimos el riesgo que estamos dispuestos a asumir por declarar una diferencia
significativa. Para los datos de grasa corporal, decidimos que estamos dispuestos a asumir
un riesgo del 5 % por decir que las medias desconocidas de la población para hombres y
mujeres no son iguales cuando en realidad lo son. En lenguaje de estadísticas,
establecemos el nivel de significación, α , en 0,05. Es una buena idea tomar esta decisión
antes de recopilar los datos y de calcular las estadísticas de la prueba.
2. Calculamos una estadística de prueba. Nuestra estadística de prueba es de 2,80.
3. Hallamos el valor teórico a partir de la distribución t basado en nuestra hipótesis nula que
afirma que las medias para hombres y mujeres son iguales. En la mayor parte de libros de
estadística hay tablas de valores para la distribución t que se pueden consultar. También
se pueden encontrar en línea. La situación más probable es utilizar software y no tablas
impresas.
Para hallar este valor, necesitamos el nivel de significación (α = 0,05) y los grados de
libertad. Los grados de libertad (gl) se basan en el tamaño muestral de los dos grupos.
Para los datos de grasa corporal, es:

df=n1+n2−2=10+13−2=21

3.

El valor de t con α = 0,05 y 21 grados de libertad es 2,080.


4. Comparamos el valor de nuestra estadística (2,80) con el valor de t. Como 2,80 > 2,080,
rechazamos la hipótesis nula de que la media de grasa corporal para hombres y mujeres es
igual, y llegamos a la conclusión de que tenemos pruebas de que la grasa corporal en la
población es distinta entre hombres y mujeres.

Detalles estadísticos

Vamos a echar un vistazo a los datos de grasa corporal y a la prueba t de dos muestras
utilizando términos estadísticos.

Nuestra hipótesis nula es que las medias de población subyacente son iguales. La hipótesis
nula se escribe así:
Ho:μ1=μ2

La hipótesis alternativa es que las medias no son iguales. Esto se expresa así:
Ho:μ1≠μ2

Calculamos el promedio de cada grupo, y luego la diferencia entre los dos promedios. Esto
se expresa así:
¯¯¯¯¯x1−¯¯¯¯¯x2

Calculamos la desviación estándar combinada. Esto supone que las varianzas de la


población subyacente son iguales. La fórmula de varianza combinada se escribe así:
s2p=((n1−1)s21)+((n2−1)s22)n1+n2−2

La fórmula presenta el tamaño muestral para el primer grupo como n1 y para el segundo
grupo como n2. Las desviaciones estándar para los dos grupos son s1 y s2. Esta estimación
permite que los dos grupos tengan un número diferente de observaciones. La desviación
estándar acumulada es la raíz cuadrada de la varianza, y se escribe como sp.
¿Y si el tamaño muestral de ambos grupos es el mismo? En esta situación, la estimación
acumulada de la varianza es simplemente el promedio de las varianzas para ambos grupos:
s2p=(s21+s22)2

La estadística de la prueba se calcula como:

t=(¯¯¯¯x1−¯¯¯¯x2)sp√ 1/n1+1/n2

El numerador de la estadística de la prueba es la diferencia entre los promedios de los dos


grupos. Es una estimación de la diferencia entre las dos medias desconocidas de las
poblaciones. El denominador es una estimación del error estándar de la diferencia entre las
dos medias desconocidas de las poblaciones. 

Detalle técnico: para una sola media, el error estándar es s/√ n

 . La fórmula anterior amplía esta idea a dos grupos que utilizan una estimación combinada
para s (desviación estándar) y que pueden tener tamaños de grupo distintos.

A continuación comparamos la estadística de la prueba con un valor t, con nuestro valor


alfa elegido y los grados de libertad de nuestros datos. Utilizando como ejemplo los datos
de grasa corporal, establecemos α = 0,05. Los grados de libertad (gl) se basan en los
tamaños de los grupos, y se calculan así:
df=n1+n2−2=10+13−2=21

La fórmula muestra el tamaño muestral para el primer grupo como n1 y para el segundo
grupo como n2.  Los estadísticos escriben el valor de t con α = 0,05 y 21 grados de libertad
como:
t0,05,21

El valor t con α = 0,05 y 21 grados de libertad es de 2,080. Nuestra comparación tiene dos
posibles resultados:

 La estadística de la prueba es menor que el valor de t. No puede rechazar la hipótesis de


medias iguales. Concluye que los datos apoyan la suposición de que los hombres y las
mujeres tienen la misma media de grasa corporal.
 La estadística de la prueba es mayor que el valor de t. Rechaza la hipótesis de medias
iguales. No llega a la conclusión de que los hombres y las mujeres tienen el mismo
promedio de grasa corporal.

Prueba t con varianzas desiguales

Cuando las varianzas de los dos grupos no son iguales, no podemos utilizar la estimación
combinada de la desviación estándar. Lo que hacemos es tomar el error estándar de cada
grupo por separado. La estadística de la prueba es:
t=(¯¯¯¯x1−¯¯¯¯x2)√ s21/n1+s22/n2

El numerador de la estadística de la prueba es el mismo. Es la diferencia entre los


promedios de los dos grupos. El denominador es una estimación del error estándar global
de la diferencia entre medias. Se basa en el error estándar de cada grupo por separado.

El cálculo de los grados de libertad para el valor de t es más complejo con varianzas
desiguales que con varianzas iguales, y se suele encargar a los paquetes de software
estadístico. La clave está en recordar que no se puede utilizar la estimación combinada de la
desviación estándar y, por tanto, no se puede utilizar la fórmula simple para los grados de
libertad.

Probar si hay normalidad

La hipótesis de normalidad es más importante cuando los dos grupos tienen tamaños


muestrales pequeños que en el caso de que sean grandes.

Las distribuciones normales son simétricas, es decir, "iguales" a ambos lados del centro.
Las distribuciones normales no tienen valores extremos ni valores atípicos. Puede
comprobar estas dos características de una distribución normal con gráficos. Antes
decidimos que los datos de la grasa corporal estaban “suficientemente próximos” a la
distribución normal como para seguir adelante con la hipótesis de normalidad. En la figura
siguiente se muestra un gráfico de cuantiles normales para hombres y mujeres, que da
apoyo a nuestra decisión.
Figura 2: Gráfico de cuantiles normales para las medidas de grasa corporal para hombres y mujeres

También puede llevar a cabo una prueba formal de normalidad utilizando software. En la
figura anterior se muestran los resultados de la prueba de normalidad con el software JMP.
Hacemos pruebas de grupo por separado. Tanto la prueba para hombres como para mujeres
muestran que no podemos rechazar la hipótesis de distribución normal. Podemos seguir
adelante con la hipótesis de que los datos de grasa corporal para hombres y mujeres tienen
una distribución normal.

Prueba de varianzas desiguales

La prueba de varianzas desiguales es compleja. No mostraremos los cálculos en detalle,


pero sí los resultados del software JMP. La figura a continuación muestra los resultados de
una prueba de varianzas desiguales para los datos de grasa corporal.

Figura 3: Prueba de varianzas desiguales para los datos de grasa corporal

Sin entrar en detalles de los distintos tipos de pruebas de varianzas desiguales, utilizaremos
la prueba F. Antes de hacer la prueba, decidimos aceptar un riesgo del 10 % de concluir
que las varianzas son iguales cuando no lo son. Esto significa que hemos definido α = 0,10.

Como en el caso de la mayor parte del software estadístico, JMP muestra el valor p de una
prueba. Se trata de la probabilidad de hallar un valor más extremo que el observado para la
estadística de la prueba. Es difícil calcular esto a mano. Para la figura anterior, si la
estadística de la prueba F es 1,654, el valor p es 0,4561. Esto es mayor que nuestro valor de
α: 0,4561 > 0,10. No se puede rechazar la hipótesis de varianzas iguales. En términos
prácticos, podemos seguir adelante con la prueba t para dos muestras de varianzas iguales
para los dos grupos.

Comprender los valores p

Utilizando una visualización, se puede comprobar si la estadística de la prueba es un valor


más extremo en la distribución. En la figura inferior se muestra una distribución t con 21
grados de libertad.
Figura 4: Distribución t con 21 grados de libertad y α = 0,05

Como nuestra prueba es bilateral y hemos definido α = 0,05, la figura muestra que el valor
de 2,080 “corta” el 2,5 % de los datos en cada una de las dos colas. Solo el 5 % de los datos
globales está más lejos en las colas que 2,080. Como nuestra estadística de la prueba de
2,80 está más allá del punto de corte, rechazamos la hipótesis nula de medias iguales.

Combinarlo todo con el software

En la siguiente figura se muestran los resultados de la prueba t para dos muestras con los
datos de grasa corporal del software JMP.
Figura 5: Resultados de la prueba t para dos muestras del software JMP

Los resultados de la prueba t para dos muestras que supone varianzas iguales son los
mismos que nuestros cálculos anteriores. La estadística de la prueba es 2,79996. El
software muestra resultados para una prueba bilateral y para las pruebas unilaterales. La
prueba bilateral es la que queremos (Prob > |t|). Nuestra hipótesis nula es que la grasa
corporal media para hombres y mujeres es igual. Nuestra hipótesis alternativa es que la
grasa corporal media no es igual. Las pruebas unilaterales son para hipótesis alternativas
unilaterales; por ejemplo, para una hipótesis nula de la grasa corporal media para hombres
es menor que en el caso de las mujeres.

Podemos rechazar la hipótesis de grasa corporal media igual para los dos grupos y concluir
que tenemos pruebas de que la grasa corporal es diferente en la población entre hombres y
mujeres. El software muestra un valor p de 0,0107. Decidimos aceptar un riesgo del 5 % de
concluir que la grasa corporal media para hombres y para mujeres es distinta, cuando no lo
es. Es importante tomar esta decisión antes de llevar a cabo la prueba estadística.

La figura muestra también los resultados para la prueba t que no asume varianzas iguales.
Esta prueba no utiliza la estimación combinada de la desviación estándar. Como se ha
mencionado anteriormente, esta prueba tiene también una fórmula compleja para grados de
libertad. Se puede ver que los grados de libertad son 20,9888. El software muestra un valor
de p de 0,0086. De nuevo, con nuestra decisión de un riesgo del 5 %, podemos rechazar la
hipótesis nula de grasa corporal igual para hombres y para mujeres.
Otros temas
¿Y si tengo más de dos grupos?

Si hay más de dos grupos independientes, no se puede utilizar la prueba t para dos
muestras. Se debe utilizar un método de comparación múltiple. Uno de estos métodos es
ANOVA, o análisis de varianza. Otros métodos de comparación múltiple son la prueba de
Tukey-Kramer de todas las diferencias por pares, el análisis de medias (ANOM) para
comparar medias grupales con la media general o la prueba de Dunnett para comparar cada
media grupal con una media de control.

¿Y si mis datos no tienen una distribución normal?

Si los tamaños de sus muestras son muy pequeños, es posible que sea difícil hacer la prueba
de normalidad. En esa situación, puede que deba basarse en su comprensión de las medidas.
Por ejemplo, para los datos de grasa corporal, el entrenador sabe que la distribución de la
grasa corporal subyacente es una distribución normal. Incluso para una muestra pequeña, el
entrenador probablemente continuará con la prueba t y asumirá normalidad.

¿Y si se sabe que las medidas subyacentes no siguen una distribución normal? ¿O si el


tamaño muestral es grande y se rechaza la prueba de normalidad? En esta situación, se
puede utilizar el análisis no paramétrico. Estos tipos de análisis no dependen de una
hipótesis de que los valores de datos siguen una distribución específica. Para la prueba t
para dos muestras, la prueba de suma de rangos de Wilcoxon es una prueba no paramétrica
que se podría utilizar.

Prueba t de Student para Muestras Independientes


Por Félix Ramos Salamanca

Año de 2010

Este procedimiento se utiliza para determinar si dos variables están relacionadas. La


variable independiente es una variable dicotómica por lo cual se tienen dos muestras -cada
una asociada con un valor de la variable independiente. Por ejemplo, si la variable
independiente es sexo, se seleccionaría aleatoriamente a un grupo de mujeres y otro de
hombres. Si la variable independiente fuera la presencia o no de música en un ambiente de
trabajo, se podría seleccionar aleatoriamente a dos grupos de trabajo. Un grupo trabajaría
en un lugar ambientado con música y el otro grupo no.

La prueba t de Student es una prueba paramétrica, por lo que para que su uso sea válido se
requiere cumplir con las siguientes suposiciones básicas:
Suposiciones básicas para la aplicación de pruebas
parametricas
 Variable Dependiente medida por lo menos en un nivel de intervalos.
 Asignación aleatoria de los individuos que conforman cada una de las muestras.
 Muestras representativas en términos de número y de composición.
 Distribución normal de la variable dependiente en la población bajo estudio.

Estas suposiciones tienen su razón de ser. La primera condición es clara pues hay que
calcular medias y varianzas, lo que hace necesario que esta variable tenga la propiedad de
aditividad que solamente se alcanza en el nivel de medición de intervalos. Las otras tres
condiciones tienen la finalidad de establecer las condiciones para que las leyes de la
probabilidad operen óptimamente.

Adicionalmente la prueba t de Student hace la suposición de que las varianzas de la


variable dependiente en ambas muestras son aproximadamente iguales.

Las pruebas paramétricas pueden tolerar leves infracciones a estas suposiciones básicas: las
muestras pueden ser pequeñas, la distribución de la variable dependiente puede apartarse
algo de la normalidad, etcetera. Sin embargo cuando son muchas o graves estas
infracciones deberia optarse por un procedimiento no paramétrico, como una U de Mann-
Whitney, una prueba de la mediana o incluso una Ji-cuadrada.

La aplicación de la prueba t de Student plantea dos modelos alternativos. De acuerdo con el


primer modelo, ambas muestras provienen de la misma población, por lo que si tomamos
sus medias y las comparamos, la diferencia obtenida debería ser pequeña -la diferencia que
se esperaría como producto del error de muestreo. El otro modelo plantea que la variable
independiente tiene efecto sobre la variable dependiente, por lo que ambos grupos no son
iguales y la diferencia entre ellos debería ser grande en comparación con lo que se esperaría
del error de muestreo.

Por ejemplo supongamos que la variable independiente es el sexo (masculino y femenino) y


la variable dependiente es la estatura. Para hacer nuestro estudio seleccionaríamos al azar
una muestra grande de mujeres y otra muestra grande de hombres. De acuerdo con el
primer modelo, supondríamos que ambas muestras están formadas por humanos y la
diferencia entre los promedios de ambos grupos serían pequeñas. El segundo modelo
supone que la variable sexo influye sobre la estatura y que se tendría no una sino dos
poblaciones (una formada por hombres y otra formada por mujeres) que tienen valores
diferentes de estatura: en este caso la diferencia entre las medias de estatura de ambas
muestras seria grande.

Para evaluar la magnitud de la diferencia entre las medias se establece como modelo una
distribución que representa las diferencias que cabria esperar del error de muestreo. De esta
manera, la diferencia entre ambas muestras se compara con el error estándar de esta
distribución muestral de diferencias. El resultado de la comparación es un valor
estandarizado (t) que deberá ubicarse en la distribución t de Student. La forma de la
distribución proporciona la probabilidad de encontrar dentro de una misma población una
diferencia igual o mayor que la obtenida entre las medias de nuestros grupos. Si es poco
probable que esa diferencia provenga de dos grupos de la misma población se podría
concluir que los dos grupos son de diferentes poblaciones lo que indicaria que la variable
independiente tiene una relación con la variable dependiente.

Ejemplo de prueba de hipótesis


Ahora veremos un ejemplo de la aplicación de la prueba t de Student en la prueba de
hipótesis.

La suposición que hace la hipótesis de nulidad es que ambas muestras pertenecen a la


misma distribución. De este modo, se plantea una distribución muestral formada por todas
las diferencias que se pueden formar a partir de dos muestras de esa distribución (la
distribución muestral de diferencias). El hallazgo de una diferencia muy grande (p ≤ 0.05)
entre las medias de nuestros datos, arrojaría dudas sobre la hipótesis de nulidad, lo que nos
permitiría rechazarla, reclamando el apoyo para la hipótesis alterna.

En esta página se muestra un procedimiento para la estimación de esta probabilidad. Se


reúnen los datos por grupo y se calcula la media de cada grupo. El signo de la diferencia
entre ambas medias debe coincidir con el signo de la diferencia anticipado en la hipótesis
alterna, en caso de que ésta haya sido unidireccional; en caso de tener una hipótesis
bidireccional el signo no importa.

Como ejemplo vamos a suponer que se desea comparar a dos grupos de estudiantes
respecto de su habilidad de lectura después de haber impratido a uno de ellos un programa
instruccional. De acuerdo con el diseño empleado, los alumnos del primer grupo deberían
tener una ejecución diferente de la mostrada por los estudiantes del segundo grupo.

Datos
Grupo 2
Grupo 1
9 15 16 19 10
8 14 17 10 10 12 17 16 19 13
14 14 17 19 11 19 18 16 23 21
13 19 23 12 22 12
22 23 18 11

Las hipótesis estadísticas serían las siguientes:

     Es aceptable cualquier


H1: ≠     ---o tambien→ H1: - ≠0
diferencia
H0: =     ---o tambien→ H0: - = 0      La diferencia será mínima.

Para proceder a la prueba comenzamos por anotar el número de datos, la media y la


varianza de cada grupo, obteniendo los siguientes resultados:

Resultados por grupo


Cálculo Grupo 1 Grupo 2
n 16 19
13.5 17.6842
S2 12.5333 17.117
S 3.5402 4.1373
EE de la media 0.8851 0.9492

Como se puede ver, la media de la primera muestra es diferente de la media de la segunda


muestra, como lo propone la hipótesis alterna, por lo que procedemos a medir qué tan
grande es la diferencia entre las medias. Como primer paso obtendremos los intervalos de
confianza del 95% para las medias de ambos grupos:

Resultados por grupo


Calculo Grupo 1 Grupo 2
13.5 17.6842
12.0021 16.0778
IC
14.9979 19.2906

Se puede observar en esta tabla que los intervalos de confianza de ambas medias no se
traslapan, lo que permite anticipar que la diferencia entre ambas medias va a ser muy
grande.

Esta relación puede apreciarse en la siguiente gráfica. El punto central representa la media
de cada grupo y los bigotes se extienden a los limites superior e inferior del intervalo de
confianza respectivo.

 
20
0
22
20
18
16
14
12
10
Intervalos de confianza para ambas medias

En segundo lugar examinamos las varianzas para ver si se cumple la condición de


homoscedasticidad. En este caso el valor W de Levene es de 0.487 con 1 y 33 grados de
libertad. Como el valor crítico es F=6.3137 podemos continuar asumiendo que las
varianzas son homogéneas y calcular el error estándar de la distribución muestral de
diferencias a partir de la combinacion de varianzas con la fórmula

y los resultados son:

Calculo Resultado
Dif -4.1842
EEdif 1.3156
t -3.1804
gl 33
Sig. p < 0.05

La diferencia entre ambos grupos es significativa con p < 0.05 para una prueba bilateral,
por lo que se puede considerar que el programa instruccional sí influyó en la habilidad de
lectura.

Prueba T de Wilcoxon
La prueba T de Wilcoxon es un procedimiento estadístico de significancia no paramétrico. Se
supone que se emplea un diseño de muestras relacionadas, que la variable independiente es
dicotómica y la variable dependiente es una variable continua y cuya medición es por lo menos
ordinal. Esta prueba es una excelente alternativa a la prueba t de Student para muestras
relacionadas. Se utiliza cuando la variable dependiente está en un nivel de medición de intervalos
pero por las características de la investigación no cumplen con los supuestos básicos de las
pruebas paramétricas o cuando la variable dependiente es definitivamente ordinal.

La prueba T de Wilcoxon evalúa la probabilidad de que las diferencias encontradas entre


dos muestras relacionadas se deba únicamente el error de muestreo a partir de la
comparación de pares y tiene la ventaja de que da más peso a las diferencias mayores

Procedimiento
El primer paso consiste en organizar los datos de los grupos en pares ordenados como lo
muestra la Tabla 1. En la primera fila se colocan los datos de el primer par: del lado
izquierdo el correspondiente al sujeto del Grupo 1 y del lado derecho el correspondiente al
sujeto del grupo 2 y de la misma manera los datos de los siguientes pares de sujetos.

A continuación, en cada par se le resta el valor de la primera columna el valor de la


segunda columna y la diferencia se coloca en la tercera columna. El siguiente paso consiste
en asignar el rango correspondiente a los valores absolutos de las diferencias, esto es, la
diferencia absoluta menor recibe el rango 1, la que le sigue tiene el rango 2, etcétera sin
tomar en cuenta el signo. Una forma de hacerlo consiste en construir una tabla similar a la
Tabla 2. En la primera columna se escriben los diferentes valores (absolutos) de las
diferencias de menor a mayor. En la segunda columna se escribe la frecuencia con que se
presenta cada diferencia (empates). En la tercera columna se escriben los rangos que
corresponderían a esas diferencias si fueran valores distintos. La cuarta columna contendrá
el promedio de los rangos que corresponden a cada diferencia, y la quinta columna tiene un
valor que se calcula con la fórmula:

donde fi es la frecuencia de cada diferencia. Estos valores se sumarán para obtener


un valor E que será útil para hacer una corrección en el valor de T por el número de
empates existente en nuestros datos

Las diferencias ei se escriben en la cuarta columna (Rd). Los rangos de las diferencias se
separan en las siguientes dos columnas de la tabla escribiendo en la quinta columna (R+)
los rangos que corresponden a las diferencias positivas y en se sexta columna (R-) los
rangos que corresponden a las diferencias negativas. Cuando la diferencia es cero, no se
asigna rango y el par es descartado de cualquier análisis posterior. Finalmente, se suman los
rangos de las columnas quinta y sexta. El valor menor será el valor T de Wilcoxon Para
determinar la significancia de T, se determina el número de diferencias distintas de cero y
con ese valor se consulta la tabla de significancia de T

Tabla 1. Procesamiento de datos Tabla 2. Cálculo de rangos de las diferencias

Grupo 1 Grupo 2 dif Rd R+ R- Rangos Rango


Diferencia fi ei
ocupados asignado
19 8 11 7 7
1 1 1 1 0
18 10 8 6 6
2 1 2 2 0
14 17 -3 3.5 3.5
3 2 3a4 3.5 3
12 12 0

12 10 2 2 2

19 18 1 1 1
6 1 5 5 0
16 10 6 5 5
8 1 6 6 0
16 13 3 3.5 3.5
11 1 7 7 0
17 17 0
E= 3
15 15 0

Sumas 24.5 3.5

Ndif 7

En este ejemplo, el valor T de Wilcoxon es 3.5, el cual debe consultarse en la tabla de


valores críticos de Wilcoxon.

eet = 5.656854249492381
Correccion: 3

Cuando el número de datos es mayor que el previsto en la tabla de T se puede estandarizar


el valor T considerando que la media de esta distribución es (14):

donde N es el número de diferencias distinto de cero (Ndif = 7)

y el error estándar (5.656854249492381) es:

Donde la suma de Ti es la suma de los valores T de la Tabla 2

El valor de z se calcula con la fórmula

que da como resultado -1.8562

En este caso, el valor de z se utiliza para consultar la tabla de la distribución normal de


probabilidades.
Prueba U de Mann-Whitney

La prueba U de Mann-Whitney es un procedimiento estadístico no paramétrico que se


emplea para comparar dos grupos independientes en los casos en que la variable
dependiente se encuentra al menos en un nivel de medición ordinal. Cuando la variable
dependiente se mide en un nivel de intervalos, se puede utilizar como una buena alternativa
a la prueba t de Student si no se está seguro de cumplir con las condiciones que exigen la
pruebas paramétricas.

El primer paso para efectuar una prueba U de Mann-Whitney es combinar los datos de
ambos grupos y ordenarlos. A continuación se les asigna un rango: al dato menor se le
asigna el rango 1, al siguiente el rango 2 y asi suscesivamente.

En caso de que haya varias puntuaciones iguales (empates) a cada valor se le asigna el
promedio de los rangos que les corresponderían si se les diera rangos suscesivos a cada una
de ellas.

En la Tabla 1 se presentan datos ficticios de dos grupos. En la primera columna se anotan todos los
datos diferentes. En la segunda columna se escribe la cuenta de cuántas veces se repite cada
valor.
En la tercera columna se anotan los rangos que le correspoderían si fuesen valores diferentes y en
la cuarta está el rango promedio (R asig). En la quinta columna se calcula el valor T que se obtiene
mediante la operación

Al final se suman los valores de T para hacer la corrección por empates.

A continuación se sustituyen los datos de la primera tabla por los rangos correspondientes y se
suman los rangos en cada grupo (R1 y R2). Esto se muestra en la Tabla 3.

Procedimiento para efectuar una prueba U de Mann-Whitney

Tabla 1. Datos Tabla 2. Asignación de rangos Tabla 3. Rangos

Gpo 1 Gpo 2 Dato t Rangos R asig T Gpo 1 Gpo 2

8 19 8 4 1a4 2.5 5 2.5 34

13 19 9 4 5a8 6.5 5 16 34

9 11 10 1 9 9 0 6.5 12

18 16 11 5 10 a 14 12 10 31 23.5

8 8 13 3 15 a 17 16 2 2.5 2.5
9 19

21.5 16
10 14
36.5 12
15 13
2.5 23.5
20 11
19 27
8 16 14 3 18 a 20 19 2
6.5 12
14 17 15 2 21 a 22 21.5 0.5
34 31
9 11 16 2 23 a 24 23.5 0.5
19 12
19 18 17 5 25 a 29 27 10
12 21.5
14 11 18 3 30 a 32 31 2
27 16
11 15 19 3 33 a 35 34 2
27 36.5
17 13 20 2 36 a 37 36.5 0.5
27 6.5
17 20 Suma de T[i] 39.5
6.5 27
17 9
31
9 17

Sumas:
18
R1 R2
337 366

A continuación se calculan los valores u para cada grupo. En la siguiente tabla se presentan
las fórmulas y los resultados u para cada grupo. El estadístico U de Mann-Whitney será el
menor de ambos valores.

Fórmula u U

195 147
147

La significancia de U puede obtenerse de la tabla de la distribución U cuando el grupo de


mayor tamaño es menor o igual a 20

Cuando N es mayor de 20, debe obtenerse la media y el error estándar de la distribución U


para estandarizar el valor de nuestro estadístico. Además necesitaremos la suma de la
columna T para ajustar el valor del error estándar de acuerdo a los empates encontrados en
los datos. Las fórmulas y los resultados se muestran en la siguiente tabla:

Fórmula Resultado

171

39.5

32.7545

La significancia de U se puede obtener convirtiendo este valor a un valor z mediante la


fórmula:

y la probabilidad de error se obtiene a partir de la tabla de la distribución normal.

Fórmula del coeficiente de correlación lineal


El coeficiente de correlación de Pearson permite analizar cómo de cerca está la nube de
puntos a aproximarse a una línea recta. Su fórmula es la siguiente:

Donde σxy es la covarianza o varianza conjunta de las variables X e Y, cuya fórmula es:

σx es la desviación típica de la variable X, que tiene como fórmula:


Y σy es la desviación típica de la variable Y, cuya fórmula es:

Valores posibles del coeficiente de correlación lineal

El valor del coeficiente de correlación lineal de Pearson, r, siempre estará


comprendido entre -1 y 1:

Si 0 < r  < 1,  existe una correlación lineal positiva y será más fuerte cuanto más se
aproxime a 1, es decir, los puntos se aproximarán más a una recta con pendiente positiva
cuanto más se aproxime r a 1:

Si -1 < r  < 0, existe una correlación lineal negativa y será más fuerte cuanto más se
aproxime a -1, es decir, los puntos se aproximarán más a una recta con pendiente negativa
cuanto más se aproxime r a -1:
Si r=1, tienen una correlación funcional, es decir, los puntos forman una recta con
pendiente positiva:

Si r=-1, tienen una correlación funcional, es decir, los puntos forman una recta con
pendiente negativa:
Si r=0, no existe ninguna clase de correlación lineal entre las variables, aunque sí puede
existir una correlación curvilínea:

<="" ins="" data-adsbygoogle-status="done" data-ad-status="filled">

Cómo calcular el coeficiente de correlación lineal.


Ejercicio resuelto
Vamos a ver cómo calcular el coeficiente de correlación lineal mientras resolvemos el
siguiente ejercicio:

Se sabe que el número de clientes diarios de un núcleo de población que acuden a un centro
comercial depende de la distancia entre ambos.  Los datos de seis centros comerciales y sus
distancias a un núcleo de población son los siguientes:
a) Hallar la media de cada variable

b) Hallar el coeficiente de correlación lineal

Apartado a:

Vamos a calcular la media de cada variable:

En primer lugar, colocamos ambos valores en una tabla, donde en la última fila realizamos
la suma total:

La media de x, será igual a la suma de los valores de x, entre el número total de datos de x:

El número total de datos es igual a 6:

Y la suma de todos los valores x lo obtengo de la última fila de la primera columna de la


tabla. Por tanto, la media de x es:

La media de «y», será igual a la suma de los valores de «y», entre el número total de datos
de «y»:
El número total de datos es igual a 6 y la suma de los valores «y» lo obtengo de la última
fila de la segunda columna de la tabla. La media de «y» es:

Ahora vamos a calcular la des

Apartado b:

Vamos a calcular el coeficiente de correlación lineal y para ello aplicamos su fórmula


correspondiente:

En este caso, los valores se repiten sólo una vez, por lo que f es igual a 1, tanto en la
covarianza como en las desviaciones típicas de cada variable:

Por tanto, la f desaparece de las fórmulas (porque multiplicamos por 1) y me quedan así:
Para calcular la covarianza tengo que calcular la suma de la multiplicación de cada valor de
x por su valor de «y» correspondiente. Eso lo hago añadiendo una tercera columna a la
tabla, donde en cada fila multiplico x por «y» y en la última fila sumo el valor de todas las
multiplicaciones:

Ese dato, lo sustituyo en la fórmula, junto con el de N, que es 6 y el de la media de cada


variable, que las he calculado en el apartado anterior y opero:

Ahora voy a calcular las desviaciones típicas de x y de «y». Para ello necesito la suma de
todos los valores de x y de «y» elevados al cuadrado y eso lo calculo añadiendo dos
columnas más a la tabla, una donde elevo al cuadrado cada valor de x de la fila y otro
donde elevo al cuadrado cada valor de «y» de la fila. En la última fila de cada columna
sumo todos los valores de la columna:

La suma de todos los valores de x al cuadrado la obtengo de la última fila de la cuarta


columna. Sustituyo ese valor en la formula, junto con el de N y la media de x y opero:
La suma de todos los valores de «y» al cuadrado la obtengo de la última fila de la quinta
columna. Sustituyo ese valor en la formula, junto con el de N y la media de «y» y opero:

Una vez tengo los valores de la covarianza y de ambas desviaciones típicas, procedo a
calcular el coeficiente de correlación lineal:

Vemos que r es muy próximo a -1, lo que quiere decir, que los puntos se ajustan bastante a
una recta con pendiente negativa.

Coeficiente de correlación de pearson


Para llevar a cabo la correlación de Pearson, debe cumplirse lo siguiente:

 La escala de medición debe ser una escala de intervalo o de proporción.


 Las variables deben estar distribuidas de manera aproximada.
 La asociación debe ser lineal.
 No debe haber valores atípicos en los datos.

Cómo se calcula el coeficiente de correlación de Pearson


La fórmula del coeficiente de correlación de Pearson es la siguiente:

Donde:

 "x" es igual a la variable número uno, "y" pertenece a la variable número dos, "zx"
es la desviación estándar de la variable
 uno, "zy" es la desviación estándar de la variable dos y "N" es el número de datos.
Interpretación del coeficiente de correlación de Karl
Pearson
El coeficiente de correlación de Pearson tiene por objeto indicar cuánto se asocian dos
variables entre sí para que

Entrada Relacionada:   Raíces de polinomios

Correlación menor que cero: Si la correlación es menor que cero, significa que es negativa,
es decir, que las variables están inversamente relacionadas.

Cuando el valor de alguna variable es alto, el valor de la otra variable es bajo. Cuanto más
se acerca a -1, más clara es la covariación extrema. Si el coeficiente es igual a -1, nos
referimos a una correlación negativa perfecta.

Correlación mayor que cero: Si la correlación es igual a +1, significa que es perfectamente
positiva. En este caso significa que la correlación es positiva, es decir, que las variables
están directamente correlacionadas.

Cuando el valor de una variable es alto, el valor de la otra también es alto, lo mismo ocurre
cuando son bajas. Si está cerca de +1, el coeficiente será la covariación.

Correlación igual a cero: Cuando la correlación es igual a cero significa que no es posible
determinar algún sentido de covariación. Sin embargo, no significa que no haya una
relación no lineal entre las variables.

Cuando las variables son independientes significa que están correlacionadas, pero esto
significa que el resultado es verdadero.

Ventajas y desventajas del coeficiente de correlación de


Pearson
Entre las principales ventajas del coeficiente de correlación de Karl Pearson están

 El valor es independiente de cualquier unidad utilizada para medir las variables.


 Si la muestra es grande, la precisión de la estimación es más probable.

Algunas de las desventajas del coeficiente de correlación son

 Es necesario que las dos variables se midan a un nivel cuantitativo continuo.


 La distribución de las variables debe ser similar a la curva normal.
Entrada Relacionada:   Problemas de sistemas de ecuaciones con dos incognitas

Coeficiente de correlación de pearson ejercicios resueltos


 En una empresa de transporte trabajan 4 conductores. Los años de antigüedad de sus
permisos de conducir y el número de infracciones cometidas en el último año por cada uno
de ellos son los siguientes :

X : años de antigüedad 3 4 5 6
Y : infracciones 4 3 2 1

 Representar gráficamente los datos anteriores. Razonar si los datos muestran una
correlación positiva o negativa.
 Calcular el coeficiente de correlación e interpretarlo en términos de la situación real.

a)

Al aumentar los valores de X los valores de Y disminuye, por lo que la correlación de


ambas variables es negativa.

xi yi xi2 yi2 xi · yi


3 4 9 16 12
4 3 16 9 12
5 2 25 4 10
6 1 36 1 6
18 10 86 30 40

También podría gustarte