Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. Matriz de correlación
2. Interpretación de datos
3. Limpieza de Data Frame
1
Matriz de correlación
La matriz de correlación es utilizada para
determinar el tipo de relacion existe entre 2
tipos de variables a estudiar.
Se la determina a través del_
COEFICIENTE DE CORREALCION “r”
2
Matriz de correlación
El coeficiente de correlación lineal se expresa
con r, y mide la fuerza de la asociación lineal
entre dos variables
Estadística – Mario Triola
3
Matriz de correlación
El coeficiente de correlación lineal se expresa
con r, y mide la fuerza de la asociación lineal
entre dos variables. Este valor se puede
calcular de forma manual, pero por lo general
se utiliza software estadístico para calcularlo
Estadística – Mario Triola
4
Matriz de correlación
El valor calculado del coeficiente de correlación
lineal está siempre entre -1 y 1. Si “r” es cercano
a -1 o cercano a 1, parece haber una
correlación, pero si r es cercano a 0, no parece
haber una correlación lineal.
Estadística – Mario Triola
5
Matriz de correlación - EJEMPLO
6
Estadística – Mario Triola
Matriz de correlación
Para determinar que tan cerca de “0”, “1” o “-1” se encuentra el valor de “r”, se tiene la TABLA DE
VALORES CRITICOS DEL COEFICIENTE DE CORRELACION LINEAL “r2
Para el ejemplo:
● Por lo visto en las graficas, no tenemos evidencia suficiente para concluir que
hay una correlación lineal entre las longitudes de la huella del zapato y las
estaturas de los hombres.
9
Matriz de correlación – Valores de “P”
Si no hay correlación lineal entre dos variables, el
valor de P es la probabilidad de obtener datos
muestrales pareados con un coeficiente de
correlación lineal r que sea al menos tan extremo
como el obtenido a partir de los datos muestrales
emparejados.
Estadística – Mario Triola
10
Matriz de correlación – Valores de “P”
● Interpretación de un valor P:
El valor P de 0.294 del ejemplo es alto. Muestra que existe una alta
probabilidad de obtener un coeficiente de correlación lineal de “r” = 0.591 (o
más extremo) por casualidad cuando no hay correlación lineal entre las dos
variables. Debido a que la probabilidad de obtener “r “= 0.591 o un valor más
extremo es tan alta (29.4% de probabilidad), concluimos que no hay suficiente
evidencia para afirmar que existe una correlación lineal entre las longitudes de
la huella del zapato y las estaturas de los hombres.
● Sólo un valor de P pequeño, como 0.05 o menor (o una probabilidad de 5% o
menos), sugiere que no es probable que los resultados de la muestra
ocurran por casualidad cuando no hay correlación lineal, por lo que un valor
de P pequeño apoya la conclusión de que existe una correlación lineal entre
las dos variables.
11
Estadística – Mario Triola
Limpieza de Data Frame
● Es un procedimiento para revisar la estructura de datos obtenidos y
organizar las columnas, sustituir los valores nulos, separar en columnas
aquellas que sean necesarias y eliminar aquello que no aporte información
útil, para finalmente obtener un conjunto de datos con el cual poder trabajar
de forma fácil y sencilla gracias a una buena infraestructura de dato
12
Estadística – Mario Triola
ACTIVIDAD:
Ver el siguiente video sobre matriz
de correlación
https://www.youtube.com/watch?v
=LJ6SX7PBreg&t=496s
ACTIVIDAD:
Después de ver el video interpretar el siguiente grafico