Análisis de Correlación Lineal

La distribución normal es un ejemplo
importante referido a una variable

aleatoria continua (la variable puede
tomar cualquier valor real)
Podemos usar la distribución normal
DISTRIBUCIÓN como una herramienta para calcular
probabilidades.
NORMAL Ejemplo, puede usarse para
aproximar la distribución binomial
Esta propiedad está en el origen de
la curva normal.
LA FUNCIÓNDE DENSIDADDE UNA
DISTRIBUCIÓNNORMAL TIENEFORMA DE
CAMPANA. ES SIMÉTRICAENTORNOA LA
MEDIA. EL ÁREATOTAL BAJO LA CURVAES 1
(COMOCORRESPONDEA UNA FUNCIÓN
DE DENSIDAD).
La densidad está concentrada en

torno a la media y se hace muy
pequeña conforme nos alejamos
del centro por la derecha o la
izquierda (las 'colas' de la
distribución). Cuanto más alejado
es el valor del centro de la
función de densidad menos
probable es observar ese valor.
Dos parámetros determinan una
distribución normal: la media y la
desviación estándar. Por tanto,
puede ser adecuado hablar de las
distribuciones normales, en
plural.
LA MEDIA DE LA DISTRIBUCIÓN
DETERMINAELCENTRODE LA GRÁFICA
DE LA FUNCIÓNDE DENSIDAD.
SI CAMBIAMOSLA MEDIA LA FORMA
DE LA GRÁFICANO CAMBIA,
SIMPLEMENTESE TRASLADAA
DERECHAO IZQUIERDA.
LA FUNCIÓN DE DENSIDAD
TIENE DOS PUNTOS DE
INFLEXIÓN QUE ESTÁN
LOCALIZADOS A UNA
DISTANCIA DE LA MEDIA DE
UNA DESVIACIÓN TÍPICA (MÁS
Y MENOS).
AUMENTANDO LA DESVIACIÓN
ESTÁNDAR (SI NO MODIFICAMOS LA
MEDIA, EL CENTRO DE LA GRÁFICA NO
CAMBIA) LA FORMA DE LA CURVA
CAMBIA. LA CURVA SE HACE MÁS
ANCHA Y MENOS ALTA, ES DECIR, LA
DISPERSIÓN AUMENTA. CUANTO
MAYOR ES LA DESVIACIÓN ESTÁNDAR
MAYOR ES LA DISPERSIÓN DE LA
VARIABLE.
Si la desviación estándar es pequeña
la curva es más alta y estrecha. La
dispersión de la varible es menor.
La simetría de una distribución de
frecuencias hace referencia al grado
en que valores de la variable,
equidistantes a un valor que se
considere centro de la distribución
poseen frecuencias más o menos
iguales. Cuanto más similares sean,
más simétrica será la distribución;
cuanto más distintas, más asimétrica.
Media y mediana coinciden en las distribuciones simétricas. Si
sólo hay una moda (distribución unimodal), el valor de ésta
también será igual a las dos anteriores
Ejemplo de las puntuaciones de un grupo de sujetos en un test de habilidades sociales antes,
durante y después de recibir 6 sesiones de entrenamiento en habilidades sociales.
Desviación Estándar o Típica
La desviación estándar o desviación típica es una
medida que ofrece información sobre la dispersión
media de una variable. La desviación estándar es
siempre mayor o igual que cero.
Desviación: La desviación es la separación que existe

entre un valor cualquiera de la serie y la media.
Cálculo de la
Desviación:
En la imagen anterior tenemos 6 observaciones, es decir, N = 6. La
media de las observaciones está representada por la línea negra
situada en el centro del gráfico y es 3. Entenderemos por desviación, la
diferencia que existe entre cualquiera de las observaciones y la línea
negra. Así pues, tenemos 6 desviaciones.
1.Desviación -> (2-3) = -1
2.Desviación -> (4-3) = 1
3.Desviación -> (2-3) = -1
5.Desviación -> (2-3) = -1
Calculo de la Desviación Estándar
Covarianza
Nos permite saber cómo se comporta una variable
en función de lo que hace otra variable. Es decir,
cuando X sube ¿Cómo se comporta Y? Así pues, la
Covarianza covarianza puede tomar los siguiente valores:
Covarianza (X,Y) es menor que cero cuando “X”
sube e “Y” baja. Hay una relación negativa.
Covarianza (X,Y) es mayor que cero cuando “X”
sube e “Y” sube. Hay una relación positiva.
La covarianza es el valor
Covarianza (X,Y) es igual que cero cuando no hay
que refleja en qué cuantía
relación existente entre las variables “X” e “Y”.
dos variables aleatorias
varían de forma conjunta
respecto a sus medias.
σ 𝑥 − 𝑥ҧ 𝑦 − 𝑦ത
𝐶𝑜𝑣(X, Y) =
𝑛
Ejemplo de la Covarianza σ 𝒙−𝒙
ഥ 𝒚−𝒚
ഥ
𝑪𝒐𝒗(𝐗, 𝐘) =
𝒏
¿Cómo interpretamos
este resultado?
Este 4 nos está diciendo, al

ser mayor que cero, que estas
dos variables tienen una
relación positiva. Para saber
la relación ajustada entre las
dos variables deberíamos
calcular la correlación lineal.
CÁLCULO DE LA COVARIANZA
Supongamos que tenemos dos variables, X e Y, con los siguientes
datos:
• X = (x1, x2, x3) = (0, 4, 8)
• Y = (y1, y2, y3) = (3, 9, 9)
Calculamos la media aritmética de cada una de las variables:
• X’ = (0 + 4 + 8) /3 = 4
• Y’ = (3 + 9 + 9) /3 = 7
Una vez calculada la media aritmética hemos de calcular cuál es la
covarianza. Vamos a ello:
(0 – 4) x (3 – 7) + (4 – 4) x (3 – 7) + (8 – 4) x (9 – 7)
𝑪𝒐𝒗 𝐗, 𝐘 = = −𝟐. 𝟔𝟕
𝟑
Significa que la variable X y la variable Y guardan una
En este relación negativa, de manera que X e Y son
inversamente proporcionales la una respecto de la
supuesto, el otra, de manera que, en palabras más sencillas,
valor que cuando una variable aumenta, la otra variable
disminuye. No obstante, para poder conocer la
adquiere relación ajustada entre la variable X y la variable Y es
la covarianza es necesario llevar a cabo el cálculo de la correlación
lineal.
menor de 0. En cualquier caso, es necesario decir que dos
¿Qué quiere covarianzas de variables diferentes no son
comparables, ya que la unidad de medida de la
decir este covarianza será la unidad de medida de las variables.
resultado? De acuerdo con esto, no se puede comparar la
covarianza del peso y de la altura, por ejemplo.
Diagrama de dispersión
El diagrama de dispersión permite estudiar las
relaciones entre dos conjuntos asociados de datos
que aparecen en pares (por ejemplo, (x,y), uno de
cada conjunto). El diagrama muestra estos pares
como una nube de puntos. Las relaciones entre los
conjuntos asociados de datos se infieren a partir
de la forma de las nubes
ANÁLISIS DE
CORRELACIÓN LINEAL
Un signo positivo indica que existe una relación positiva
entre las dos variables; es decir, cuando la magnitud de
Coeficiente de una incrementa, la otra también.
Un signo negativo indica que existe una relación negativa
correlación entre las dos variables. Mientras los valores de una
incrementan, los de la segunda variable disminuyen.
Describe la fuerza de la Si dos variables son independientes, el coeficiente de
relación entre dos correlación es de magnitud cero.
conjuntos de variables en La fuerza de la relación lineal incrementa a medida que el
escala de intervalo o de coeficiente de correlación se aproxima a -1 o a +1.
razón. Se designa con la
letra r, y con frecuencia se
le conoce como r de
Pearson. σ 𝑥 − 𝑥ҧ 𝑦 − 𝑦ത
𝑟=
𝑛 − 1 𝑆𝑥 𝑆𝑦
¿Qué observaciones cabe hacer respecto de la
relación entre el número de llamadas de ventas
y el número de copiadoras vendidas?
CASO
ESTUDIO
RESUELTO
Es práctica común situar la variable dependiente
(copiadoras vendidas) en el eje vertical o Y y la variable
independiente (número de llamadas de ventas) en el eje
horizontal o X.
Diagrama de
dispersión que
representa las
llamadas de
ventas y las
copiadoras
vendidas
El diagrama de dispersión muestra en forma gráfica que los

representantes que hacen más llamadas tienden a vender más
copiadoras.
VIENDO EL CASO DE LAS COPIADORAS
1. Un coeficiente de correlación para el caso anterior calculado a +1.00 indicaría que el número de
llamadas de ventas y la cantidad de copiadoras que vende cada representante están perfectamente
relacionados en un sentido lineal positivo.
2. Un valor calculado de -1.00 revela que las llamadas de ventas y el número de copiadoras vendidas
están perfectamente relacionados en un sentido lineal inverso.
Si no hay ninguna relación entre

los dos conjuntos de variables, la
r de Pearson es cero
𝑟=
Si no hay ninguna relación entre los dos conjuntos de
variables, la r de Pearson es cero.
Un coeficiente de correlación r cercano a 0 (sea 0.08) indica que la relación lineal es
muy débil. Se llega a la misma conclusión si r =- 0.08. Los coeficientes de -0.91 y
+0.91 tienen una fuerza igual; los dos indican una correlación muy fuerte entre las
dos variables. Por lo tanto, la fuerza de la correlación no depende de la dirección (ya
sea - o bien + ).
¿Qué significan los términos fuerza y dirección?
Fuerza: La fuerza significa la correlación de relación entre dos variables. Significa cuán
consistentemente una variable cambiará debido al cambio en la otra.
Los valores cercanos a +1 o -1 indican una relación fuerte. Estos valores se alcanzan si los
puntos de datos caen sobre la línea o muy cerca de ella. Cuanto más se alejan los puntos de
datos, más débil es la fuerza de la relación lineal. Cuando no hay una forma práctica de trazar
una línea recta porque los puntos de datos están dispersos, la fuerza de la relación lineal es la
más débil.
Dirección: La dirección de la línea indica una relación lineal positiva o negativa entre las
variables. Si la línea tiene una pendiente ascendente, las variables tienen una relación
positiva. Esto significa que un aumento en el valor de una variable llevará a un aumento en el
valor de la otra variable. Una correlación negativa representa una pendiente descendente.
Esto significa que un aumento en la cantidad de una variable lleva a una disminución en el
valor de otra variable.
Inicie con un diagrama de dispersión. Se traza una
recta vertical con los valores de datos en la media de
¿Cómo se los valores X y una recta horizontal en la media de los
valores Y
determina el
coeficiente de
correlación?
Desviaciones de la media y sus productos ෍ 𝑥 − 𝑥ҧ 𝑦 − 𝑦ത
Coeficiente de
correlación
El análisis de correlación consiste en un
procedimiento estadístico para determinar si dos
Análisis de variables están relacionadas o no.
El resultado del análisis es un coeficiente de
correlación correlación que puede tomar valores entre -1 y +1.
Caso practico
Caso práctico
Un ejemplo de una correlación positiva media sería:
A medida que el número de automóviles aumenta, también aumenta la demanda en la variable combustible.
Un ejemplo de una correlación débil/ninguna sería:
Un aumento en el precio del combustible lleva a que menos personas adopten mascotas.
𝑟= X y
4 4
5 6
3 5
6 7
10 7
CARACTERÍSTICAS DEL
COEFICIENTE DE CORRELACIÓN
1. El coeficiente de correlación de la muestra se
identifica con la letra minúscula r.
2. Muestra la dirección y fuerza de la relación lineal
(recta) entre dos variables en escala de intervalo o en
escala de razón.
3. Varía de -1 hasta +1, inclusive.
CARACTARÍSTICAS
4. Un valor cercano a 0 indica que hay poca asociación
entre las variables.
5. Un valor cercano a 1 indica una asociación directa o
positiva entre las variables.
6. Un valor cercano a -1 indica una asociación inversa o
negativa entre las variables.
CASO PRÁCTICO 1. Caso A: resultados de las ventas de un producto (variable Y), según los
precios de oferta (variable X).
𝑟=
A B
X Y X Y
21 53 21 70
22 59 10 25
31 80 15 44
17 69 16 57
27 45 16 61
22 74 31 74
15 89 6 41
14 92 14 49
9 95 17 25
22 39 24 81
σ 𝑥 − 𝑥ҧ 𝑦 − 𝑦ҧ
𝑟=
𝑛 − 1 𝑆𝑥𝑆𝑦
X Y
21 53
22 59
31 80
17 69
27 45
22 74
15 89
14 92
9 95
22 39
CASO PRÁCTICO 1. Caso A: resultados de las ventas de un producto (variable Y), según los precios de oferta
(variable X).
2. Caso B: resultados obtenidos en las ventas de los productos de una empresa (variable Y),
según la inversión en promoción (variable X).
3. En el caso C, una empresa desea saber si existe una relación entre los días que algunos
A B C productos permanecen en exhibidos en una valla publicitaria y sus ventas.
X Y X Y X Y Desarrollar cada uno de los siguientes puntos:

21 53 21 70 26 32 1. Para cada uno de los casos, ¿cuál es la variable dependiente y cuál la
22 59 10 25 13 40 independiente.
31 80 15 44 19 31 2. Trazar un diagrama de dispersión para cada caso.
17 69 16 57 26 21 3. Calcular el Coeficiente de Correlación (r de Pearson).
27 45 16 61 27 38 1. ¿La relación entre ambas variables es positiva o negativa?
22 74 31 74 26 30 2. ¿La relación entre ambas variables es fuerte o débil?, ¿por qué?
15 89 6 41 8 29 4. Indicar en cuáles de los grupos de datos existe una mayor correlación.
14 92 14 49 10 31
9 95 17 25 16 26 𝑟=
22 39 24 81 8 30
correlaciones
espurias
El gasto estadounidense en ciencia, tecnología y exploración espacial
correlaciona fuertemente con el número de suicidios por horca,
estrangulamiento y asfixia.
Aquí se “demuestra” que la aparición de Nicolas Cage predice
el número de muertes anuales por ahogamiento tras caída en
una piscina.
El consumo de margarina por los ciudadanos de Estados Unidos va ligado al ratio de divorcios en el
estado de Maine.
El crudo importado por Estados Unidos
desde Noruega disminuye al tiempo que lo
hacen los conductores de trenes muertos
en circulación.
Prueba de Distribucion T de
hipótesis
de media Student
Partiendo del caso de las copiadoras
Recuerde que la gerente de ventas de Copier Sales of America determinó
que la correlación entre el número de llamadas de ventas y el número de
copiadoras vendidas era 0.759, lo que indicaba una asociación fuerte
entre ambas variables. Sin embargo, en la muestra había sólo 10
vendedores. ¿Puede ser que la correlación entre la población sea 0? Esto
significaría que la correlación de 0.759 se debió a la casualidad. En este
ejemplo, la población es todo el personal de ventas de la empresa.
¿Puede haber una correlación cero entre la población de la cual se seleccionó la muestra?
¿proviene el valor r calculado de una población de observaciones pareadas con correlación
cero?
Tomando el ejemplo de copiadoras. La hipótesis nula y la hipótesis alternativa son
H0: p = 0 (La correlación entre la población es cero.)
H1: p ≠ 0 (La correlación entre la población es diferente de cero.)
Por la forma en que se formula H1, se sabe que la prueba es de dos colas.
Fórmula t del Coeficiente de correlación:
H0: 𝑥ҧ = µ H0: p= 0
𝑟 𝑛−2 Con n-2 grados de libertad H1: 𝑥ҧ ≠ µ H1:p ≠ 0
𝑡=
1 − 𝑟2 H0: 𝑥ҧ ≤ µ H0: 𝑝 ≤ 0
H1: 𝑥ҧ > µ H1: 𝑝 > 0
r=0.759 α =0.05
N=10
Ubicar t de Student en la tabla
Con un nivel de significancia de 0.05, la regla de decisión en este caso indica que si el
valor calculado de t de Student se encuentra en el área entre -2.306 y +2.306,
entonces no se rechaza la hipótesis nula.
Para ubicar el valor crítico de 2.306, consulte el apéndice B.2 para gl n= 2: 10- 2= 8.
Confirmando
𝑟 𝑛−2
𝑡=
1 − 𝑟2
r= 0.759 N= 10
El valor t calculado se encuentra en la región de rechazo. Por ello, H0 se rechaza con un nivel de significancia de 0.05. Esto
significa que la correlación entre la población no es cero. Desde un punto de vista práctico, esto indica a la gerente de
ventas que hay una correlación entre el número de llamadas de ventas y el número de copiadoras vendidas en la
población de vendedores.
Una prueba de hipótesis es una regla que especifica
cuando se puede aceptar o rechazar una afirmación
sobre una población dependiendo de la evidencia
proporcionada por una muestra de datos.
Una prueba de hipótesis examina
dos hipótesis opuestas sobre una población:
la hipótesis nula y a hipótesis alternativa.
PRUEBA DE La regla de decisión consiste en que cuando se requiere

contrastar
HIPÓTESIS
• Ho: a – b = c vs. H1: a – b ≠ c
la prueba es bilateral, dos colas, mientras que si se
desea contrastar
• Ho: a – b = c vs. H1: a – b < c

• Ho: a – b = c vs. H1: a – b > c
Entonces la prueba a elegir será la de una cola.
La prueba de hipótesis también se interpreta en
términos de valores p. Un valor p es la
probabilidad de determinar un valor del
estadístico de prueba más extremo que el
calculado, cuando H0 es verdadera.
El valor del estadístico de prueba es 3.297; por
Valor p lo tanto, en la fila de 8 grados de libertad y una
prueba de dos colas se encuentra el valor más
cercano a 3.297. En una prueba de dos colas
con un nivel de significancia de 0.02, el valor
crítico es 2.896, y el valor crítico con un nivel de
significancia de 0.01, 3.355. Como 3.297 se
encuentra entre 2.896 y 3.355, se concluye que
el valor p está entre 0.01 y 0.02.
DISTRIBUCIÓN DE t de STUDEN
Análisis de regresión
El análisis de la regresión lineal se
utiliza para predecir el valor de una variable según el
valor de otra. La variable que desea predecir se
Regresión denomina variable dependiente. La variable que está
utilizando para predecir el valor de la otra variable se
Lineal denomina variable independiente.
En el análisis de regresión, el objetivo es utilizar los
datos para trazar una línea que represente mejor la
relación entre las dos variables.
Llamadas de ventas y copiadoras vendidas por 10
representantes de ventas
Diagramas de dispersión que representan una
correlación cero, débil y fuerte

Análisis de Correlación Lineal

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis de Correlación Lineal

Cargado por

Copyright:

Formatos disponibles

La distribución normal es un ejemplo

importante referido a una variable

La densidad está concentrada en

Desviación: La desviación es la separación que existe

Este 4 nos está diciendo, al

El diagrama de dispersión muestra en forma gráfica que los

Si no hay ninguna relación entre

X Y X Y X Y Desarrollar cada uno de los siguientes puntos:

PRUEBA DE La regla de decisión consiste en que cuando se requiere

• Ho: a – b = c vs. H1: a – b < c

También podría gustarte