Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Dos variables están relacionadas cuando varían conjuntamente, es decir, los cambios de valores de una variable producen
cambios en los valores de la otra variable. Si las variables están relacionadas, se dirá que están asociadas o correlacionadas.
El problema de investigar si existe alguna relación entre las variables es un problema de correlación.
“ASOCIACION O CORRELACION”: si cambios en una variable son acompañados sistemáticamente por cambios en la otra
variable, se dice que las variables están asociadas.
Si a mayores valores de una variable se observan simultáneamente valores mayores en la otra, se está en presencia de una
Asociación Positiva. Por el contrario, si a mayores valores de una variable se observan menores valores en la otra, estamos
en presencia de una Asociación Negativa. Si los valores de una variable cambian y no producen cambios en los valores de la
otra, no existe asociación entre las mismas, esto es una Independencia Estadística, que implica la falta total de asociación
entre los valores de las variables.
Cuando se habla de un estudio de correlación o asociación es necesario establecer que la relación tenga sentido entre las
variables.
Cuando en una población se estudian simultáneamente dos características, la información se presenta como dato apareado
o bivariante.
- Dato apareado o bivariante: es un par de valores que resulta de medir, contar u observar simultáneamente dos
variables en cada uno de los elementos unitarios de la población. Existe un dato apareado para cada elemento de la
población.
- Frecuencia Conjunta: número de observaciones que presentan los valores de X e Y, que corresponden, al mismo
tiempo, a la clase de X y a la clase de Y que componen la clase apareada bajo consideración.
- Clase Apareada: es un par de clases, una de la variable X y otra de la variable Y, que se simboliza (x i , yi) que son los
puntos medios de las clases componentes del par.
- Distribución Marginal de X: se reagrupan todas las observaciones de la variable X independientemente de los
valores de la otra variable, es decir, se suman todas las frecuencias conjuntas correspondientes a cada fila. Las
frecuencias de esta distribución son las ubicadas en la última columna de la distribución de frecuencias a dos
variables.
- Distribución Marginal de Y: se reagrupan todas las observaciones de la variable Y, independientemente de los
valores de la otra variable, es decir, se suman todas las frecuencias conjuntas correspondientes a cada columna. Las
frecuencias de esta distribución son las ubicadas en la última fila de la distribución de frecuencias a dos variables.
Para el estudio de Asociación vamos a tener en cuenta la forma que están presentados los datos (VAMOS A ESTUDIAR EN
GENERAL 3 ASPECTOS: A) SI EXISTE O NO ASOCIACION; B) EL SENTIDO DE LA MISMA; C) EL GRADO)
1- Datos No Agrupados o Aislados: se representan gráficamente usando el diagrama de dispersión.
Diagrama de Dispersión: es un gráfico construido sobre un sistema de ejes cartesianos octogonales, donde sobre el
eje horizontal (de las abscisas) se ubican los valores de la variable X y sobre el eje vertical (de las ordenadas) se
ubican los valores de la variable Y. Cada dato apareado se representa mediante un punto y deben indicarse los
valores de las medias de cada variable que dividen al diagrama en cuatro cuadrantes, que se enumeran en el
sentido contrario de las agujas del reloj.
En el grafico a) hay una correlación lineal positiva o directa no extrema, en el b) hay correlación lineal negativa o
inversa no extrema; c) y d) relaciones curvilíneas positiva o directa y negativa o inversa respectivamente y la última
no hay correlación
Otras relaciones:
En el caso que el análisis de correlación se realice en una muestra (parte de la población), es necesario estimar 𝛒𝐗; con 𝐫𝐗;.
Las propiedades del Coeficiente de Correlación de Pearson 𝛒𝐗; son:
a) No tiene unidad de medida.
b) Se ve afectado por valores extremos, lo que hace necesario evaluar si correspondería eliminar esos valores extremos
atípicos y recalcular el valor del coeficiente.
c) Mide la relación lineal entre dos variables.
d) No se debe extrapolar más allá del rango de los valores de las variables X e Y
e) Su valor no implica causalidad
Se trabajará con el denominado Modelo de Regresión Lineal Simple: 𝐘𝐢 = 𝛂 + 𝛃𝐗𝐢 + 𝛆𝐢. Se denomina así, ya que 𝛂, 𝛃 𝐲 𝛆𝐢
están relacionados en el modelo en forma lineal y son los parámetros del modelo. 𝛂 representa el efecto fijo promedio de
las variables que se dejan de lado. 𝛃 representa cuanto cambia (aumenta o disminuye) la variable dependiente Y ante
cambios (aumenta o disminuye) en una unidad la variable independiente X. , comúnmente denominado “error”, representa
a las otras funciones que se dejan de lado (cuadrática, logarítmica, exponencial etc.), otras variables dejadas de lado (X2, X3,
……, Xk,) al tomar una sola variable independiente y errores de medición.
Análisis de regresión cuando los datos provienen de una población.
Si se trabaja con los datos de la población, el modelo es 𝐘𝐢 = 𝛂 + 𝛃𝐗𝐢 + 𝛆𝐢. Sobre el conjunto de datos apareados ( X𝐢 ; 𝐘𝐢) se
calcula una recta 𝐘𝐜𝐢 = 𝛂 + 𝛃𝐗𝐢. El método que se usa para el cálculo de los parámetros 𝛂 y 𝛃 es el de mínimos cuadrados
que consiste en minimizar la suma de los desvíos cuadráticos entre el valor de Y e Yci.
Es necesario medir la bondad del modelo elegido, para ello se calcula la Partición de la Variabilidad, que consiste en dividir
la variabilidad de la variable Y, en variabilidad explicada por el modelo de regresión y variabilidad no explicada por el
modelo de regresión.
La Partición de la Variabilidad (SSTP; SSRP y SSEP) está medida en las mismas unidades de medida de Y, pero se necesita un
coeficiente que no tenga unidad de medida, para ello se calcula el Coeficiente de Determinación ( p2 𝐗;𝐘 )
El Coeficiente de Determinación de Pearson varía entre 𝟎 ≤ p2 𝐗;𝐘 ≤ +𝟏.
- Si p2 𝐗; = +𝟏 el 100% de la variabilidad de la variable Y está explicado por la variable X a través del modelo de Regresión
Lineal Simple.
- Si 𝟎 < p2 𝐗; < +𝟏 el …% de la variabilidad de la variable Y está explicado por la variable X a través del modelo de Regresión
Lineal Simple.
- Si p2 𝐗; = 𝟎 el 100% de la variabilidad de la variable Y no está explicado por la variable X a través del modelo de Regresión
Lineal Simple.
Si se trabaja con una parte de la población (muestra), es necesario estimar 𝛂 𝐲 𝛃 por medio de 𝐚 y 𝐛 El modelo 𝐘𝐢 = 𝛂 + 𝛃𝐗𝐢
+ 𝛆𝐢. La recta estimada
El 𝜺𝒊 =
Una vez calculados los estimadores 𝐚 y 𝐛 es necesario estimar la bondad de ajuste del modelo, para ello se estima el
Coeficiente de Determinación r2 x,y que estima la proporción de variabilidad explicada de la variable Y por la variable X a
través de un modelo de regresión lineal simple, es decir r 2 x,y estima a 𝛒2 x,y
Explique cuando se dice que 2 variables están relacionadas y para que se hace un análisis de regresión.
Cuando tiene cambios sistemáticos, el aumento de una variable hace que la otra aumente, o el aumento en una variable
hace que disminuya la otra variable.
Se usa para hacer predicciones. El objetivo es desarrollar un modelo estadístico que permita ser utilizado para predecir los
valores de la variable dependiente basados en los valores de una variable independiente.