Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Catedra: Estadística
PRACTICA N2
Profesor: Alumno:
Correlación simple: Es una técnica estadística que establece un índice que proporciona,
en un solo número, una medida de la fuerza de asociación entre dos variables de interés. El
principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación
entre dos variables.
Mientras que el análisis de regresión simple establece una ecuación precisa que enlaza dos
variables, el análisis de correlación es la herramienta estadística que podemos usar para describir
el grado o la fuerza en la que una variable esta linealmente relacionada con otra.
Dependiendo del tamaño de esta medida cuantitativa se puede decir, que tan cercanamente
se mueven dos variables y, por lo tanto, con cuanta confiabilidad se puede estimar una variable
con ayuda de la otra.
Mientras más cercano a cero sea el coeficiente de correlación, este indicará que más
débil es la asociación entre ambas variables. Si es igual a cero se concluirá que no existe relación
lineal alguna entre ambas variables. Diagrama de dispersión en correlación.
Donde:
σ XY : Es la covarianza de (X , Y )
σ X : Es la desviación típica de la variable X
Según sea la dispersión de los datos (nube de puntos) en el plano cartesiano, pueden
darse alguna de las siguientes relaciones: Lineal, Logarítmica, Exponencial, Cuadrática,
Inversa, entre otros.
Estas nubes de puntos pueden generar polígonos a partir de ecuaciones de regresión que
permitan predecir el comportamiento de la variable dependiente. El diagrama de dispersión nos
da información visual sobre el tipo de relación entre las variables
Variable dependiente: Una variable cuyo valor se suponga desconocido y que se
explique o prediga con ayuda de otra se llama variable dependiente y se simboliza con la letra Y.
Estas también pueden definirse como la o las variables que se predicen o se calculan.
Variable Independiente: una variable cuyo valor se suponga conocido y que se utilice
para explicar o predecir el valor de otra variable de interés se llama variable independiente; se
simboliza con la letra X. Dicho de otra manera esta es la o las variables que proporcionan las
bases para el cálculo.
∑ (xi −X )2
1
Var ( X )=
n
Donde:
n : número de observaciones
X : Es la medida de la variable X
O lo que es lo mismo:
Var (X )=¿ ¿
Covarianza: es el valor a través del cual se refleja en qué cuantía don variables
cualesquiera varían de forma conjunta respecto de sus medias aritméticas. Así, esta medida nos
permite conocer cómo se comportan las variables en cuestión respecto de otras variables.
La Covarianza nos permite saber cómo se comporta una variable en función de lo que
hace otra variable. Es decir, cuando X sube ¿Cómo se comporta Y ? Así pues, la covarianza
puede tomar los siguientes valores:
Covarianza ( X , Y ) es menor que cero cuando “ X ” sube e “Y ”baja. Hay una relación
negativa.
Covarianza(X , Y ) es mayor que cero cuando “ X ” sube e “Y ” sube. Hay una relación
positiva.
Covarianza ( X , Y )es igual que cero cuando no hay relación existente entre las variables
“ X ” e “Y ” .
La fórmula de la covarianza podrá ser calculada mediante la siguiente expresión
matemática:
n
∑ (x i−x )( y i− y )
1
cov ( X , Y )=
n
Donde:
y : media de la variable Y
x : media de la variable X
i : posición de la observación y
n : número de observaciones
x 1 + x 2+ x 3 + x 4 + x 5 + x 6 + x7 + x 8 + x 9 + x 10 … + x n
X=
N
Donde:
n : número de datos
Así, una vez analizados ambos conceptos, la desviación típica se calcula de forma muy
parecida a la media, si bien es cierto que en el cálculo de la desviación típica se toman como
valores las desviaciones. Aunque el razonamiento resulta bastante lógico, lo cierto es que existe
un fallo que se solucionan a través de los diferentes cálculos de la desviación típica.
√
n
∑ ( X i −X )2
1
σ=
N
A partir de esto han desarrollado modelos estadísticos de regresión lineal para evaluar
las componentes armónicas, considerando a la distorsión armónica total de tensión y/o corriente
como variable de interés, esto debido a que en sus estudios se analizan cargas de distinta
naturaleza (residencial, comercial e industrial) en un mismo registro de datos.
Por otro lado, es muy común que las personas tomen decisiones en la vida cotidiana y
profesional basadas en predicciones de sucesos futuros. Para hacerlo, se fundamentan en la
relación intuitiva y calculada entre lo que ya se sabe y lo que se debe estimar. Si se dieran cuenta
que se puede determinar cómo lo conocido se relaciona con un evento futuro, facilitarían el
proceso de toma de decisiones.
Por ejemplo, se sabe que existe una relación entre la frustración y la agresión, entre la
presión arterial y un accidente cerebro-vascular, entre la obesidad y la diabetes; en los tres casos
hay una relación entre dos variables, pero no conocemos la naturaleza y fuerza de la misma. Si
se observa con detenimiento, obtendremos datos e información que podemos medir,
experimentar y formular hipótesis para comprobarlas y generar conclusiones. Cualquier método
estadístico que tenga como finalidad establecer una ecuación que permita estimar el valor
desconocido de una variable a partir del valor conocido de una o más variables mediante el
análisis de correlación.
r=
σXY 6 ∑ di
σ X . σY ρ=1−
i
2
n(n −1)
Donde:
Donde:
Fórmula σXY : Covarianza de ( X ; Y )
Matemática n=¿ número de puntos de datos de las dos
σ X , σ Y : Deviaciones típicas de las variables variables
Ventajas -Requiere datos en cantidad solo del período -Permite medir la correlación o asociación
base. entre dos variables cuando las mediciones se
realizan en una escala ordinal, o cuando no
-A diferencia de la covarianza la correlación
existe distribución norma.
de Pearson es independiente de la escala de
medidas de las variables. -El coeficiente de Spearman es no
paramétrico, (es decir, es libre de
-Dada dos variables, permite hacer
distribución probabilística).
estimaciones del valor de una de ellas
conociendo el valor de la otra variable. -Se calcula en base a una serie de rangos
asignados.
-El coeficiente de Pearson es paramétrico
-Permite medir la correlación o asociación -La manifestación de una relación causa-
entre dos variables cuando se trabaja con efecto es posible sólo a través de la
variables numéricas con distribución normal comprensión de la relación natural que
existe entre las variables y no debe
manifestarse sólo por la existencia de una
fuerte correlación.
-No refleja cambios en los patrones de -Es menos sensible que el coeficiente de
compra, conforme pasa el tiempo. Pearson para los valores muy lejos de lo
esperado.
-Conforme el coeficiente de correlación se
Desventajas
acerque al 0, los valores se vuelven menos -El coeficiente de correlación no debe
correlacionados, lo que identifica las variables utilizarse para comparar dos métodos que
que no pueden ser relacionadas entre sí. intentan medir el mismo evento.
II. Parte.
1.- El ingeniero Keith Houston, director de personal de la compañía Danielson Tool & Die,
cree que existe relación entre las edades de los operadores de computadoras en la empresa y el
número días que faltaron a trabajar el mes pasado. Después de leer un artículo en Today`s
Office., en el que se cuestiona que, si los nuevos programas de computadora darán lo que
promete, se puso en pensar sobre los problemas de absentismo, ya que estos operadores están
usando el tipo de programa que describe el artículo. El ingeniero elige una muestra aleatoria de
10 trabajadores y recoge los siguientes datos.
Se pide:
Identificar la variable dependiente y la variable independiente en el ejercicio propuesto.
45
40 41
33
30 30
25 27
20
10
0
0 1 2 3 4 5 6 7 8 9 10 11 12
Días de Ausencia
De acuerdo a los conceptos revisados en esta práctica, se puede determinar que los
resultados obtenidos no reflejan una relación lineal. A simple vista se pudiera asumir que
mientras más edad tenga el operador, este pudiera tener mas ausentismo debido a la
implementación del nuevo programa, sin embargo, notamos que esto no es del todo cierto, ya
que salvo el operador que tiene 30 años de edad, que no tuvo ausencias, los operadores de más
edad (77 años), mantuvieron el índice de ausentismo mas bajo de toda la población a estudiar.
Así mismo podemos asumir que el coeficiente de correlación debe estar muy próximo a
cero (0), estableciendo que la relación entre las variables es muy débil. (Una vez realizados los
cálculos restantes con respecto a la Media Aritmética y Covarianza, pondremos a prueba este
punto (*))
Construir la tabla con las variables X y Y para establecer la relación entre el número de
trabajadores y los días ausentes.
x y x
2
x.y
5 25 25 125
0 30 0 0
1 77 1 77
7 33 49 231
8 45 64 360
12 27 144 324
6 55 36 330
11 41 121 451
2 77 4 154
3 58 9 174
∑ 55 ∑ 468 ∑ 4 53 ∑ 2226
x y x
2
x.y
x 1 + x 2+ x 3 + x 4 + x 5 … + x n
X=
N
5+ 0+1+7+8+ 12+ 6+11+2+3
X=
10
55
X=
10
X =5,5
Con la finalidad de facilitar los cálculos estaremos realizando el cálculo del coeficiente
de correlación típica para lo cual estableceremos la creación de la siguiente tabla
x y x−x y− y (x−x )2 ( y− y)2 (x−x )( y− y )
5 25 -0,5 -21,8 0,25 475,24 10,9
0 30 -5,5 -16,8 30,25 282,24 92,4
1 77 -4,5 30,2 20,25 912,04 -135,9
7 33 1,5 -13,8 2,25 190,44 -20,7
8 45 2,5 -1,8 6,25 3,24 -4,5
12 27 6,5 -19,8 42,25 392,04 -128,7
6 55 0,5 8,2 0,25 67,24 4,1
11 41 5,5 -5,8 30,25 33,64 -31,9
2 77 -3,5 30,2 12,25 912,04 -105,7
3 58 -2,5 11,2 6,25 125,44 -28
55 468 150,5 3393,6 -348
Calcular la covarianza
∑ ( x i−x )( y i− y )
1
cov ( X , Y )=
n
−348
cov ( X , Y )=
10
cov ( X , Y )=−34 , 8
Calcular la varianza
Varianza para x
n
∑ ( xi −x)2
1
Var ( X )=
n
150,5
Var ( X )=
10
Var ( X )=15,05
√
n
∑ ( x i−x)2
1
σ=
N
σ=
√ 150,5
10
σ =√ 15,05
σ =3,87
√
n
∑ ( y i− y )2
1
σ=
N
σ=
√ 3393,6
10
σ =√ 339,36
σ =18,42
2 σ 2 XY
R=
σ 2X σ 2 Y
Donde:
σ XY : Es la covarianza de (X , Y )
σ X : Es la desviación típica de la variable X
σ Y : Es la desviación típica de la variable 𝑌
2 −34,8
R=
3,87 . 18,42
2 −34,8
R=
71,28
2
R =−0,48
(*) Tal como asumimos en párrafos anteriores el resultado es muy cercano a cero (0)
estableciendo que no existen correlación lineal entre las variables. Adicionalmente mientras mas
aumenta una variable disminuye la otra.
2 2
R =−0,48 =0,2304
0,230 4 .100=23,04 %
Bibliografía
Navia, A., Carlos (2021) Análisis de Correlación Simple. Presentación Power Point,
para la materia Estadística I IPSM.
Spiegel, M. R. Teoría y Problemas de Probabilidad Estadística New York: McGraw-
Hill, p. 298, 1992.