Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En este apartado trataremos la relación que existe entre dos variables (x, y). Por ejemplo,
resolveremos cuestiones como: ¿Existe relación entre los promedios de calificación en bachillerato
y en universidad? ¿Existe relación entre lo que una empresa gasta en publicidad y el importe de
sus ventas? ¿Existe relación entre años de experiencia en el trabajo y la productividad? ¿cuál es la
ecuación que mejor representa una serie de datos?
Para resolver estas cuestiones examinaremos en primera instancia el concepto de correlación, más
concretamente abordaremos el significado de análisis de correlación, luego, se estudiará el
diagrama que genera los distintos (x, y) dados para ser analizados a través de su relación:
diagrama de dispersión; se calculará o determinará a través de fórmulas estadísticas el grado de
relación que existe entre las dos variables involucradas: coeficiente de correlación y el de
determinación. Finalmente, se hallará a través del método de mínimos cuadrados la ecuación
estadística que mejor representa la serie de datos que se nos den para su estudio: Análisis de
regresión.
Análisis de correlación
El análisis de correlación describe la fuerza con que se presenta una relación, en este caso, entre
dos variables (x, y), para ello se utiliza medidas conocidas como coeficiente de correlación de
Pearson y de determinación.
Coeficiente de correlación de Pearson: es una de las técnicas estadísticas empleadas para medir la
intensidad de la relación (correlación) entre las dos variables. Su importancia radica en que nos
permite medir a través de un número (coeficiente) la intensidad de la relación entre las variables.
Este número, llamado coeficiente de Pearson, que denotaremos como r, está comprendido entre
-1 y +1 pasando por cero.
Una de las fórmulas para hallar el valor del coeficiente de correlación de Pearson es la siguiente:
𝑛 ∑ 𝑥𝑦−∑ 𝑥 ∑ 𝑦
1) 𝑟 = dónde: n es el número de pares de observaciones.
√[𝑛 ∑ 𝑥 2−(∑ 𝑥 2)[𝑛 ∑ 𝑦 2 −(∑ 𝑦)2]
La fuerza o intensidad de la relación se determina hallando el valore de r. Para ello basta con
añadir las columnas necesarias y gestionarlas para leer luego los totales que alimentarán la
fórmula.
Puntuación de Ventas
prueba semanales
(miles de
Vendedor dólares)
x y x2 xy y2
A 4 5 16 20 25
B 7 12 49 84 144
C 3 4 9 12 16
D 6 8 36 48 64
E 10 11 100 110 121
Total 30 40 210 274 370
170
= = 0.88, este valor indica que la relación entre las dos variables (x,y) es muy intensa
√[150][250]
positiva y directa, es decir hay una relación muy intensa entre las puntuaciones de prueba y las
ventas semanales. Para el director de ventas de esta empresa es una buena herramienta para
determinar las ventas semanales.
2. Diagrama de dispersión: es una gráfica que presenta la relación entre las dos variables de
interés.
Cuando se nos da una tabla que registra los valores de las variables (x,y), estas parejas de datos se
ubican en un plano cartesiano que puede ser útil para una estadístico con experiencia para
determinar qué tipo de relación pueda existir entre estas y así determinar qué modelo
matemático mejor los representa.
Diagrama 1.
14
12
10
8
6
4
2
0
0 2 4 6 8 10 12
puntuación de prueba
Este punto corresponde a la pareja de valores del vendedor C (3, 4). Recuerde que el primer
valor corresponde a x (puntuación de prueba) que es 3, y el segundo a y (ventas semanales) que es
4. Así se procede con todos los valores de parejas de los 5 vendedores.
3. Regresión lineal: ecuación de la recta y pendiente, método de mínimos cuadrados, método de
covarianza.
Análisis de regresión
Una vez hecho el análisis de correlación, se procede hallar la mejor ecuación que representa los
datos que se nos dan. La técnica empleada para hallar esta ecuación y proporcionar las
estimaciones se conoce como análisis de regresión.
La ecuación que mejor representa los datos se conoce como ecuación de regresión lineal puede
ser una ecuación lineal con ajuste a una línea recta, una ecuación cuadrática o juste parabólico y
una ecuación exponencial o ajuste exponencial, entre las más importantes.
Para visualizar la forma de regresión se debe trazar el diagrama de puntos y según la dispersión de
los puntos y la experiencia se determina la mejor ecuación que representa estos datos (parejas de
puntos)
Ajuste de línea recta: en el caso que se determine realizar un ajuste de línea recta, la mejor de
ellas será la que se determina usando la técnica del método de mínimos cuadrados.
Forma general de la ecuación de regresión de línea recta: para hallar la regresión de línea recta
existe varios métodos. En este apartado la hallaremos a través del método de la covarianza y a
través de la ecuación de la línea recta que tendrá la forma de 3) 𝑦 ′ = 𝑎 + 𝑏𝑥.
Método de la covarianza: este método hace uso de algunos conceptos que involucran medidas de
dispersión y de posición estudiadas en el curso de estadística descriptiva y en el que aquí se
recordará, brevemente, en el momento de hallar sus valores a través de un ejemplo planteado.
La covarianza es una medida de dispersión que puede dar valores positivos o negativos, diferente
a la varianza que siempre son valores positivos.
La ecuación matemática a la que se debe llegar usando este método es:
𝑐𝑜𝑣
4) 𝑦 ′ − 𝑦𝑚 = 𝑠2 (𝑥 − 𝑥𝑚 ) , donde:
𝑥
∑𝑦
𝑦𝑚 es la media de la variable dependiente y’, se calcula como: 5) 𝑦𝑚 = 𝑛
con n igual al número
de datos que tenga el ejercicio dado a resolver.
∑𝑥
𝑥𝑚 es la media de la variable dependiente x, se calcula como: 6) 𝑥𝑚 = con n igual al número
𝑛
de datos que tenga el ejercicio dado a resolver.
∑ 𝑥 2−𝑛(𝑥𝑚)2
𝑠𝑥2 es la varianza en x, se calcula como: 7) 𝑠𝑥2 = 𝑛
, donde ∑ 𝑥 2 es la suma de los valores
de la variable x elevados al cuadrado.
∑(𝑥−𝑥𝑚)(𝑦−𝑦𝑚 )
Cov, es la covarianza que se calcula como: 8) 𝑐𝑜𝑣 = 𝑛
.
Con todos los valores hallados se reemplaza en la fórmula 4 y se despeja y’ que será la recta de
regresión por el método de la covarianza.
El segundo método que se usará para hallar la ecuación de regresión es el de línea recta de la
forma: 3) 𝑦 ′ = 𝑎 + 𝑏𝑥, donde:
a es la intersección de la recta con el eje y’ cuando x=0. Es decir, es el valor de y cuando la recta de
regresión y’ cruza el eje y (lo corta).
Para llegar a la forma de la ecuación 3, se debe hallar los valores de a y b como sigue:
10) ∑ 𝑦 = 𝑏 ∑ 𝑥 + 𝑛𝑎
11) ∑ 𝑥𝑦 = 𝑏 ∑ 𝑥 2 + 𝑎 ∑ 𝑥
La importancia de hallar una función de regresión es hacer pronósticos con ella que pueda servir
para la toma de decisiones. Por ejemplo, en el caso de la puntuación de prueba (variable
independiente x) y las ventas semanales (variable dependiente y) el director de ventas puede usar
la función de regresión para estimar las ventas semanales con el puntaje obtenido de un
vendedor; vasta reemplazar el valor del puntaje de prueba en la recta de regresión hallada.
A continuación, se continuará con el desarrollo del ejemplo 1, en el que se aplicará los conceptos
teóricos expuestos. Hallaremos el diagrama de dispersión, el coeficiente de Pearson y su
interpretación, el coeficiente de determinación y su interpretación, luego, hallaremos la regresión
lineal usando los diferentes métodos expuestos y finalizaremos con el hallazgo de un pronóstico.
Puntuación de Ventas
prueba semanales
(miles de
dólares)
Vendedor x y x2 xy y2
A 4 5 16 20 25
B 7 12 49 84 144
C 3 4 9 12 16
D 6 8 36 48 64
E 10 11 100 110 121
Total 30 40 210 274 370
Cov es la covarianza.
Ya se calculó el coeficiente de Pearson con la ecuación 1. Se obtuvo el valor r=0.88 con este valor
se calculó el coeficiente de determinación R2, usando la ecuación 2. R2=0.7744 que expresado en
porcentaje es 77.44%. El diagrama de puntos puede verse en el Diagrama 1.
Como primera conclusión se puede inferir que la relación entre las dos variables es buena por lo
que se procederá seguidamente a determinar la función de regresión de línea recta para con ella
hallar un pronóstico.
Método de la covarianza: la fila de totales es la que se usará para hallar todos los valores
requeridos para hallar la regresión de línea recta.
𝑐𝑜𝑣
4. 𝑦 ′ − 𝑦𝑚 = (𝑥 − 𝑥𝑚 )
𝑠𝑥2
𝑐𝑜𝑣
Despejamos y’ resultando 4. 𝑦 ′ = 𝑠𝑥2
(𝑥 − 𝑥𝑚 ) + 𝑦𝑚
∑(𝑥−𝑥𝑚)(𝑦−𝑦𝑚 )
Seguidamente se halla la covarianza: 9. 𝑐𝑜𝑣 =
𝑛
para esto se debe agregar las siguientes columnas x-xm, y-ym y (x-xm)(y-ym) y se calculan sus totales:
Puntuación Ventas
de prueba semanales
(miles de
dólares)
Vendedor x y x2 xy y2 x-xm y-ym (x-xm)( y-ym)
A 4 5 16 20 25 4-6=-2 5-8=-3 (-2)(-3)=6
B 7 12 49 84 144 1 4 4
C 3 4 9 12 16 -3 -4 12
D 6 8 36 48 64 0 0 0
E 10 11 100 110 121 4 3 12
Total 30 40 210 274 370 0 0 34
∑(𝑥 − 𝑥𝑚 )(𝑦 − 𝑦𝑚 ) 34
9. 𝑐𝑜𝑣 = = = 6.8
𝑛 5
Con la ecuación 4, se procede hallar el modelo o ecuación de regresión de línea recta simplemente
reemplazado los valores hasta ahora obtenidos:
𝑐𝑜𝑣 6.8
4. 𝑦 ′ = 𝑠𝑥2
(𝑥 − 𝑥𝑚 ) + 𝑦𝑚 =
6
(𝑥 − 6) + 8, se destruye el paréntesis y se realizan las sumas
restas necesarias para llegar a la regresión pedida: 𝑦 ′ = 1.133(𝑥 − 6) + 8 = 1.133𝑥 − 6.798 + 8
𝑦 ′ = 1.133𝑥 + 1.202 ahora bien, con esta ecuación se podrá pronosticar las ventas para
un candidato a un puesto en ventas, que calificó con 6 en la
prueba. Para ello vasta con reemplazar la variable x por el valor de
6 en el modelo de regresión hallado:
𝑦 ′ = 1.133𝑥 + 1.202 = 1.133(6) + 1.202 = 8. Es decir, se espera que las ventas sean de 8000
dólares semanales.
Finalmente, se calcula el coeficiente de Pearson usando la ecuación número 9, que debe dar el
𝑐𝑜𝑣
mismo valor de 0.88 hallado con la ecuación 1. Veamos: 9. 𝑟 = , para hallar el valor de Pearson
𝑠𝑥 𝑠𝑦
se necesita hacer los cálculos de las desviaciones estándar tanto de x como de y.
Recordando que las desviaciones estándar son las raíces cuadradas de las varianzas.
∑ 𝑥 2−𝑛(𝑥𝑚)2 210−5(6)2 30
𝑠𝑥2 = = = = 6, 𝑠𝑥 = √𝑠𝑥 2 = √6 = 2.45
𝑛 5 5
∑ 𝑦 2 −𝑛(𝑦𝑚) 2 370−5(8)2
La varianza en x se calcula con la siguiente ecuación: 𝑠𝑦2 = = = 10, la
𝑛 5
𝑐𝑜𝑣 6.8
𝑟= = (2.45)(3.16) = 0.88.
𝑠𝑥𝑠𝑦
Seguidamente se procederá a resolver el mismo ejercicio por el segundo método, inciso a), que
consiste en plantear un sistema de ecuaciones 2X2 y resolverlo
Se usará para resolver el sistema el método de Cramer que hace uso de determinantes:
Bibliografía
Ciro, M. (2012). Estadística y muestreo. Bogotá: Eco Ediciones.
Mason, R., & Lind, D. (1990). Estadística para Administración y Economía. México: Alfaomega.