Está en la página 1de 32

REGRESIÓN Y CORRELACIÓN LINEAL

SIMPLE
Cualquier método estadístico que busque establecer una
ecuación que permita estimar el valor desconocido de
una variable a partir del valor conocido de una o más
variables, se denomina análisis de regresión

El término regresión fue utilizado por primera vez por el


genetista y estadístico inglés Francis Galton (1822-1911)
en 1877 Galton efectúo un estudio que demostró que la
altura de los hijos de padres altos tendía a retroceder, o
“regresar”, hacia la talla media de la población. Regresión
fue el nombre que le dio al proceso general de predecir
una variable,(la talla de los niños) a partir de otra (la talla
de los padres).
REGRESIÓN LINEAL SIMPLE
“Una técnica estadística que establece una
ecuación para estimar el valor desconocido de
una variable, a partir del valor conocido de otra
variable, (en vez de valores de muchas otras
variables) se denomina análisis de regresión
simple.”

Por lo tanto el análisis de regresión lineal simple,


es el proceso general de predecir una variable
(Y) a partir de otra (X).
Relaciones directas o inversas
• Relación directa • Relación inversa
• VARIABLE • VARIABLE
INDEPENDIENTE (X) DEPENDIENTE (Y)

variable explicatoria, variable explicada


variable predictora, variable pronosticada.
variable regresora
DIAGRAMAS DE DISPERSIÓN
también llamado nube de puntos, brinda dos
tipos de información, visualmente se pueden
determinar los patrones que indican como las
variables están relacionadas (lineal o mediante
una curva) y por otro lado si existe una relación
entre ellas visualizando la clase de línea o
ecuación de estimación que describe a dicha
relación.
MÉTODO DE MÍNIMOS CUADRADOS
El método que por lo común se utiliza para ajustar
una línea a los datos muestrales indicados en el
diagrama de dispersión, se llama método de
mínimos cuadrados. La línea se deriva en forma tal
que la suma de los cuadrados de las desviaciones
verticales entre la línea y los puntos individuales de
datos se reduce al mínimo.

Una línea de regresión calculada a partir de los


datos muestrales, por el método de mínimos
cuadrados se llama línea de regresión estimada o
línea de regresión muestral.
-
ERROR ESTANDAR DE ESTIMACIÓN
El error estándar de estimación mide la
variabilidad o dispersión de los valores
observados alrededor de la línea de regresión y
se representa como Se. Su formula es la
siguiente:
Cuanto mayor sea el error estándar de la estimación, más grande
será la dispersión (o esparcimiento) de puntos alrededor de la
línea de regresión. Por el contrario, si Se= 0, se espera que la
ecuación de estimación sea un estimador “perfecto” de la
variable dependiente
PROCEDIMIENTO PARA REALIZAR UN
ANÁLISIS DE REGRESIÓN LINEAL SIMPLE
• Obtención de los datos muestrales.
• Los datos obtenidos se tabulan.
• La información se gráfica en un diagrama de
dispersión
• Se calcula la pendiente
• Se calcula la ordenada al origen
• Se obtiene la ecuación que mejor se ajusta a la
información obtenida
• Se traza la línea estimada en el diagrama de
dispersión
• Se calcula el error estándar de estimación
EJEMPLO
Una cadena de Pizzerías toma una muestra de diez de sus
sucursales para tratar de encontrar un modelo
matemático que le permita predecir sus ventas y obtuvo
los siguientes datos: la población de personas en miles
fue de 2, 6, 8, 8, 12, 16, 20, 20, 22, 26; y las ventas
trimestrales en millones de pesos fue de: 58, 105, 88,
118, 117, 137, 157, 169, 169, 149, 202.

• Realice una regresión para estimar las ventas de dos


sucursales que tienen 14,000 y 30,000 personas como
potenciales clientes respectivamente.
SOLUCIÓN
• Datos
• n=10
• X: Población de personas en miles
• Y: Ventas trimestrales en millones de pesos

• Estimar las ventas de dos sucursales que tienen:


– 14,000 personas
– 30,000 personas
Tabular los datos obtenidos
Diagrama de dispersión y posible
relación entre las variables X e Y.
Realizar los cálculos correspondientes
Calculo de la pendiente.
Cálculo de la ordenada al origen

Obtener la ecuación que mejor se


ajuste
Trazar la línea estimada
Calcular el error estándar de
estimación.

Tiene un error de estimación de $ 12.210.000


Para una N = 14,000 habitantes

$130.000.000
Para una N = 30,000 habitantes

$210.000.000
CORRELACIÓN SIMPLE
Mientras que el análisis de regresión simple
establece una ecuación precisa que enlaza dos
variables, el análisis de correlación es la
herramienta estadística que podemos usar para
describir el grado o fuerza en el que una variable
esta linealmente relacionada con otra.

El análisis de correlación es la herramienta


estadística para describir el grado de relación que
hay entre dos variables.
Diagramas de dispersión con
correlación débil y fuerte.

Existen dos medidas para describir la correlación entre dos


variables: el coeficiente de determinación y el coeficiente de
correlación.
COEFICIENTE MUESTRAL DE
DETERMINACIÓN
La medida más importante de que también
ajusta la línea de regresión estimada en los
datos muestrales en los que esta basada, es el
coeficiente de determinación muestral, este es
igual a la proporción de la variación total de los
valores de la variable dependiente, “Y”, que
puede explicarse por medio de la asociación de
Y con X medida por la línea de regresión
estimada.
El coeficiente de determinación muestral se
representa como r2, y mide exclusivamente la
fuerza de una relación lineal entre dos variables.
COEFICIENTE MUESTRAL DE
CORRELACIÓN
La raíz cuadrada del coeficiente de determinación
muestral, es un índice alternativo común del grado
de asociación entre dos variables cuantitativas.

El coeficiente de correlación muestral es la segunda


medida con que puede describirse la eficacia con que
una variable es explicada por otra, así pues el signo
de r indica la dirección de la relación entre las dos
variables X y Y
El siguiente esquema representa adecuadamente
la intensidad y la dirección del coeficiente de
correlación muestral.
2
2
60 ∗ 1300 + 5 ∗ 21040 − (10 ∗ 130 )
𝑟 =
184393 − (10 ∗ 1302 )

𝑟 2 = 0,922 Coeficiente muestral de determinación

𝑟 = 0,96 Coeficiente muestral de correlación


PROCEDIMIENTO PARA REALIZAR UN
ANÁLISIS DE CORRELACIÓN LINEAL SIMPLE

• Obtención y tabulación de los datos muestrales.

• La información se gráfica en un diagrama de dispersión.

• Calcular la pendiente y ordenada al origen.

• Se obtiene la ecuación que mejor se ajusta a la información obtenida.

• Se traza la línea estimada en el diagrama de dispersión.

• Calcular el error estándar de estimación.

• Calcular el coeficiente de determinación.

• Determinar el coeficiente de correlación.


EJEMPLO
Un gerente de ventas reunió los datos siguientes
relacionados con las ventas anuales en millones
de pesos y los años de experiencia de diez
vendedores. Estime las ventas anuales para un
vendedor con 7 años de experiencia

– X: Años de experiencia
– Y: Ventas anuales en millones de pesos.
Obtención y tabulación de los datos
muestrales
Vendedor Experiencia (años) Ventas (millones)
1 1 80
2 3 97
3 4 92
4 4 102
5 6 103
6 8 111
7 10 119
8 10 123
9 11 117
10 13 136
Ejemplo número 2
Los datos siguientes nos muestran los resultados del test de
aptitud obtenidos por diez empleados al ingreso a una
empresa y las ventas realizadas durante el primer mes de
trabajo en millones de pesos

Empleado 1 2 3 4 5 6 7 8 9 10
Test 25 42 33 54 29 36 24 43 34 31
Ventas 42 72 50 90 45 48 42 75 52 46

Se pide calcular las posibles ventas de un trabajador que


tenga un resultado de 50 puntos y uno que obtenga 55
puntos. ¿Qué tan buenas son las estimaciones?

También podría gustarte