Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La conclusión fue:
o los padres muy altos tienen tendencia a tener hijos que
heredan parte de esta altura, aunque tienen tendencia a acercarse
(regresar) a la media.
o Lo mismo puede decirse de los padres muy bajos.
Ejemplos
Y=f(X)
Ejemplo
Se ha observado la dosis de fertilizante aplicada en determinadas parcelas
y el rendimiento del cultivo existente en ellas.
300
250
200
150
Rend.
100
im
toR
n
d
e
50
0 20 40 60 80 100 120 14
Ejemplo
El dueño de una empresa que vende carros desea determinar si hay
relación lineal entre los años de experiencia de sus vendedores y la
cantidad de carros que venden.
40
ventas
30
20
10
0 5 10 15 20 25
years
Análisis de Regresión:
Es el procedimiento estadístico que estudia la naturaleza de la relación
funcional entre variables, con la finalidad de predecir una variable en
función de las otras.
Análisis de Correlación:
Conjunto de técnicas estadísticas usadas para medir el grado de la
relación entre dos variables
Diagrama de Dispersión:
Gráfico que muestra la forma y el sentido de la relación entre dos
variables de interés. También proporciona una idea del grado o
intensidad de esa relación
Regresión simple:
Interviene una sola variable independiente
Regresión múltiple:
Intervienen dos o más variables independientes.
Regresión lineal:
La función es una combinación lineal de los parámetros.
Regresión no lineal:
La función que relaciona los parámetros no es una combinación lineal
Se calcula mediante:
1
S xy = ∑ ( xi − x )( yi − y )
n i
Tiene el mismo signo que Sxy . Por tanto de su signo se obtine el que
la posible relación sea directa o inversa.
Es útil para determinar si hay relación lineal entre dos variables, pero
no servirá para otro tipo de relaciones (cuadrática, logarítmica,...)
Se define por:
S xy
r=
SxS y
Dra. Norka Bedregal Alpaca
REGRESIÓN Y CORRELACIÓN Coeficiente de correlación lineal
Donde:
Observaciones
Tanto Sxx como Syy no pueden ser negativas
Varía entre -1 y 1.
Observaciones
Una correlación que cae entre -0.3 y 0.3 es considerada muy baja.
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
Dra. Norka Bedregal Alpaca
REGRESIÓN Y CORRELACIÓN Correlación Positiva Perfecta
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
Dra. Norka Bedregal Alpaca
REGRESIÓN Y CORRELACIÓN Ausencia de Correlación
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
Dra. Norka Bedregal Alpaca
REGRESIÓN Y CORRELACIÓN Correlación Fuerte y Positiva
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
Dra. Norka Bedregal Alpaca
REGRESIÓN Y CORRELACIÓN Modelos de Regresión
Nota:
En la figura se muestran las distribuciones de probabilidades de Y para
distintos valores de X
Procedimiento:
o Seleccionar una muestra a partir de la población
o Listar pares de datos para cada observación
o Dibujar un diagrama de dispersión para obtener una idea visual de
la relación
o Determinar la ecuación de regresión. Dra. Norka Bedregal Alpaca
REGRESIÓN Y CORRELACIÓN Modelo de Regresión Lineal Simple
Se tiene que:
Y : Variable dependiente, predicha, explicada
X : Variable independiente, predictora, controlada, explicativa
donde:
f es una función de un tipo determinado
el error es aleatorio, pequeño, y no depende de X
Procedimiento:
o Seleccionar una muestra a partir de la población
o Listar pares de datos para cada observación
o Dibujar un diagrama de dispersión para obtener una idea visual
de la relación
o Determinar la ecuación de regresión.
Dra. Norka Bedregal Alpaca
REGRESIÓN Y CORRELACIÓN Regresión Lineal Simple
Donde:
ŷi es el valor estimado de Y para distintos X.
a es la intersección o el valor estimado de Y cuando X=0
b es la pendiente de la línea, o el cambio promedio de ŷi para cada
cambio en una unidad de X
y e ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión.
A la cantidad
e = y-ŷ
se le denomina residuo o error residual
∑e = ∑ ( yi − a − b xi )
2 2
i
i =1 i =1
n( Σ XY ) − ( Σ X )( Σ Y )
b=
n( Σ X 2 ) − ( Σ X ) 2
ΣY ΣX
a = −b
n n
Observación X Y
1 3.6 11.28
2 5.2 14.74
3 5.3 18.46
4 7.3 20.01
5 5 12.43
6 5.2 15.37
7 3 9.59
8 3.1 11.26
9 3.2 8.05
10 7.5 27.91
11 8.3 24.62
12 6.1 18.8
13 4.9 13.87
14 5.8 12.11
15 7.1 23.68
b =3.18 a = -0.96
yˆ i = − 0.96 + 3.18 xi
Luego:
Interpretación de a: no tiene interpretación práctica
Ejercicio 1.-
En la oficina central de turismo de Arequipa se ha observado que el número
de plazas hoteleras ocupadas es diferente según sea el precio de la
habitación. Sobre el total de plazas ocupadas en un año se tiene:
precio S/. /noche 25 65 100 140 210 250 270 330 400
Nº habitaciones ocupadas 4725 2610 1872 943 750 700 700 580 500
Se pide:
1.Representar gráficamente para determinar si existe cierta dependencia
lineal entre las variables.
2.Hallar el coeficiente de correlación
3.Si es conveniente, halle la ecuación de la recta de regresión del número
de habitaciones sobre el precio.
4.Es posible determinar ¿Cuántas habitaciones se llenarían a 150 soles?
Dra. Norka Bedregal Alpaca
REGRESIÓN Y CORRELACIÓN Ejercicios Propuestos
Ejercicio 2.-
Los datos de la tabla adjunta muestran el tiempo en horas de impresión
de trabajos que se han imprimido en una
impresora Láser de la marca HP. Se está interesado en estudiar la
relación existente entre la variable de interés
“tiempo de impresión de un trabajo” y la variable explicativa “número
de páginas del trabajo”. Hacer el estudio en
base a los datos obtenidos en el muestreo y que son los de la tabla
adjunta.
Se pide:
a) Recta de regresión considerando el tiempo
como variable independiente.
b) Recta de regresión considerando el número
de páginas como variable independiente
c) ¿Estime cuántas paginas se imprimirían en
12 horas?
Ejercicio 3.-
El número de libras de vapor utilizadas por mes por una planta química,
está relacionado con la temperatura ambiente promedio (en grados
Farenheit) de ese mes. En la tabla siguiente se muestra el uso del vapor
de un año y la temperatura del mes correspondiente
Ejercicio 4.-
Un centro comercial sabe en función de la distancia, en kilómetros, a la
que se sitúe de un núcleo de población, acuden los clientes, en cientos,
que figuran en la tabla:
Ejercicio 5.-
Un conjunto de datos bidimensionales (X, Y) tiene coeficiente de
correlación r = −0.9, se sabe que la media de las distribución de x igual
a 1, y de la variable e igual a 2.
Ejercicio 6.-
Se ha solicitado a un grupo de 50 individuos información sobre el
número de horas que dedican diariamente a dormir y ver la televisión.
La clasificación de las respuestas ha permitido elaborar la siente tabla:
Se pide:
1.Calcular el coeficiente de correlación.
2.Determinar la ecuación de la recta de regresión de Y sobre X.
3.Si una persona duerme ocho horas y media, ¿cuánto cabe esperar que vea
la televisión?
FIN