Está en la página 1de 67

APUNTES DE ESTADISTICA

MODULO III
Parte II
POR
ALEJANDRO ALVARADO CATZOLI

Ing. Alejandro Alvarado Catzoli


SESGO
• UNA DE LAS CARACTERÍSTICAS QUE PUEDE MEDIRSE DE UN
CONJUNTO DE OBSERVACIONES ES EL GRADO DE ASIMETRÍA DE UNA
DISTRIBUCIÓN.
• SI UNA DISTRIBUCIÓN DE FRECUENCIAS ES SIMÉTRICA, SE DICE QUE
NO TIENE SESGO, ESTO ES SU ASIMETRÍA ES NULA. EN ESTE CASO SU
CURVA SE DICE QUE ES NORMAL (DENOMINADA CAMPANA DE
GAUSS) Y LA MEDIA, MEDIANA Y MODA SON IGUALES

http://www.matematicasypoesia.com.es/Estadist/distribucion-de-frecuencias-02.jpg
Ing. Alejandro Alvarado Catzoli
• SI UNA O MAS OBSERVACIONES SON SUMAMENTE GRANDES, LA
MEDIA DE LA DISTRIBUCIÓN SE VUELVE MAYOR QUE LA MEDIANA Y
LA MODA. EN TALES CASOS SE DICE QUE LA DISTRIBUCIÓN TIENE
ASIMETRIA POSITIVA O SESGO POSITIVO O SESGADA A LA DERECHA
• POR EL CONTRARIO, SI HAY UNA O MAS OBSERVACIONES MUY
PEQUEÑAS, LA MEDIA ES LA MENOR DE LAS TRES MEDIDAS DE
TENDENCIA CENTRAL, Y SE DICE QUE LA DISTRIBUCIÓN TIENE
ASIMETRIA NEGATIVA O SESGO NEGATIVO O SESGADA A LA
IZQUIERDA

https://www.academiaarquimedes.com/wp-content/uploads/2019/06/Posiciones_relativas_de_par%C3%A1metros_centrales-1024x365.png
Ing. Alejandro Alvarado Catzoli
• Numéricamente, el sesgo se determina con los llamados coeficientes
de Pearson.
• Primer coeficiente de Pearson, que está en función de la media,
moda y desviación estándar
ҧ 𝑥ො
𝑥−
• 𝑠𝑒𝑠𝑔𝑜 =
𝜎
• Segundo coeficiente de Pearson, que está en función de la media,
mediana y desviación estándar
ҧ 𝑥)
3(𝑥− ෤
• 𝑠𝑒𝑠𝑔𝑜 =
𝜎

Ing. Alejandro Alvarado Catzoli


EJERCICIO
EL CONJUNTO DE DATOS AGRUPADOS EN LA SIGUIENTE TABLA MUESTRA DE DISTANCIAS DE
DESPLAZAMIENTO DIARIO DE UNA MUESTRA DE TRABAJADORES DE UNA FÁBRICA EN
ATLACOMULCO. CALCULE EL PRIMER COEFICIENTE DE PEARSON

DISTANCIA (km) FRECUENCIA

1–3 2
3–5 6
5–7 12
7–9 50
9 – 11 35
11 – 13 15
13 – 15 5
TOTAL 125

Ing. Alejandro Alvarado Catzoli


DISTAN FREC.
• De ejemplos anteriores tenemos que
CIA
• 𝑥ҧ = 8.8 (km)
• 𝜎 = 2.36 𝑘𝑚 1–3 2
3–5 6
5–7 12
El cálculo de la moda seria 𝑥ො
∆1 7–9 50
𝑥ො = 𝐿 + 𝑐 9 – 11 35
∆1 + ∆2 11 – 13 15
𝐿=7 13 – 15 5
∆1 = 50 − 12 = 38 TOTAL 125
∆2 = 50 − 35 = 15
c=2
sust
38
𝑥ො = 7 + 2 = 8.43
38 + 15
Ing. Alejandro Alvarado Catzoli
• El primer coeficiente de Pearson será:
ҧ 𝑥ො
𝑥−
• 𝑠𝑒𝑠𝑔𝑜 =
𝜎
8.8−8.43
• 𝑠𝑒𝑠𝑔𝑜 =
2.36
• 𝑠𝑒𝑠𝑔𝑜 = 0.1567

Ing. Alejandro Alvarado Catzoli


EJERCICIO
DETERMINE EL SEGUNDO COEFICIENTE DE PEARSON PARA EL SIGUIENTE CONJUNTO DE
DATOS AGRUPADOS QUE CORRESPONDEN A LAS CALIFICACIONES OBTENIDAS EN EL
EXAMEN DE INGRESO AL BACHILLERATO EXANI I POR LOS ALUMNOS DE UNA SECUNDARIA
PARTICULAR DE TOLUCA
CALIFICACIÓN FRECUENCIA

20 – 30 20
30 – 40 23
40 – 50 41
50 – 60 34
60 – 70 24
70 – 80 13
80 – 90 6
90 – 100 3

Ing. Alejandro Alvarado Catzoli


REGRESIÓN LINEAL Y CORRELACIÓN
• Un problema de estimación que es particularmente importante en casi
cualquier campo de estudio es el de pronosticar o predecir el valor de una
variable de algún proceso, a partir de valores conocidos de otras variables
que estén relacionadas. por ejemplo, el gerente de ventas de una cadena
comercial quiere conocer las ventas mensuales futuras de cada sucursal en
función de los gastos que se han hecho en publicidad; el jefe de producción
de una planta se interesa en conocer la relación entre el rendimiento en la
obtención de un cierto producto químico y una serie de variables asociadas
a su proceso de elaboración; el director de recursos humanos de una
empresa, se interesa en medir algunas características individuales del
candidato que le permita saber si es la persona adecuada para el tipo de
trabajo, etc.

Ing. Alejandro Alvarado Catzoli


DATOS BIVARIADOS
• AL CONJUNTO DE VALORES ASIGNADOS A DOS VARIABLES DISTINTAS
OBTENIDAS DEL MISMO ELEMENTO DE UNA POBLACIÓN O MUESTRA, SE
LE DENOMINA DATOS BIVARIADOS
• PARA UNA MUESTRA O POBLACIÓN FORMADA POR 𝑛 ELEMENTOS, LAS
DOS VARIABLES SE PRESENTAN MEDIANTE UN CONJUNTO DE PARES
ORDENADOS DE LA FORMA:
• 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , 𝑥3 , 𝑦3 , … , 𝑥𝑛 , 𝑦𝑛
• A la variable 𝑥 se le llama variable independiente y es la que proporciona
las bases para el cálculo
• A la variable 𝑦 se le llama variable dependiente y es la variable que se
predice o calcula

Ing. Alejandro Alvarado Catzoli


Ejemplos de datos bivariados
• La relación de horas de estudio y la calificación en estudiantes
• La ingesta de carbohidratos y los niveles de glucosa
• La relación de un medicamento y sus efectos secundarios
• La nutrición y el rendimiento deportivo
• El precio de un producto y sus ventas
• La calidad de un producto y sus ventas
• La relación entre la edad de una persona y la sarcopenia
• La relación entre el sedentarismo y las enfermedades crónicas

Ing. Alejandro Alvarado Catzoli


ANÁLISIS DE CORRELACIÓN
• CONJUNTO DE TÉCNICAS ESTADÍSTICAS EMPLEADO PARA MEDIR LA
INTENSIDAD DE LA ASOCIACIÓN ENTRE DATOS BIVARIADOS
• PARA DETERMINAR QUE TAN INTENSA ES LA RELACIÓN ENTRE DOS
VARIABLES, LO QUE SE HACE NORMALMENTE, COMO PRIMER PASO,
ES MOSTRAR LOS DATOS EN UN DIAGRAMA DE DISPERSIÓN

Ing. Alejandro Alvarado Catzoli


DIAGRAMA DE DISPERSIÓN
• ES LA REPRESENTACIÓN GRÁFICA EN UN SISTEMA COORDENADO
RECTANGULAR DE TODOS LOS PARES ORDENADOS QUE FORMAN EL
CONJUNTO DE DATOS BIVARIADOS EN ESTUDIO. LA VARIABLE
INDEPENDIENTE SE MARCA EN EL EJE HORIZONTAL, Y LA
DEPENDIENTE EN EL EJE VERTICAL

https://mx.images.search.yahoo.com/search/images;_ylt=AwrhbvY
WeThk9gsmVUzD8Qt.;_ylu=Y29sbwNiZjEEcG9zAzEEdnRpZAMEc2Vj
A3BpdnM-?p=diagramas+de+dispersi%C3%B3n&fr2=piv-
web&type=E210MX91215G0&fr=mcafee#id=90&iurl=https%3A%2F
%2Fdr282zn36sxxg.cloudfront.net%2Fdatastreams%2Ff-
d%3A375e38a890312e6d78bd0dc9d6ae17434c1de302c53c6a335c
79809e%252BIMAGE_TINY%252BIMAGE_TINY.1&action=click

Ing. Alejandro Alvarado Catzoli


Ejemplo: trace el diagrama de dispersión de los datos
mostrados en la tabla siguiente que muestra los gastos
publicitarios y volúmenes de ventas durante 10 meses
de una compañía
MES GASTOS PUBLICITARIOS 𝑥 (MILES) VOLUMEN DE VENTAS 𝑦 (MILES)
1 12 101
2 8 92
3 10 110
4 13 120
5 7 90
6 8 82
7 10 93
8 6 75
9 9 91
10 11 105
Ing. Alejandro Alvarado Catzoli
SOLUCIÓN: GRAFICAMOS LOS PARES
ORDENADOS EN UN PLANO CARTESIANO

Ing. Alejandro Alvarado Catzoli


Diagrama de dispersión

Ing. Alejandro Alvarado Catzoli


Ejercicio: trace el diagrama de dispersión de los datos
mostrados en la tabla siguiente que muestra los estudios que
hizo una compañía para saber la relación entre los costos de
transporte y la distancia recorrida para llevar un producto de
petróleo a su destino
DISTANCIA 𝑥 (por 100 km) COSTO POR UNIDAD
TRANSPORTADA 𝑦 ($)
6 49
13 93
27 159
15 115
9 66
11 90
21 139
Ing. Alejandro Alvarado Catzoli
14 98
CENTRO DE GRAVEDAD
• EL CENTRO DE GRAVEDAD O CENTROIDE ES EL PUNTO DE EQUILIBRIO
DE UN CONJUNTO DE DATOS EN UN DIAGRAMA DE DISPERSIÓN, SUS
COORDENADAS SON: 𝑥,ҧ 𝑦ത , en el que
• 𝑥ҧ es la media aritmética del conjunto de los primeros elementos
(variable independiente) de los pares ordenados de los datos
bivariados
• 𝑦ത es la media aritmética del conjunto de los segundos elementos
(variable dependiente) de los pares ordenados de los datos bivariados

Ing. Alejandro Alvarado Catzoli


Ejemplo: determine y localice el centro de
gravedad del siguiente conjunto de datos que
muestra la producción y costos fijos de una
empresa
X Producción (en decenas de miles de unidades) Y Costos fijos (en decenas de miles de $)
3 12
4 10.5
5 13
6 12
7 13
8 13.3
9 16.5
Ing. Alejandro Alvarado Catzoli
• Solución
• Calculamos las medias aritméticas de cada variable:
3+4+5+6+7+8+9
• 𝑥ҧ =
7
42
• 𝑥ҧ = =6
7
12+10.5+13+12+13+13.3+16.5
• 𝑦ത =
7
90.3
• 𝑦ത = = 12.9
7
• Trazamos ahora el diagrama de dispersión y localizamos el centroide
(6,12.9) marcado con rojo

Ing. Alejandro Alvarado Catzoli


Ing. Alejandro Alvarado Catzoli
COVARIANZA
• Es una medida de dispersión conjunta de las dos variables de un
conjunto de datos bivariados. Indica si existe o no dependencia o
relación entre las dos variables.
• Su valor se obtiene con la fórmula:
1
• 𝐶𝑜𝑣 𝑥, 𝑦 = σ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത
𝑛
• Con 𝑛 el número de pares ordenados
• 𝑥ҧ media de la variable 𝑥
• 𝑦ത media de la variable 𝑦
• La covarianza puede resultar positiva, negativa o cero

Ing. Alejandro Alvarado Catzoli


• La covarianza es positiva si, cuando los valores
de una variable aumentan (o disminuyen),
tambien aumentan (o disminuyen) los valores
de la otra
• Su representación gráfica seria de la siguiente
forma

Ing. Alejandro Alvarado Catzoli


• La covarianza es negativa si, cuando los valores
de una variable aumentan (disminuyen), los de
la otra disminuyen (aumentan)
• Su representación gráfica seria de la siguiente
forma

Ing. Alejandro Alvarado Catzoli


• La covarianza es nula cuando no existe
relación entre las variables
• Su representación gráfica seria de la
siguiente forma

Ing. Alejandro Alvarado Catzoli


Ejemplo: determine la covarianza del siguiente conjunto de
datos que muestra la producción y costos fijos de una empresa

Ing. Alejandro Alvarado Catzoli


• De un ejemplo anterior tenemos ya las medias de las variables
• 𝑥ҧ = 6
• 𝑦ത = 12.9
•𝑛=7
• Para el calculo agregamos unas columnas

Ing. Alejandro Alvarado Catzoli


3−6 12 − 12.9 −3 (−0.9)

X Producción (en Y Costos fijos (en ഥ


𝒙𝒊 − 𝒙 ഥ
𝒚𝒊 − 𝒚 ഥ 𝒚𝒊 − 𝒚
𝒙𝒊 − 𝒙 ഥ
decenas de miles de decenas de miles de
unidades) $)
3 12 −3 − 0.9 2.7
4 10.5 −2 −2.4 4.8
5 13 −1 0.1 −0.1
6 12 0 −0.9 0
7 13 1 0.1 0.1
8 13.3 2 0.4 0.8
9 16.5 3 3.6 10.8
∑ 19.1

Ing. Alejandro Alvarado Catzoli


• El valor de la covarianza será:
1
• 𝐶𝑜𝑣 𝑥, 𝑦 = σ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത
𝑛
1
• 𝐶𝑜𝑣 𝑥, 𝑦 = 19.1 = 2.72857
7
• La covarianza resultó positiva, esto indica que existe una relación
entre las variables en la que, si una aumenta, la otra también.

Ing. Alejandro Alvarado Catzoli


FORMULA ALTERNA DE COVARIANZA
1 (σ 𝑥)(σ 𝑦)
• 𝐶𝑜𝑣(𝑥, 𝑦) = (σ 𝑥𝑦 − )
𝑛 𝑛
• Así entonces para el ejemplo tenemos:

Ing. Alejandro Alvarado Catzoli


x y 𝑥𝑦
3 12 36
4 10.5 42
5 13 65
6 12 72
7 13 91
8 13.3 106.4
9 16.5 148.5
42 90.3 560.9

෍𝑥 ෍𝑦 ෍ 𝑥𝑦

Ing. Alejandro Alvarado Catzoli


• De la tabla y sustituyendo en la formula alterna tenemos
1 (σ 𝑥)(σ 𝑦)
• 𝐶𝑜𝑣(𝑥, 𝑦) = (σ 𝑥𝑦 − )
𝑛 𝑛
1 42 90.3
• 𝐶𝑜𝑣 𝑥, 𝑦 = 560.9 − = 2.72857 ≈ 2.73
7 7

Ing. Alejandro Alvarado Catzoli


Ing. Alejandro Alvarado Catzoli
COEFICIENTE DE CORRELACIÓN
• ES UN NÚMERO ADIMENSIONAL (NO TIENE UNIDADES) QUE OSCILA
ENTRE −1 Y 1 , Y QUE SE CALCULA CON LA FÓRMULA:
𝐶𝑜𝑣(𝑥,𝑦)
•𝑟=
𝜎𝑥 𝜎𝑦
• 𝑟 es el coeficiente de correlación
• 𝐶𝑜𝑣(𝑥, 𝑦) es la covarianza de los datos
• 𝜎𝑥 es la desviación estándar de la variable 𝑥
• 𝜎𝑦 es la desviación estándar de la variable 𝑦

Ing. Alejandro Alvarado Catzoli


• Si 𝑟 es positivo, indica que la variable 𝑦 aumenta al incrementar la
variable 𝑥, es decir, se tiene una correlación positiva
• Si 𝑟 es negativo, indica que la variable 𝑦 disminuye o decrece al
aumentar la variable 𝑥, es decir, se tiene una correlación negativa
• Si 𝑟 es igual a cero, no existe ninguna correlación entre las variables
• Si 𝑟 = −1 o 𝑟 = 1 existe una dependencia lineal entre las dos
variables, es decir, en el diagrama de dispersión todos los puntos se
encuentran sobre una línea recta
• Si 𝑟 está próximo a cero, se tiene una correlación débil
• Si 𝑟 esta próximo a −1 o 1 se tiene una correlación fuerte

Ing. Alejandro Alvarado Catzoli


VALORES DEL COEFICIENTE DE CORRELACIÓN

https://www.researchgate.net/profile/Juan_Cuellar/publication/330448962/figure/fig2/AS:715528805048323@1547606769941/Figura-23-Interpretacion-de-los-valores-que-entrega-el-coeficiente-de-correlacion-de.ppm

Ing. Alejandro Alvarado Catzoli


No hay correlación

𝑟=1 𝑟 = 0.8

𝑟 = −1 𝑟 = −0.8
Ing. Alejandro Alvarado Catzoli
https://image.slidesharecdn.com/cursobsicospss-utb-120518114908-phpapp01/95/curso-bsico-spss-27-728.jpg?cb=1343431344
https://www.cimec.es/wp-content/uploads/2021/02/ejemplos-graficos-correlacion-2.png

Ing. Alejandro Alvarado Catzoli


https://i2.wp.com/vivaelsoftwarelibre.com/wp-content/uploads/2018/03/Coeficiente-de-correlaci%C3%B3n-en-R.png?resize=835%2C687

Ing. Alejandro Alvarado Catzoli


Ejemplo: determine el coeficiente de correlación del siguiente
conjunto de datos que muestra la producción y costos fijos de
una empresa

Ing. Alejandro Alvarado Catzoli


• Para calcular las desviaciones estándar utilizamos las fórmulas
alternas de varianza y posteriormente extraemos las raíces cuadradas.
La covarianza ya se tiene de los ejemplos anteriores
1 (σ 𝑥)(σ 𝑦)
• 𝐶𝑜𝑣(𝑥, 𝑦) = (σ 𝑥𝑦 − )
𝑛 𝑛

2
σ 𝑥𝑖
σ 𝑥𝑖 2 −
• 𝜎𝑥 2 = 𝑛
𝑛

2
σ 𝑦𝑖
σ 𝑦𝑖 2 −
• 𝜎𝑦 2 = 𝑛
𝑛

Ing. Alejandro Alvarado Catzoli


Con la siguiente tabla podríamos calcular tanto la
covarianza como las desviaciones estándar
𝑥 𝑦 𝒙𝟐 𝒚𝟐 𝑥𝑦
3 12 9 144 36
4 10.5 16 110.25 42
5 13 25 169 65
6 12 36 144 72
7 13 49 169 91
8 13.3 64 176.89 106.4
9 16.5 81 272.25 148.5
42 90.3 280 1185.39 560.9

෍𝑥 ෍𝑦 ෍ 𝑥2 ෍ 𝑥𝑦

Ing. Alejandro Alvarado Catzoli


• Por tanto
1 (σ 𝑥)(σ 𝑦)
• 𝐶𝑜𝑣(𝑥, 𝑦) = (σ 𝑥𝑦 − )
𝑛 𝑛
1 42 90.3
• 𝐶𝑜𝑣 𝑥, 𝑦 = 560.9 − = 2.72857 ≈ 2.73
7 7

2
2− σ 𝑥𝑖 (42)2
σ 𝑥𝑖 280−
2
• 𝜎𝑥 = 𝑛
= 7
=4
𝑛 7
• Por tanto
• 𝜎𝑥 = 4 = 2
2
2− σ 𝑦𝑖 (90.3)2
σ 𝑦𝑖 1185.39− 7
2
• 𝜎𝑦 = = 𝑛
= 2.9314
𝑛 7
• Por tanto
• 𝜎𝑦 = 2.9314 = 1.7121 ≈ 1.71
Ing. Alejandro Alvarado Catzoli
• Finalmente, el coeficiente de correlación será
𝐶𝑜𝑣(𝑥,𝑦) 2.73
•𝑟= = = 0.7982
𝜎𝑥 𝜎𝑦 (2)(1.71)
• Como conclusión, diremos que como el coeficiente esta cerca de uno,
se tiene una correlación fuerte

Ing. Alejandro Alvarado Catzoli


Ejemplo: Determine el coeficiente de correlación del siguiente
conjunto de datos que muestra las ventas y ganancias de 12 compañías.
Interprete el resultado. Trace la gráfica de dispersión
compañía Ventas (miles de pesos) Ganancias (miles de pesos)
A 89.2 4.9
B 18.6 4.4
C 18.2 1.3
D 71.7 8.0
E 58.6 6.6
F 46.8 4.1
G 17.5 2.6
H 11.9 1.7
I 19.6 3.5
J 51.2 8.2
K 28.6 6.0
L 69.2 12.8
Ing. Alejandro Alvarado Catzoli
ECUACIÓN DE RECTA DE REGRESIÓN
• Aunque el coeficiente de correlación mide la intensidad de una
relación entre variables, no dice nada sobre la relación matemática
que hay entre las dos variables. Tambien no ayuda a predecir valores
de la variable dependiente tomando valores de la independiente.
• El análisis de regresión es una técnica empleada para desarrollar una
ecuación que describa la mejor la relación entre las dos variables. Una
aplicación de esta ecuación es hacer predicciones.
• La relación entre las dos variables es una expresión algebraica que
describe dicha relación

Ing. Alejandro Alvarado Catzoli


• Existen diferentes expresiones algebraicas o tambien denominadas
modelos o ecuaciones de predicción como las siguientes:

nombre Modelo o ecuación

Lineal 𝑦 = 𝑚𝑥 + 𝑏
Cuadrática 𝑦 = 𝑎𝑥 2 + 𝑏𝑥 + 𝑐
Exponencial 𝑦 = 𝑎(𝑏 𝑥 )
logarítmica 𝑦 = 𝑎(𝑙𝑜𝑔𝑏 𝑥)

Ing. Alejandro Alvarado Catzoli


• Si un modelo lineal parece idóneo, la recta de “mejor ajuste” se
determina aplicando el llamado método de mínimos cuadrados que
es una técnica que minimiza la suma de los cuadrados de las
distancias verticales entre los valores verdaderos de la variable 𝑦 y los
valores pronosticados de 𝑦
• La forma general de la ecuación de regresión lineal es
• 𝑦 = 𝑚𝑥 + 𝑏
• En la que:
• 𝒚 es el valor pronosticado de la variable 𝑦 para un valor seleccionado de 𝑥
• 𝒃 es la intersección con el eje 𝑌 (tambien llamada ordenada al origen), o sea,
es el valor estimado de 𝑦 cuando 𝑥 = 0
• 𝒎 es la pendiente de la recta, o sea, el cambio promedio en 𝑦 por unidad de
cambio (incremento o decremento) en la variable independiente 𝑥
• 𝒙 es cualquier valor seleccionado de la variable independiente
Ing. Alejandro Alvarado Catzoli
Ing. Alejandro Alvarado Catzoli
https://s3.us-east-2.amazonaws.com/matematicas.video/wp-content/uploads/2020/10/13122124/Ecuacion-pendiente-ordenada-matematicas.video_.png
• Las fórmulas para 𝑚 y 𝑏 son:
𝐶𝑜𝑣(𝑥,𝑦)
•𝑚=
(𝜎𝑥 )2
• 𝑏 = 𝑦ത − 𝑚𝑥ҧ

• La recta de regresión contiene al centro de gravedad (𝑥,ҧ 𝑦)


ത de los datos

• Una fórmula alterna para el calculo de 𝑚 es


𝑛 σ 𝑥𝑦 −(σ 𝑥)(σ 𝑦)
•𝑚=
𝑛(σ 𝑥 2 )−(σ 𝑥)2

Ing. Alejandro Alvarado Catzoli


Ejemplo: determine la ecuación de la recta de regresión del
siguiente conjunto de datos que muestra la producción y
costos fijos de una empresa

Ing. Alejandro Alvarado Catzoli


• De los ejemplos anteriores tenemos que
• 𝐶𝑜𝑣 𝑥, 𝑦 = 2.72857
• 𝜎𝑥 = 2
• 𝑥ҧ = 6
• 𝑦ത = 12.9
•𝑛=7

• Por tanto
𝐶𝑜𝑣(𝑥,𝑦) 2.72875
•𝑚= = = 0.6821
𝜎𝑥 (2)2
• 𝑏 = 𝑦ത − 𝑚𝑥ҧ = 12.9 − 0.6821 6 = 8.8069

Ing. Alejandro Alvarado Catzoli


• Finalmente la ecuación será:
• 𝑦 = 𝑚𝑥 + 𝑏
• 𝒚 = 𝟎. 𝟔𝟖𝟐𝟏𝒙 + 𝟖. 𝟖𝟎𝟔𝟗
• Su gráfica sería la siguiente, junto con los puntos de los datos
bivariados

Ing. Alejandro Alvarado Catzoli


Ing. Alejandro Alvarado Catzoli
• Podemos calcular el valor de la pendiente con la formula alterna
𝑛 σ 𝑥𝑦 −(σ 𝑥)(σ 𝑦)
•𝑚=
𝑛(σ 𝑥 2 )−(σ 𝑥)2
• Para ellos nos auxiliamos de la tabla

Ing. Alejandro Alvarado Catzoli


• Sustituyendo datos
𝑛 σ 𝑥𝑦 −(σ 𝑥)(σ 𝑦) 7 560.9 −(42)(90.3)
•𝑚= =
𝑛(σ 𝑥 2 )−(σ 𝑥)2 7 280 − 42 2
• 𝑚 = 0.6821, mismo resultado
• Si, por otra parte quisiéramos saber el costo fijo para una producción
de 10 (decenas de miles de pesos), tendríamos que sustituir este dato
en la ecuación
• 𝑦 = 0.6821(10) + 8.8069
• 𝒚 = 𝟏𝟓. 𝟔𝟐𝟗𝟕 (decenas de miles de unidades)

Ing. Alejandro Alvarado Catzoli


Ejercicio: determine la ecuación de la recta de regresión del
siguiente conjunto de datos que muestra la relación entre las
ventas y los gastos de publicidad de una empresa durante los
meses mostrados. Calcule los importes de ventas cuando se
gastan 2.5 millones de pesos en publicidad

mes Gastos en publicidad (millones de $) Ingresos por ventas (millones de $)


Julio 2 7
Agosto 1 3
Septiembre 3 8
octubre 4 10

Ing. Alejandro Alvarado Catzoli


APLICACIÓN DE LA RECTA DE REGRESION A
SERIES DE TIEMPO
• OTRA APLICACIÓN DE LA RECTA DE REGRESIÓN ES CUANDO EN UNA
VARIABLE SE MANEJA UN PERIODO. POR SU IMPORTANCIA, ESTE
TEMA SE ESTUDIA APARTE Y RECIBE EL NOMBRE DE SERIES DE
TIEMPO.
• UNA SERIE DE TIEMPO ES UN CONJUNTO DE DATOS BIVARIADOS
(𝑥, 𝑦) EN LOS CUALES LOS PRIMEROS ELEMENTOS
(𝑥) CORRESPONDEN A LA VARIABLE TIEMPO, COMO PUEDEN SER
AÑOS, DECADAS, SEMESTRES, MESES, SEMANAS, DIAS, HORAS,
ENTRE OTROS.
• EL OBJETIVO ES REALIZAR PREDICCIONES O PRONOSTICOS DE LO QUE
PUEDE SUCEDER CON BASE EN DATOS CONOCIDOS,

Ing. Alejandro Alvarado Catzoli


EJEMPLO: en los últimos años se han registrado los siguientes datos
correspondientes a la población escolar que ingresa a cursar alguna
licenciatura que oferta la UAEMex en la ciudad de Toluca. Determine la
ecuación de regresión o mejor ajuste, su gráfica y el número de alumnos
que se estima serán aceptados para cursar alguna de las licenciaturas
que ofrece la UAEMex en sus diferentes campus de Toluca para los años
2025 y 2030

año matrícula
2008 19099
2009 20165
2010 21313
2011 22468
2012 23885
2013 25269
2014 Ing. Alejandro Alvarado Catzoli 26816
SOLUCIÓN
• Determinamos los valores de las medias para cada variable

2008+2009+2010+2011+2012+2013+2014 14077
• 𝑥ҧ = = = 2011
7 7
19099+20165+21313+22468+23885+25269+26816 159015
• 𝑦ത = = = 22716.42857
7 7
• 𝑥,ҧ 𝑦ത = (2011,22716.42857)
• Para la covarianza 𝐶𝑜𝑣(𝑥, 𝑦) y varianza 𝜎𝑥 2 se construye la siguiente tabla

Ing. Alejandro Alvarado Catzoli


años matrícula ഥ
𝒙𝒊 − 𝒙 ഥ
𝒚𝒊 − 𝒚 ഥ 𝒚𝒊 − 𝒚
𝒙𝒊 − 𝒙 ഥ ഥ 𝟐
𝒙𝒊 − 𝒙

2008 19099 -3 -3617.42857 10852.28571 9

2009 20165 -2 -2551.42857 5102.85714 4

2010 21313 -1 -1403.42857 1403.42857 1

2011 22468 0 -248.42857 0 0

2012 23885 1 1168.57143 1168.57143 1

2013 25269 2 2552.57143 5105.14286 4

2014 26816 3 4099.57143 12298.71429 9

14077 159015 35931 28


Ing. Alejandro Alvarado Catzoli


• El valor de la varianza de 𝑥 es:
1 1
• 𝜎2 = σ 𝑥𝑖 − 𝑥ҧ 2 = 28 = 4
𝑛 7
• La covarianza será:
1 1
• 𝐶𝑜𝑣 𝑥, 𝑦 = σ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത = 35931 = 5133
𝑛 7
• Ahora se obtiene el valor de 𝑚
𝐶𝑜𝑣(𝑥,𝑦) 5133
•𝑚= = = 1283.25
𝜎𝑥 2 4
• El valor de 𝑏 será:
• 𝑏 = 𝑦ത − 𝑚𝑥ҧ = 22716.42857 − 1283.25 2011 = −2557899.321
• Por tanto la ecuación será:
• 𝑦 = 𝑚𝑥 + 𝑏
• 𝑦 = 1283.25𝑥 − 2557899.321 Ing. Alejandro Alvarado Catzoli
• Para estimar la matrícula para 2025 y 2030, sustituimos estos valores
en la ecuación de la recta
• 𝑥 = 2025
• 𝑦 = 1283.25(2025) − 2557899.321
• 𝑦 = 40681.929 alumnos
• 𝑥 = 2030
• 𝑦 = 1283.25(2030) − 2557899.321
• 𝑦 = 47098.179 alumnos

Ing. Alejandro Alvarado Catzoli


Ing. Alejandro Alvarado Catzoli
Si empleamos la fórmula alterna para calcular a la
pendiente 𝑚, construimos la siguiente tabla
Año (𝑥) Matrícula (𝑦) 𝒙𝟐 𝒚𝟐 𝑥𝑦
2008 19099 4032064 364771801 38350792
2009 20165 4036081 406627225 40511485
2010 21313 4040100 454243969 42839130
2011 22468 4044121 504811024 45183148
2012 23885 4048144 570493225 48056620
2013 25269 4052169 638522361 50866497
2014 26816 4056196 719097856 54007424
14077 159015 28308875 3658567461 319815096

Ing. Alejandro Alvarado Catzoli


• Sustituyendo datos
𝑛 σ 𝑥𝑦 −(σ 𝑥)(σ 𝑦) 7 319815096 −(14077)(159015) 251517
•𝑚= = =
𝑛(σ 𝑥 2 )−(σ 𝑥)2 7 28308875 − 14077 2 196
• 𝑚 = 1283.25, mismo resultado

Ing. Alejandro Alvarado Catzoli


EJERCICIO: En la siguiente tabla, se muestra parte del cuadro histórico
de los salarios mínimos que se han aplicado para la ciudad de México
Determine la ecuación de regresión o de mejor ajuste, su gráfica y el
salario mínimo que se estima para los años 2025 y 2030
AÑO SALARIO MÍNIMO ($/DIA)
2008 52.59
2009 54.80
2010 57.46
2011 59.48
2012 62.33
2013 64.76
2014 27.29
2015 70.10

Ing. Alejandro Alvarado Catzoli

También podría gustarte