Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Indicaciones generales:
• Formato de entrega: Se debe entregar en forma individual o grupal, según lo indique el docente.
• Se debe anexar como solución un formato .pdf LEGIBLE
• Si alguna de las condiciones de entrega no se cumple, la nota correspondiente de la actividad será 0,0.
• Se recomienda realizar el envı́o de la actividad con suficiente tiempo de anterioridad con el fin de evitar dificultades en el envı́o.
Esta actividad corresponde al trabajo que se debe desarrollar de forma autónoma durante la semana, en la
sesión del dı́a sábado se resolverán dudas y se realizará una evaluación. La nota de la semana corresponde a la
nota de esta actividad y a la evaluación de acuerdo con los porcentajes definidos en los lineamientos del Curso.
Realice una lectura completa de la actividad y siga las indicaciones.
1. OBJETIVOS
Ajustar un conjunto de datos por medio de un modelo de regresión exponencial o lineal múltiple para predecir
valores desconocidos de la variable dependiente.
3. INTRODUCCIÓN
Cuando realizamos un diagrama de dispersión entre un par de variables cuantitativas, eventualmente vemos que
estas tienen (en cierto grado) relación lineal; sin embargo, los datos se pueden expresarse de múltiples formas, por
ejemplo en forma exponencial, lo que hace pensar en un ajuste con dicha estructura darı́a mejores resultados en
la predicción. Veremos en lo que sigue que en el caso de ajustes de tipo exponencial basta tomar logaritmos de los
datos, para que estos asuman una forma lineal y de este modo con base en lo aprendido para los ajustes de tipo
podamos encontrar un ajuste de tipo exponencial.
Por otro lado, un comportamiento de interés en este documento surge al pensar en contextos donde diversas
variables se unen para dar explicación a una en particular, un ejemplo de esto se presenta cuando se toman en
cuanta los atributos que tienen diversas marcas de celulares a la hora de definir el costo de sus productos, en este
caso la idea es definir los aportes adecuados de cada uno de los atributos, por ejemplo, es de esperarse que celulares
con mejores cámaras estén asociados a costos mayores y que otras caracterı́sticas como el tamaño, aunque incida
lo haga con menor proporción. En lo que sigue explicaremos como se ajusta una regresión múltiple y como se
hallan los pesos adecuados asociados a cada una de las variables.
1
Corporación Universitaria Minuto de Dios UNIMINUTO
UNIDAD TRANSVERSAL DE CIENCIAS BÁSICAS
MATERIA: Estadı́stica Descriptiva Modalidad distancia
mejor los ajusta. En especı́fico fue posible hallar los coeficientes a y b de la recta de regresión yb = a + bx.
P
xy − nx̄ȳ
b= P 2
x − nx̄2
a = ȳ − bx̄
estos valores pueden ser obtenidos resolviendo el siguiente sistema de dos ecuaciones que tiene a a y b como
incógnitas.
P P
y = n·a+b· x
x2
P P P
xy = a · x+b·
Este tipo de sistema de ecuaciones que permite hallar los coeficientes asociados a un modelo de regresión se suele
llamar ecuaciones normales. A continuación veremos como ligadas a las regresiones exponencial y múltiple
tenemos respectivos sistemas de ecuaciones normales.
El siguiente ejemplo tiene como propósito ilustrar como se trabaja con un conjunto de datos cuyo comportamiento
sigue una forma exponencial. Notamos de antemano en la siguiente figura, que representa el diagrama de dispersión
de datos, como estos no parecen ajustarse exactamente a una lı́nea recta, sino que su tendencia podrı́a ser diferente.
Ejemplo: En un estudio sobre la durabilidad de una referencia particular de llantas para vehı́culo se analizaron
los kilómetros (en miles) recorridos y el porcentaje de vida útil de los neumáticos. La siguiente tabla consigna los
datos obtenidos.
yb = AeBx
Una forma de determinar A B en un una regresión exponencial es linealizando esta última expresión, lo que se
logra si aplicamos logaritmo naturas en ambos lados de la expresión:
2
Corporación Universitaria Minuto de Dios UNIMINUTO
UNIDAD TRANSVERSAL DE CIENCIAS BÁSICAS
MATERIA: Estadı́stica Descriptiva Modalidad distancia
y = AeBx
ln(y) = Ln(A) + Ln(eBx )
ln(y) = Ln(A) + Bx
y ′ = A′ + Bx
′
como se nota, llamando y ′ a ln(y) y A′ a Ln(A) (lo que equivale a A = eA ) se ve que la expresión queda escrita
en forma lineal, por tanto, reescribiendo las ecuaciones normales asociadas a la regresión lineal
P ′
y = n · A′ + B · x
P
xy ′ = A′ · x + B′ · x2
P P P
se puede determinar A′ y B P ′
xy − nx̄ȳ ′
B= P 2
x − nx̄2
A′ = ȳ ′ − B x̄
Usando estás expresiones con los datos del ejemplo, se puede hallar A y B
3
Corporación Universitaria Minuto de Dios UNIMINUTO
UNIDAD TRANSVERSAL DE CIENCIAS BÁSICAS
MATERIA: Estadı́stica Descriptiva Modalidad distancia
x̄ = 19,125
ȳ ′ = 3,73525
y, por tanto,
P ′
xy − nx̄ȳ ′ 489,57 − 8 · 19,125 · 3,735
B= P 2 = = −0,0488
x − nx̄2 4605 − 8 · (19,125)2
′
A′ = ȳ ′ − B x̄ = 3,735 − (0,0488) · 19,195 = 4,6684 =⇒ A = eA = e4,6684 = 106,53
De esta manera, la curva de regresión exponencial queda definida como:
y = AeBx
y = 106,53e−0,0488x
con esta expresión podemos hacer predicciones, por ejemplo, podemos determinar el porcentaje de vida útil de las
llantas cuando se ha hecho un recorrido de, 45000 kilómetros:
y = 106,53e−0,0488·45 = 11,85 %
Como se mencionaba en la introducción, en general es de esperar que una variable se quiera explica en función
de un conjunto de variables y no solamente a través de una exclusivamente. El siguiente ejemplo muestra una
relación de este tipo.
El modelo de Regresión lineal múltiple que estaremos proponiendo para esta situación será:
zb = ax + by + c
Es decir, se quiere predecir el número de parásitos asumiendo ciertas condiciones de temperatura y humedad. Como
vemos en el siguiente gráfico de dispersión, la proliferación de parásitos parece verse afectada por la humedad y
temperatura de las condiciones ambientales que impone la localización, de esta forma, se plantea usar la información
de la tabla para explicar la variable recuento (z), en términos de las variables Temperatura (x) y Humedad (y).
Para determinar a b y c en un una regresión lineal múltiple como la que estamos asumiendo se obtiene de las
respectivas ecuaciones normales para esta situación
P P P
z = a · x + b · y + cn
P
xz = a · x2 + b · xy + c · x
P P P
Ecuaciones N ormales :
yz = a · xy + b · y 2 + c ˙ y
P P P P
4
Corporación Universitaria Minuto de Dios UNIMINUTO
UNIDAD TRANSVERSAL DE CIENCIAS BÁSICAS
MATERIA: Estadı́stica Descriptiva Modalidad distancia
En este caso, a diferencia de los anteriores ejemplos, donde que se daban fórmulas explı́citas para hallar los
parámetros, construiremos las ecuaciones normales; la siguiente tabla muestra la información necesaria para cons-
truir dichas ecuaciones con los datos dados para este ejemplo. Una vez reemplazamos los valores correspondientes
obtenemos:
5
Corporación Universitaria Minuto de Dios UNIMINUTO
UNIDAD TRANSVERSAL DE CIENCIAS BÁSICAS
MATERIA: Estadı́stica Descriptiva Modalidad distancia
2623 = 294a + 1149b + 15c
Ecuaciones N ormales : 52198 = 6082a + 22703b + 294c
202481 = 22703a + 88837b + 1149c
z x y xz yz xy x2 y2
156 15 70 2340 10920 1050 225 4900
157 16 65 2512 10205 1040 256 4225
177 24 71 4248 12567 1704 576 5041
145 13 64 1885 9280 832 169 4096
197 21 84 4137 16548 1764 441 7056
184 16 86 2944 15824 1376 256 7396
172 22 72 3784 12384 1584 484 5184
187 18 84 3366 15708 1512 324 7056
157 20 71 3140 11147 1420 400 5041
169 16 75 2704 12675 1200 256 5625
200 28 84 5600 16800 2352 784 7056
193 27 79 5211 15247 2133 729 6241
167 13 80 2171 13360 1040 169 6400
170 22 76 3740 12920 1672 484 5776
192 23 88 4416 16896 2024 529 7744
2623 294 1149 52198 202481 22703 6082 88837
De este sistema se pueden despejar a, b y c con cualquiera de los métodos previstos para solucionar sistemas
de ecuaciones lineales. En particular, este sistema de ecuaciones puede ser escrito matricialmente y ser resuelto
mediante algún software o aplicación.
2623 294 1149 15 a
52198 = 6082 22703 294 b
202481 22703 88837 1149 c
Con la aplicación symbolab el anterior sistema reporta la siguiente solución:
zb = ax + by + c
Si se quisiera pronosticar el valor probable obtenido en el conteo de parásitos en una localización cuya temperatura
y Humedad media corresponden a 21 y 80 se tiene pronóstico aproximado de 182 parásitos.
Los distintos software Estadı́sticos proporcionan herramientas que permiten definir los coeficientes de regresión. En
el caso de Excel basta por ejemplo activar el complemento: Herramientas para análisis. El tercer video recomendado
6
Corporación Universitaria Minuto de Dios UNIMINUTO
UNIDAD TRANSVERSAL DE CIENCIAS BÁSICAS
MATERIA: Estadı́stica Descriptiva Modalidad distancia
en este documento explica como realizar una regresión lineal múltiple usando Excel. En el caso de los datos del
ejemplo anteriormente considerado, la siguiente figura muestra la salida proporcionada por EXcel, que entre otros
valores importantes, arroja los coeficientes a, b y c que previamente hallamos.
5. MATERIAL DE APOYO
5.1. Lecturas complementarias
Lectura 1: Regresión Múltiple.
5.2. Vı́deos
Video 1: Regresión Exponencial.
7
Corporación Universitaria Minuto de Dios UNIMINUTO
UNIDAD TRANSVERSAL DE CIENCIAS BÁSICAS
MATERIA: Estadı́stica Descriptiva Modalidad distancia
Paso 5: En buscador escriba el nombre del curso o del libro que desea. Luego presione buscar.
5.4. Aplicaciones
Calculadora de Regresión Lineal Múltiple
6. ACTIVIDAD
La presente actividad está compuesta de tres ı́tems y cada uno de estos tiene un valor porcentual sobre la nota
final del taller, dicho porcentaje está dividido de la siguiente forma: la primera parte tiene un valor porcentual del
40 %, la segunda de un 10 % y la parte final de un 50 %.
Parte 1 Elabore un mapa conceptual que muestre un panorama general de las diferentes regresiones que
hay.
Parte 2 Construya en ejemplo con datos reales donde tenga validez usar alguna de las regresiones estudiadas
en esta guı́a. Haga todos los análisis posibles y finalmente use la fórmula de regresión obtenida para hacer
pronósticos para la variable dependiente.
1. El volumen de ventas mensuales (Y) en miles de dólares y los años de experiencia en ventas X de una
selección aleatoria de 6 vendedores de una empresa se registra en la siguiente tabla.
X 1 2 3 4 5 6
Y 10 40 120 300 800 500
2. Con los siguientes datos se desea relacionar el número de horas diarias frente al televisor Z, con el estado
civil X y la edad Y en una muestra de 20 personas escogidas al azar. El estado civil se encuentra codificado
con 1 : para Casada, 0 : para soltera.
Z 1.1 1.6 2 2.5 2.8 2.8 3 3 3 3.2 3.2 3.3 3.3 3.4 3.5 3.6 3.6 3.7 3.9 4
X 1 1 0 0 1 1 1 1 1 0 1 0 0 0 0 0 0 0 1 0
Y 73 66 65 65 68 69 82 83 82 72 69 71 71 80 73 75 78 66 80 55
8
Corporación Universitaria Minuto de Dios UNIMINUTO
UNIDAD TRANSVERSAL DE CIENCIAS BÁSICAS
MATERIA: Estadı́stica Descriptiva Modalidad distancia
c) Estime las horas diarias frente al televisor de una persona casada de 60 años.
3. Los siguientes datos representan el tiempo de pos-operatorio en dı́as Z, número de problemas médicos actual-
mente X, y el tiempo de permanencia preoperatoria en dı́as Y de 20 pacientes intervenidos quirúrgicamente
en un hospital.
a) Determinar la ecuación de regresión múltiple usando la metodologı́a del segundo video del material de
apoyo.
b) Calcule el tiempo de permanencia posoperatoria cuando el número de problemas médicos es 5 y el
tiempo de permanencia preoperatoria es de, 5 dı́as.
4. Un investigador de salud pública interesado en los factores sociales que influyen en las enfermedades cardı́acas.
Encuesta 500 pueblos y recopila datos sobre el porcentaje de personas en cada pueblo que fuma, el porcentaje
de personas en cada pueblo que van en bicicleta al trabajo y el porcentaje de personas en cada pueblo que
tienen enfermedades del corazón (Descargar Datos).
a) Determine la ecuación de regresión múltiple usando Excel (ver tercer video del material de apoyo).
b) Calcule la correlación de Pearson entre cada par de variables. ¿Qué observa?
7. BIBLIOGRAFÍA
Martı́nez, C. (2012). Estadı́stica y Muestreo. Bogotá: Ecoe Ediciones.