Está en la página 1de 21

SUBDIRECCIÓN ACADÉMICA.

DEPARTAMENTO DE CIENCIAS BÁSICAS.

APUNTES DE LA ASIGNATURA ESTADÍSTICA INFERENCIAL II (GEG0908) DE LA

CARRERA DE INGENIERÍA EN GESTIÓN EMPRESARIAL.

ELABORADOS POR EL MC. ROMÁN MENDOZA GONZÁLEZ. DOCENTE DE


PROBABILIDAD Y ESTADÍSTICA DEL DEPARTAMENTO DE CIENCIAS BÁSICAS. EN
EL PERIODO DE AÑO SABÁTICO 2023
CONTENIDO.
Introducción.
TEMA 1. REGRESION LINEAL SIMPLE Y CORRELACION.
1.1 Modelo de regresión simple.
1.2 Supuestos.
1.3 Determinación de la ecuación de regresión.
1.4 Medidas de variación.
1.5 Calculo de los coeficientes de correlación y de determinación.
1.6 Análisis residual.
1.7 Inferencias acerca de la pendiente.
1.8 Aplicaciones.
Complementos Educacionales. Aprendizaje Basado en Problemas.
Cuestionario de Evaluación.
TEMA 2. REGRESION LINEAL MULTIPLE Y CORRELACION.
2.1 Modelo de regresión múltiple. Estimación de la ecuación de regresión
múltiple.
2.2 Matriz de varianza-covarianza.
2.3 Pruebas de hipótesis para los coeficientes de regresión.
2.4 Correlación lineal múltiple. Aplicaciones.
Complementos Educacionales. Aprendizaje Basado en Problemas.
Ejercicios/casos prácticos.
Cuestionario de Evaluación.
TEMA 3. ANALISIS DE SERIES DE TIEMPO.
3.1 Componentes de una serie de tiempo.
3.2 Método de mínimos cuadrados.
3.3 Métodos de promedios móviles.
3.4 Métodos de suavización exponencial.
3.5 Tendencias no lineales.
3.6 Variación estacional.
3.7 Aplicaciones.
Complementos Educacionales. Aprendizaje Basado en Problemas.
Ejercicios/casos prácticos.
Secuencia Didáctica.
TEMA 4. DISEÑO EXPERIMENTAL PARA UN FACTOR.
4.1 Introducción, conceptualización, importancia y alcances del diseño
experimental en el ámbito empresarial.
4.2 Clasificación de los diseños experimentales.
4.3 Nomenclatura y simbología en el diseño experimental.
4.4 Identificación de los efectos de los diseños experimentales.
4.5 La importancia de la aleatorización de los especímenes de prueba. .
4.6 Supuestos estadísticos en las pruebas experimentales.
4.7 Prueba de Duncan.
4.8 Aplicaciones industriales.
Complementos Educacionales. Aprendizaje Basado en Problemas.
Ejercicios/casos prácticos.
Presentaciones.
TEMA 5. DISEÑO EXPERIMENTAL CON BLOQUES AL AZAR Y
DISEÑOS FACTORIALES.
5.1 Metodología del diseño experimental de bloques al azar.
5.2 Diseño de experimentos factoriales.
5.3 Diseño factorial 2k.
5.4 Diseño de cuadrados latinos.
5.5 Diseños de cuadrados grecolatinos.
5.6 Aplicaciones.
Ejercicios/casos prácticos.
Proyecto Integrador.
ANEXOS.
Anexo 1. Tabla de rangos porcentuales del estadístico Studentizado para la
prueba de Tukey. Y tabla de rangos significativos para la prueba de rango
múltiple de Duncan.
Anexo 2. Interpretaciones de los Complementos Educacionales usados en
estos apuntes.
Anexo 3. Complementos Educacionales aprobados por el TecNM a
desarrollar por Tema de este programa.
Anexo 4. Respuestas a los ejercicios propuestos.
Referencias Bibliográficas.
INTRODUCCION.
Este trabajo es el producto de los apuntes elaborados de la asignatura ESTADISTICA
INFERENCIAL II (GEG0908) en el programa de año sabático del autor para el periodo
Febrero 2022 a Febrero 2023; de la carrera de Ingeniería en Gestión Empresarial.
Que son estos apuntes? La definición de apuntes establecido por el TecNM en el
documento Políticas Académicas Generales para el año sabático en la opción B1
elaboración de apuntes, dado en la página 17 es la siguiente: “es la construcción de los
materiales que elabora el docente para tener soporte/apoyo en la impartición de su catedra,
para la explicación de algún conocimiento, que se comparte con los estudiantes. Estos
materiales se pueden reproducir para el uso de sí mismo y de los demás. Son considerados
como instrumentos de ayuda para recordar lo que se ha explicado o dicho en las clases, a
lo largo de todo el curso. Elaborar apuntes requiere de una reformulación de ideas y
comentarios; estimulan, canalizan, y dirigen el aprendizaje, ya que suponen una mayor
concentración y una atención activa. Requieren de la intervención de varios sentidos (oído,
vista, tacto), lo cual facilita el proceso de enseñanza-aprendizaje. Deben de contener la
sincronía formativa en el desarrollo de los componentes didácticos y de los principios
psicopedagógicos (cognitivo, procedimental y actitudinal)”.
En estos apuntes el autor ha desarrollado los temas y subtemas de esta asignatura, de
acuerdo al programa oficial. El orden en el que se presentan los contenidos obedece a lo
establecido en dicho documento y se encuentran tratados al 100%.
En su elaboración se han considerado las actividades de aprendizaje de los temas,
considerando las competencias específicas y genéricas que aparecen al principio de cada
tema, descritas en el programa.
Esta asignatura, aporta al perfil del ingeniero en gestión empresarial, la capacidad de
realizar análisis de: regresión simple y múltiple, series de tiempo y diseño de experimentos
en los diferentes ámbitos del quehacer empresarial. Se ha hecho una mención especial en
el desarrollo de experimentos aplicados a la industria que permitirán mejorar la calidad de
los productos y procesos. Muy importante será el poder identificar los diferentes factores
que podrían resultar relevantes en el desarrollo de nuevos productos y de nuevas
tecnologías; así como la importancia que tiene el análisis de regresión en identificar las
variables explicativas para estimar las variables dependientes.
Propósito de los apuntes. Estos apuntes constituyen un material original que el maestro
propone en base a su experiencia y conocimiento de la asignatura para dar un soporte y
apoyo didáctico para impartir las clases de Estadística Inferencial I. Estos se pueden
compartir con los alumnos para el proceso de enseñanza-aprendizaje. También ofrecer a
los docentes de la materia un material para complementar la impartición de su catedra.
Fundamento y objetivos de los apuntes. Para su elaboración se tomó como base el
contenido del programa de estudio oficial (GEG0907) que se lleva en la carrera de
ingeniaría en gestión empresarial.
Los apuntes tomaron en cuenta la secuencia didáctica y formativa de la ciencia estadística
y la aplicación de los principios psicopedagógicos cognitivo, procedimental y actitudinal de
la enseñanza en el aula.
Interés para el lector de estos apuntes. Este trabajo, ofrece al estudiante los apuntes del
100% de los contenidos de esta asignatura. Los puede usar de manera confiable como
apoyo para cursar y aprobar esta asignatura en el ITQ. En la modalidad presencial.
Este material es muy valioso, porque su uso le ahorrara mucho tiempo, invertido en estudiar
libros o buscar en internet los contenidos. O para hacer sus tareas y preparar sus
exámenes. Y le proporcionaran de manera completa los conocimientos, habilidades y
procedimientos de la estadística inferencial que requiere adquirir en la escuela.
También encontrara un suficiente repertorio de problemas resueltos con aplicaciones
especiales a su perfil profesional. El uso del método de enseñanza ABP. También
encontrara la herramienta de Secuencia Didáctica para algunos temas y algunas
presentaciones en Power Point. Así como problemas propuestos con solución breve en
cada tema del programa.
El trabajo ofrece a los maestros de la academia de probabilidad y estadística los contenidos
desarrollados en el extenso del 100% de una asignatura oficial; según el programa de
estudio vigente. Para reducir el tiempo de preparación de clases.
Motivación personal. Esta es una oportunidad valiosa para organizar, y desarrollar los
apuntes que el autor ha hecho en varios años de dar clases, de esta materia.
También es el tiempo propicio, para reflexionar en la temática de la asignatura y darse el
espacio de escribir, sobre el tema de dar clases de estadística en el ITQ.Y utilizar en el
futuro este material para mejorar su calidad docente. Y es el tiempo adecuado para leer,
conocer más libros de la materia.
Luego tener acceso a nuevos problemas de Inferencia Estadística de la bibliografía para
enriquecer los propios. Y disponer del tiempo necesario para meditar en las soluciones y
en la instrumentación didáctica de las aplicaciones prácticas.
Finalmente crear un material didáctico propio y de apoyo a la catedra, y reducir las horas
de clases expositivas de temas y de preparación de las clases. Así centrar más el esfuerzo
en proceso de enseñanza-aprendizaje en las aplicaciones de la asignatura a distintas
ingenierías del ITQ.
El programa consta de cinco unidades, que se presentan a continuación, así como una
explicación breve de su contenido.
Tema 1. Regresión Lineal Simple y correlación. En este se abordan los supuestos, la
determinación de la ecuación de regresión y las medidas de variación. Luego los
coeficientes de correlación, análisis residual, así como inferencias acerca de la pendiente
donde se recomienda el uso de paquetes estadísticos.
Tema 2. Regresión Lineal Múltiple y correlación. Aquí se analizaran estos conceptos
tomado como base el modelo de RLM, la estimación de la ecuación, la matriz de varianza
y covarianza y las pruebas de hipótesis para los coeficientes del modelo. El cálculo del
coeficiente de determinación lineal múltiple; buscando práctica y ejercicios de aplicación.
Tema 3. Análisis de serie de tiempo. Como tercer tema se estudian el análisis estadístico
las series, con subtemas como los componentes; el análisis de los métodos de mínimos
cuadrados, promedios móviles y suavización exponencial. Posteriormente se realizaran
análisis de tendencias no lineales, variación estacional y se buscaran ejemplos prácticos
de aplicación.
Tema 4. Diseño experimental para un factor. En secuencia con el temario, de la asignatura,
se conceptualiza en esta unidad el diseño de experimentos de un factor. Su metodología,
atendiendo a la naturaleza experimental de los casos del modelo balanceado y no
balanceado de efectos fijos. Siendo conveniente respetar los supuestos estadísticos de
aleatorización de la prueba, la normalidad en el comportamiento de los datos producto de
sus mediciones respectivas. Descomponer la varianza total en la varianza entre
tratamientos, y dentro de los tratamientos, para así ponderar la inferencia de la
significatividad del tratamiento aplicado en el experimento.
La función de densidad de probabilidad (fdp), que se aplica a esa metodología estadística,
es la distribución de Fisher.
Tema 5. Diseño experimental con bloques al azar y diseños factoriales. Este último tema
presenta la metodología del diseño experimental por bloques, en donde se aumenta la
precisión de lo investigado, ya que aumenta la variabilidad por el bloqueo. También se
presentan dos variantes más, como son los diseños de cuadrados latinos y cuadrados
grecolatinos, que son modelos aún más refinados en su significatividad inferencial.
En el lineamiento que establece el TecNM, para elaborar apuntes de la materia en el
programa del sabático pide además de los apuntes; el diseño y elaboración por cada unidad
de tres diferentes complementos educacionales. Con sus respectivas herramientas
tecnológicas que son instrumentos de apoyo de elaboración propia del docente para la
impartición de su materia. Estos complementos para cada unidad que fueron aprobados,
están listados en el Anexo 3.
Para su cumplimiento en este trabajo, se encontraran primero los apuntes para cada
unidad, luego al final de la misma están los complementos educacionales que les
corresponden. Para los ejercicios propuestos de cada tema se da una solución breve que
aparece en el Anexo 4.
En varios casos donde lo ameritan, el desarrollo de los ABP como en los problemas
resueltos, se muestran el uso de Excel y minitab. Presentando en estas aplicaciones
pequeñas guías de cómo usar el software.
Al final de los apuntes, se encuentra listada la bibliografía consultada por el autor según la
norma APA vigente.

TEMA 1. REGRESIÓN LINEAL SIMPLE Y CORRELACIÓN.


Introducción. Con este tema inicia el curso de Estadística Inferencial II para la carrera de
Ingeniero en Gestión Empresarial. La competencia específica que busca es que el alumno
aplique, desarrolle y analice la técnica de Regresión Lineal Simple para hacer predicciones
de sucesos futuros en el ramo empresarial. Mientras que la competencia genérica que le
aporta al alumno es el desarrollo de su capacidad de abstracción, análisis y síntesis y
aplicar los conocimientos en la práctica. También le proporciona la capacidad para
identificar, plantear y resolver problemas y la investigación.

Las actividades de aprendizaje contempladas en el programa para lograr estas


competencias son.

1. Identificar las variables dependientes e independientes para el análisis de regresión.

2. Ajustar un modelo de regresión lineal que relacione una variable independiente


(controlable) y una variable dependiente (no controlable).

3. Analizar graficas que permitan entender la relación existente entre las variables en
consideración.
4. Utilizar el análisis de regresión simple para estimar la relación entre las variables.

5. Utilizar el coeficiente de correlación para medir el grado de relación lineal entr4e las
variables.

6. Obtener el coeficiente de determinación para medir la fuerza de relación entre las dos
variables.

7. Interpretar los coeficientes de regresión.

8. Desarrollar inferencias estadísticas para los coeficientes de regresión.

Para lograr lo anterior se diseñaron estos apuntes y los complementos adicionales


presentados al final del tema.

1.1. MODELO DE REGRESIÓN LINEAL SIMPLE.

El estudio de la regresión es un procedimiento estadístico que tiene como objetivo


establecer un modelo matemático del comportamiento de una variable de respuesta o
dependiente en función de una o más variables de regresión independientes.

La relación entre estas variables, que se estudia con esta técnica no necesariamente es de
causa – efecto sino de efectos aleatorios. Para un solo valor de X, suceden diferentes
valores de Y en repetidas ocasiones.

El análisis de regresión para una variable Y dada una variable X inicia con la recolección o
registro de una muestra aleatoria de n pares ordenados (X, Y) del fenómeno estudiado.
Estos datos pueden ser producidos en un sistema científico (como una investigación), una
serie de tiempo histórica o seleccionada de una población de N pares ordenados.

Una forma de analizar el comportamiento de Y la variable dependiente, con respecto a X la


variable independiente es mediante un modelo matemático de la forma Y= f(x). Para lograr
esto, se mide el valor de Y sobre un conjunto de n valores de X para obtener un conjunto
de n parejas de puntos (x1, y1), (x2,y2),…, (xn,yn).

Con esto, se puede observar si dado un valor de X es posible predecir el valor promedio de
Y.

Tipos de Regresión. Existen diferentes tipos de regresión, de acuerdo con el tipo de


función f(x) utilizada y el conocimiento de las variables del fenómeno a estudiar.

Para tener una idea inicial del tipo de regresión que existe entre dos variables, se hace un
diagrama de dispersión en el plano cartesiano; en donde la configuración o “forma” de los
puntos graficados permite visualizar el tipo de función matemática a estudiar. La más
sencilla es la regresión de tipo lineal, es decir la representada por la función lineal entre X
y Y.

Si se supone que las variables X y Y están relacionadas linealmente y que para cada valor
de X, la variable independiente Y es una variable aleatoria, cada observación de Y puede
ser descrita por un modelo de regresión lineal simple; dado por Y= β0 + β1X+Ԑ.
En donde la letra griega épsilon Ԑ es un error aleatorio con media cero y varianza σ2 y los
valores β0 y β1 son los parámetros del modelo, los cuales son contantes desconocidas
que es necesario estimar con los datos de una muestra.

También los errores aleatorios mostrados en este modelo tienen la característica de que no
están correlacionados si el modelo es adecuado; entonces el valor esperado del error es
cero; es decir E (Ԑ)=0. Este concepto explica más adelante en los supuestos del modelo.

Se puede ver que el valor esperado de la variable Y para cada valor X, está dado por la
línea recta E (YIX)= β0 + β1X, donde β0 es el punto en el cual la línea recta intersecta o
cruza el eje y y β1 es la pendiente de la línea, es decir la cantidad en la que se incrementa
o disminuye la variable Y por cada unidad que se incrementa X.

Se pueden elegir diferentes variables Xi que suponemos tienen un efecto sobre Y. Ejemplo
predictores de las utilidades pueden ser volumen de ventas, inversión en Investigación y
Desarrollo, costo de fabricación; etc. Cuando se elige solo una de estas para su estudio y
el tipo de regresión es representada por una línea recta y = b0+b1x hablamos de la regresión
lineal simple o RLS.

Sin embargo si se supone que más de una variable regresora xi puede utilizarse para
predecir Y de mejor manera o con mayor precisión; se puede elegir un conjunto de k
variables regresoras: x1,x2,…xk y se habla de una Regresión Lineal Múltiple o RLM.

Ejemplo si se consideran las variables x1:La temperatura diaria en grados F, de la una


empresa y x2: el volumen de producción de un producto en Kgs; estas variables juntas,
podrían ayudar a predecir el consumo Y de energía eléctrica en miles de kilowatt-hora.

1.2 SUPUESTOS.

Después de establecer el modelo de regresión mediante un método llamado de minimos


cuadrados, a partir de una muestra de n pares ordenados ( x,y), se obtendrán los valores
b0 y b1 que serán las estimaciones de los parámetros β0 y β1 y se llega a una ecuación
estimada 𝑦̂ = 𝑏0 + 𝑏1 𝑥.

El método de mínimos cuadrados tiene como objetivo “ajustar” una recta de regresión
estimada a los datos de la muestra; lo que equivale a determinar las estimaciones o valores
de b0 y b1 de la ecuación de la recta. Esta ecuación permite el cálculo de los valores
pronosticados de y que se deduce más adelante y hacer otros tipos de análisis y de
diagnóstico que midan la intensidad de la relación y lo bien que se ajusta el modelo. Para
utilizar esta ecuación en la predicción de Y deben realizarse antes una serie de pruebas
para determinar si el modelo es apropiado.

Estas pruebas se basan en los siguientes supuestos estadísticos acerca del error Ԑ.

1. El término del error Ԑ es una variable aleatoria cuya media, o valor esperado es cero; es
decir E (Ԑ)=0. Como β0 y β1 son constantes, E (β0) = β0 y E (β1 ) = β1 así para un valor
dado de x, el valor esperado de y es E (Y)= β0 y β1X.

2. La varianza de Ԑ, que se denota como σ2 es la misma para todos los valores de x. Esto
implica que la varianza de y respecto de la recta de regresión es igual a σ 2 y es la misma
para todos los valores de x.
3. Los valores de Ԑ, son independientes. Esto significa que el valor de Ԑ correspondiente a
un determinado valor de x, no se relaciona con el valor de Ԑ para cualquier otro valor de x;
por lo tanto, el valor de y correspondiente a un valor particular de x no se relaciona con el
valor de y de ningún otro valor de x.

4. El término del error Ԑ es una variable aleatoria distribuida normalmente. Como y es una
función lineal de Ԑ, también y es una variable aleatoria distribuida normalmente.

En todo modelo dado de Regresión Lineal simple, usado para la predicción deben probarse
estos supuestos y así se tendrá la validez del modelo obtenido. Más adelante en el subtema
1.6 Análisis Residual, se desarrollará el procedimiento para analizar estos supuestos.

1.3 DETERMINACIÓN DE LA ECUACIÓN DE REGRESIÓN.

Cuando se aplica el procedimiento de Regresión Lineal Simple, el punto de partida es contar


con una muestra de n pares ordenados (x,y) a los que se ajustará una ecuación de la línea
recta de la forma 𝑦̂ = 𝑏0 + 𝑏1 𝑥, en donde b0 es la ordenada al origen y b1 es la pendiente de
dicha ecuación. Se puede hacer el plano un diagrama de dispersión de estos

Diagrama de dispersión. Esta herramienta es muy útil en Ingeniería, de hecho es una de


las herramientas básicas de la calidad. Y para el caso de la regresión también lo es.

Los n pares ordenados disponibles, se pueden graficar en el plano cartesiano para hacer
un diagnóstico visual y buscar evidencia de una forma lineal en la apariencia de los puntos
resultantes.

Si no se encuentra esta, es posible que no sea lineal; y podría ser no lineal o exponencial;
etcétera.

Ante esta primera evidencia, se tiene el punto de partida para ajustar a estos puntos una
recta que explique esta relación lineal. El método estadístico para hacer esto se conoce
como mínimos cuadrados, que tiene por objetivo obtener los valores b0 y b1 de la ecuación
de la línea recta.

En otras palabras se trata de encontrar la recta que pase lo más cerca posible de todos los
puntos dados por la muestra.

Procedimiento de mínimos cuadrados. Este procedimiento matemático tiene como


objetivo calcular las cantidades b0 y b1; los valores estimados de β0 y β1 , de tal modo que
la suma de los cuadrados de los residuales sea mínima. A continuación se define este
término.

Definición de residual. En esencia, un residual es un error en el ajuste del modelo

𝑦̂ = 𝑏0 + 𝑏1 𝑥. Un conjunto de residuales con valores grandes, da evidencia de que el ajuste


del modelo no es grande, mientras que los residuales pequeños son indicadores de un
ajuste adecuado. En otras palabras el residual es la diferencia entre cada valor real de Y
de la muestra y el valor de 𝑦̂. Al que se le llama valor predicho o valor ajustado.

El modelo también se puede expresar como 𝑦̅𝑖 = b0+bixi+ei. En donde los ei son los residuos
de los valores de la muestra y desempeñan un papel importante en el análisis de los
supuestos. Además la suma de los residuos al cuadrado se le puede nombrar como la
suma de cuadrados del error, abreviado como SCE.
Entonces hay que obtener los valores mínimos de: SCE = ∑𝑛𝑖=1 𝑒𝑖2 = ∑𝑛𝑖=1( 𝑦𝑖 − 𝑦̂𝑖)2 =
∑𝑛𝑖=1(𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖)2 .

Al diferenciar SCE con respecto a b0 y b1, igualar a cero las derivadas parciales y
reacomodar los términos; se obtiene un sistema de dos ecuaciones simultaneas con dos
incógnitas “llamadas ecuaciones normales”, que tienen solución única.

nb0 + b1 ∑𝑛𝑖=1 𝑥𝑖 =∑𝑛𝑖=1 𝑦𝑖

b0∑𝑛𝑖=1 𝑥𝑖 + b1 ∑𝑛𝑖=1 𝑥𝑖2 =∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖


∑𝑛
𝑖=1(𝑥𝑖−𝑥̅ )(𝑦𝑖−𝑦
̅) ∑𝑛 𝑛
𝑖=1 𝑦𝑖−𝑏1 ∑𝑖=1 𝑥𝑖
Mismas que a resolverse dan la solución: 𝑏1 = ∑𝑛 2 y 𝑏0 =
𝑖=1(𝑥𝑖−𝑥̅ ) 𝑛

O también, 𝑏0 =𝑦̅ − 𝑏1 𝑥̅ . Siendo 𝑥̅ y 𝑦̅ las medias de los valores de la muestra y n el tamaño


de la muestra. Al sustituir los resultados muéstrales b0 y b1 en la fórmula 𝑦̂ = 𝑏0 + 𝑏1 𝑥, se
obtiene el modelo de RLS ajustado. Walpole p.396.

El siguiente ejemplo de RLS muestra la gráfica de dispersión de los datos, la ecuación de


regresión lineal de mínimos cuadrados y los valores de las medidas de la calidad del ajuste.
Se utilizó minitab.

Un comerciante minorista realizo un estudio para determinar la relación que hay entre los
gastos semanales de publicidad y las ventas.

Costos de 40 20 25 20 30 50 40 20 50 40 25 50
publicidad ($).

Ventas ($). 385 400 395 365 475 440 490 420 560 525 480 510

Siendo X los costos de publicidad y Y las ventas semanales; en miles de dólares.

Procedimiento de solución.

1. Diagrama de dispersión (x,y). Se capturan en C1 y C2, de la hoja de trabajo de minitab,


los datos hacia abajo (no es necesario ordenar alguno). Se asignan en el renglón cero los
nombres de las variables: Costos de Publicidad X y Ventas Y.

La figura se obtiene mediante la secuencia: Grafica - Grafica de dispersión-Simple. Se


obtiene la figura.
Gráfica de dispersión de VENTAS Y vs. COSTOS DE PUBLICIDAD X.

550

500
VENTAS Y

450

400

350
20 25 30 35 40 45 50
COSTOS DE PUBLICIDAD X.
.

Interpretación: Se puede observar una “forma” o tendencia de relación lineal creciente entre
X y Y. Que evidencia aparente ajustar una ecuación de regresión lineal.

2. Modelo de RLS. La secuencia es Estadísticas-Regresión-Grafica de línea ajustada. Se


obtiene la siguiente figura.

Gráfica de línea ajustada


VENTAS Y = 343.7 + 3.221 COSTOS DE PUBLICIDAD X.
S 50.2257
550 R-cuad. 40.3%
R-cuad.(ajustado) 34.3%

500
VENTAS Y

450

400

350
20 25 30 35 40 45 50
COSTOS DE PUBLICIDAD X.

Interpretación: En la parte superior del diagrama aparece la ecuación estimada de RLS, de


mínimos cuadrados que hace minitab. Sobre los puntos del diagrama de dispersión la
maquina dibuja la línea recta de esta ecuación.

Como la línea tiene una pendiente positiva, a medida que aumenta X aumenta Y. El efecto
de X sobre Y. Se explica en términos unitarios. La pendiente significa que por cada $ 1000
dólares gastados en publicidad; las ventas se incrementan en 3.221(1000) dólares.

1.4 MEDIDAS DE VARIACIÓN.

En una ecuación de regresión lineal simple, la media o valor esperado de Y es una función
lineal de X o en símbolo E (Y)= β0 + β1X. Entonces para que exista una relación significativa
de regresión, es necesario determinar si el valor de β1 es distinto de cero. Esto se hace
mediante una prueba de hipótesis para β1 que se desarrollara en el subtema 1.7 de
inferencias acerca de la pendiente.
De hecho también pueden hacerse pruebas también para β0, esta es de la ordenada al
origen y para el coeficiente de correlación poblacional 𝜌.

Para hacer estas pruebas es necesario obtener una estimación de σ2 la varianza del error
aleatorio Ԑ del modelo.

Esta varianza representa la variabilidad de los valores de Y respecto a la línea de regresión


estimada, es decir los valores de los residuales. La suma de los cuadrados de los residuos
o errores es la cantidad que se minimiza empleando el método de los mínimos cuadrados.
Esta cantidad que se le puede nombrar como la suma de cuadrados debido al error,
abreviada como SCE se obtiene mediante: SCE: ∑(yi- ŷi)2.

Siendo ŷi es la ecuación de regresión obtenida. Entonces, esta cantidad es una medida de


la variabilidad de las observaciones reales respecto de la línea de regresión estimada.

Ahora llamamos error cuadrado medio, abreviada como EMC a la cantidad que proporciona
una estimación de σ2.

Como 𝑦̅𝑖 = b0+bixi+ei, entonces SCE se puede expresar como:

SCE=∑(yi-ŷi)2=∑(yi-b0+b1xi)2. Esta SCE tiene n-2 grados de libertad, porque para calcularla
es necesario estimar dos parámetros β0 y β1.

El error cuadrado medio, abreviado como ECM se calcula dividiendo SCE entre n-2. Este
proporciona un estimador incensado de σ2 o también el símbolo s2. En símbolos s2 = ECM
= SCE/n-2. Para estimar σ se calcula la raíz cuadrada de

s2 y el resultado s se nombra como error estándar de estimación

𝑆𝐶𝐸
s = √𝐸𝐶𝑀 = √ .
𝑛−2

Se puede interpretar este valor en porcentaje con un ajuste del 100%. A medida que el
modelo tiene un buen ajuste, esta cantidad es pequeña. Esto es posible hacerlo, si se tienen
varios modelos de regresión para una variable dependiente Y, y se están probando distintas
variables independientes X1, X2,…, etcétera.

1.5 CALCULO DE LOS COEFICIENTES DE CORRELACIÓN Y DE DETERMINACIÓN.

Cuando ya se tiene una ecuación de regresión lineal simple ajustada a los datos de la
muestra, el análisis se centra ahora en conocer que tanta precisión tiene las estimaciones
del modelo. En otras palabras se requiere medir la calidad del ajuste que tiene el modelo
obtenido con los datos de la muestra.

Esto se puede hacer obteniendo dos cantidades que cuantifican lo anterior: el coeficiente
de determinación r2 y el coeficiente de correlación muestral o de Pearson rxy.

Coeficiente de determinación r2. Esta es una medida de la proporción de la variabilidad


en los datos y que es explicada por el modelo. En otras palabras expresa el porcentaje que
tan bien se ajusta a los datos, la ecuación de regresión estimada.
𝑆𝐶𝑅
Este coeficiente se obtiene mediante: r2 = . Siendo SCR, la suma de cuadrados de la
𝑆𝑇𝐶
Regresión, calculada con SCR = ∑(𝑦𝑖 − 𝑦̅)2 y STC, la suma total de cuadrados; dada por
STC=SCR+SCE, siendo SCE la suma de cuadrados del error definido por SCE=( yi - ŷi)2.

Hay que notar que existe una relación entre las cantidades STC, SCR y SCE, es decir la
relación entre estas tres sumas de cuadrados, que constituye un resultado de suma
importancia en estos temas. Esta relación es STC = SCR+SCE.

El cociente SCR/STC, puede tomar valores entre 0 y 1 y evalúa la bondad del ajuste de la
ecuación de regresión estimada.

Coeficiente de correlación rxy. Esta cantidad mide la intensidad o fuerza de la relación


lineal de las variables X y Y. Es decir es una medida descriptiva de la intensidad de la
relación con Y, de la variable elegida X.

Los valores de este coeficiente estarán entre -1 y +1. El valor +1 indica una perfecta relación
lineal positiva. Es decir todos los puntos de datos se encuentran en una recta con pendiente
positiva.

Un valor -1 indica que X y Y están perfectamente relacionados en un sentido lineal negativo


co0n todos los puntos de los datos en una recta con pendiente negativa. Los valores
cercanos a cero indican que X y Y no se relacionan linealmente.

Este coeficiente se calcula una vez obtenido al anterior coeficiente de determinación r 2,


mediante.

Este coeficiente se calcula una vez obtenido el anterior coeficiente de determinación r2,
mediante: rxy= (signo de b1)√𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑐𝑖ó𝑛. O rxy= (signo de b1)√𝑟 2 .

El signo del coeficiente de correlación muestral es positivo SI la ecuación de regresión


estimada tiene pendiente positiva (b1>0) y es negativo si la ecuación de regresión estimada
tiene pendiente negativa (b1<0).

Cuando se tiene una relación lineal entre dos variables, tanto r2 como rxy muestral
proporcionan medidas de la fuerza de la relación obtenida.

El coeficiente de determinación es una medida entre 0 y 1 y el de correlación entre -1 y +1.


El rxy está restringido a una relación lineal entre X y Y, pero el otro puede usarse para
relaciones no lineales; como por ejemplo cuadráticas, logarítmicas o exponenciales.

También se usa para otras relaciones lineales en las que hay dos o más variables
independientes. Como en el caso de la regresión lineal múltiple que se estudiara en el
siguiente tema. También r2 tiene una variante llamada coeficiente de determinación
ajustado que se verá en ese tema.

Por último, en las aplicaciones de la administración de negocios y de Gestión Empresarial,


los valores r2 varían enormemente dependiendo de las características de cada aplicación.
A diferencia de estudios de regresión lineal en física o de ciencias de la vida (Biología,
Genética, etcétera); donde pueden encontrarse valores de 0.60 o más. Inclusive mayores
de 0.90.

Cuando no hay posibilidades para examinar más variables regresoras xi respecto a una
y; el investigador decide según sus objetivos que valores de r2 son aceptables.
Ejemplo 1. Usando EXCEL. Una muestra de 10 restaurantes de la cadena Armando’Pizza
Parlos ubicados cerca de algún campus universitario; se tomó como base para una
investigar la relación, posiblemente lineal entre el número de estudiantes (en miles) y las
ventas trimestrales (en miles de dólares) registradas por las compras del producto.

Los datos obtenidos son los siguientes:

Restaurant. 1 2 3 4 5 6 7 8 9 10

Población estudiantil. 2 6 8 8 12 16 20 20 22 26

Ventas trimestrales. 58 105 88 118 117 137 157 169 149 202

A partir de estos datos: A). Obtenga en Excel el modelo de RLS. B). La tabla ANOVA. C)
Los valores de del coeficiente de correlación R2, R2 ajustada y S. Y, D). La tabla de
coeficientes del modelo.

Solución. Procedimiento en Excel.

Análisis de resultados. Excel proporciona la siguiente salida.

Interpretación. A). En el último recuadro, de la columna que dice coeficientes el modelo se


construye la ecuación, 𝑦̂ = 60+5x+𝜀

B). El recuadro etiquetado como ANALISIS DE VARIANZA contiene la tabla ANOVA.

C). El primer recuadro titulado: Estadísticas de la regresión contiene un resumen


estadístico. El coeficiente de determinación (r2), es R square = 0.9027; el coeficiente de
determinación ajustada; R2 ajustada = 0.8906 y el error estándar de estimación S = 13.8293.
D). La tabla de coeficientes que aparece al final, además se puede utilizar para la prueba t
para un α = 0.01 de significancia de la relación lineal y para obtener estimaciones por
intervalos de confianza de 99% para la intersección con el eje y y la pendiente de la
ecuación de regresión estimada.
Ejemplo 2. Usando minitab. Para el caso del comerciante minorista, presentado en el
subtema 1.3 anterior; se tienen los siguientes valores de estos coeficientes. Para el
coeficiente de correlación de Pearson la secuencia de minitab es: Estadísticas -
Estadísticas básicas-Correlación. Y los resultados son los siguientes.

1. El error estándar de estimación es S = 50.2257. Interpretación. Esta cantidad está lejos


de cero. Entonces el grado de dispersión de los puntos alrededor de la línea es alto. Esto
no es bueno para un modelo. Esta X usada en este experimento, no es un buen predictor
de Y. Para esta evaluación, se deberían usar varias alternativas de predictores X y
comparar entre sí, los valores de S. Aquí solo se tiene una.

2. Coeficientes de correlación y determinación. r2 = 34. 3, rxy = 0.635. Interpretación. La


cantidad 34.3 en % indica que este modelo no es muy bueno, porque está lejos de 100%.
La variable X explica solo el 34.3 % de la variación total de Y. Se prefiere usar el valor
ajustado del coeficiente de determinación.
El coeficiente de correlación también se interpreta usa como un porcentaje. Significa que
un 63.5 % es la fuerza con que se relaciona en forma lineal X con Y. Como no es alto
(respecto a 100%); esta X no es muy buena, como variable de predicción.

1.6 ANÁLISIS RESIDUAL.

En el subtema 1.2 se establecieron cuatro supuestos estadísticos acerca del error Ԑ. La


verificación de estos supuestos, en un problema dado tiene como fundamento el análisis
de los residuos del modelo. El valor de un residuo del modelo, se calcula mediante:

ei= yi - ŷi .

Que es el la diferencia que resulta de cada valor de la variable y en la muestra y el valor


estimado de está usando la ecuación de regresión estimada; donde se sustituye cada valor
de x de la muestra. Entonces en cada problema de regresión, se tendrán tantos residuos
como pares de valores (x,y) tenga la muestra.

Ejemplo. Para el caso de un comerciante minorista anterior, se calculan los valores


ajustados o también llamados predichos ŷi , los residuos ei y los residuos estandarizados.
La secuencia de minitab es: Estadísticas – Regresión – Regresión – Ajustar modelo de
regresión – Almacenamiento.

Así se obtiene.
Los supuestos del modelo constituyen la base teórica para probar que la relación entre X y
Y es significativa y para el uso del modelo como predicción mediante intervalos de confianza
y de predicción de la variable Y; que se verá en los problemas de aplicaciones de los
complementos educacionales de este tema.

Si los supuestos sobre el término del error Ԑ están en duda o no se cumplen, las pruebas
de hipótesis de la significancia del modelo lo mostraran. Por otra parte el uso del modelo
en la predicción de valores futuros de Y no tendrán validez estadística, si estos no se
cumplen.

Las pruebas de hipótesis de significancia de la relación de regresión son, la prueba t y la


prueba F. En los problemas resueltos de este tema mostrara como se hacen.

El análisis residual para la verificación de supuestos se basa en el análisis de cierto tipo de


graficas de residuos. Que son figuras de puntos coordenados de los residuos obtenidos,
dibujados en el plano cartesiano.

Nota. Estas gráficas son laboriosas si se hacen en papel a mano. Por eso se recomienda
hacerlas en la computadora con algún software estadístico. Para estos apuntes se usara
minitab y se mostraran en los problemas resueltos de este tema. De hecho, además minitab
realiza adicionalmente una gran variedad de cálculos y gráficas para auxiliar en el análisis
estadístico de la regresión.

A continuación se describirá el tipo de figura de residuales y el supuesto a verificar.

1. Supuesto E(Ԑ)=0. Mediante una gráfica de residuos contra la variable independiente x.

2. Una varianza igual de Ԑ, denotada por σ2 para todos los valores igual de x. Se hace
mediante una gráfica de residuos contra valores predichos 𝑦̂ .

3. Independencia de los valores Ԑ. Mediante la gráfica de residuos estandarizados. 4.


Distribución normal del término del error Ԑ. Mediante una gráfica de probabilidad normal.

Para interpretar las gráficas distintas de residuales, se toman en cuentan algunos


elementos por ejemplo, su estructura, la presencia de patrones o la forma de los puntos.
La manera en que se distribuyen los puntos a lo largo del eje horizontal del plano y hacia
arriba y abajo en el eje vertical del residual cero, es lo que se emplea para diagnosticar
visualmente si se cumple o no el supuesto deseado.

Veamos en detalle las gráficas que requieren la verificación de cada supuesto.

Como ayuda de interpretación, se muestran las siguientes tres formas generales de las
gráficas de residuos. Figuras a, b, y c.

Grafica a. Forma curva.

Grafica b. Forma de embudo o cono abierto hacia la derecha

Figura (c). Forma de dispersión aleatoria.


1. Grafica de residuos contra la variable independiente X. Utilizando las formas o guías
anteriores; para el cumplimiento del valor esperado E (Ԑ)=0 o supuesto uno, la gráfica de
residuos contra la variable X, tendría la forma dada en la figura c.

2. Gráfica de residuos contra los valores predichos 𝒚 ̂. Para se cumpla este supuesto la
figura deseada es la c, de las anteriores. Así esta mostrara que la varianza de Ԑ es la
misma para todos los valores de X y podemos diagnosticar que el modelo de regresión
representa de forma adecuada la relación entre las variables X y Y.

Pero si la varianza de Ԑ no es la misma para todos los valores X (por ejemplo, si la


variabilidad de la línea de regresión es mayor para valores valores de x) el aspecto de la
gráfica resultante podría ser como en la figura b.

La figura a de las anteriores muestra otra forma que pueden adoptar las gráficas de
residuales. En este caso, se concluye que el modelo de regresión empleado no representa
de manera adecuada la relación entre las variables y entonces deberá considerarse un
modelo de regresión curvilíneo o múltiple.

3. Grafica de residuos estandarizados. Esta figura permite diagnosticar si es correcto el


supuesto de que el término del error Ԑ tiene una distribución normal. Si es así, la distribución
de los residuos estandarizados, proviene de una distribución normal estándar.

Nota. Hay que recordar que una variable aleatoria se estandariza mediante, la formula z =
𝑥−µ
𝜎
, que es lo que se hace con los residuos del modelo y luego con ellos se aplica la prueba
de normalidad común.

Cuando se emplea en regresión lineal el método de los mínimos cuadrados la media de los
valores es cero, es decir E (Ԑ)=0, y tiene una varianza σ2.

La forma de esta gráfica deberá parecerse, al tipo c descrito para cumplir el supuesto 3. Si
el supuesto se cumple el 95% de residuales estandarizados estarán entre -2 y +2; en el eje
vertical.

4. Gráfica de probabilidad normal. Sirve para buscar evidencia de que el término del error
Ԑ tiene una distribución normal de probabilidad. En esta figura, los puntos normales de los
residuos están en el eje horizontal mientras que en el vertical están los residuos
estandarizados. El supuesto se verifica si los puntos que resultan están situados cerca de
una recta de 45 ° grados que pasa por el origen. Como esta interpretación es un tanto
subjetiva, se puede hacer una prueba de hipótesis formal de los residuos estandarizados;
como se vio en las pruebas de bondad de ajuste del curso anterior de Estadística Inferencial
I.

Ejemplo. Para el caso de un comerciante minorista anterior, se hace la gráfica de


normalidad de los residuos estandarizados; que se generaron antes. La secuencia de
minitab es: Estadísticas – Estadísticas básicas – Prueba de normalidad.

Así se obtiene.
Interpretación: Se hace una apreciación o diagnostico visual de los puntos o residuos
alrededor de esta línea (que no es de la ecuación de regresión). Si los puntos no aparecen
muy separados de ella el supuesto se cumple. También se puede realizar una prueba de
hipótesis de los residuos; utilizando un nivel de significancia α = 0.05 o el criterio del valor
P = 0.612, que aparece en el recuadro superior derecho de la gráfica.

Todos los gráficos anteriores se pueden generar en minitab; como este de normalidad.

Las gráficas de residuos anteriores son una técnica para evaluar la validez de los supuestos
en un modelo de regresión. Para la buena interpretación de estas figuras, la experiencia y
el criterio son fundamentales.

Y por último, si en la revisión de los supuestos, se encuentra que uno o más son dudosos,
habrá que considerar otro modelo de regresión diferente, o un modelo de regresión no
lineal. Un modelo diferente puede ser la misma variable Y con otra variable X de regresión
distinta.

1.7 INFERENCIA ACERCA DE LA PENDIENTE.

En la ecuación de regresión lineal simple, la media de y es una función lineal de x, se puede


observar que si β1=0, EL valor esperado de y es cero, o E (y)= β0+0(X). En este, se ve que
x y y no se relacionan linealmente. Por otro lado, si βO ≠ 0 las dos variables están
relacionadas, o que existe una relación significativa de regresión. Para esto se puede
aplicar una prueba de hipótesis H0: β1=0 contra H1: β1 ≠ 0 para la inferencia, usando la
ecuación estimada de regresión de los datos muestrales.

Para realizar esta prueba, se utiliza una distribución t de Student de dos colas con v=n-2
grados de libertad para un nivel de significancia α dado. Existen varios procedimientos o
fórmulas para obtener el valor del estadístico de prueba. Una manera práctica es usando
minitab; para ayudar a dar el resultado de esta prueba.

La computadora proporciona la ecuación de regresión estimada. Y en seguida, presenta


una tabla en la que se indica el valor de los coeficientes b0 y b1, la desviación estándar de
cada coeficiente y el valor t del estadístico de prueba empleado en las pruebas de hipótesis
de estos coeficientes. La manera en que el software hace esto es simplemente dividiendo
el valor del coeficiente entre su desviación estándar.

La tabla dada, también proporciona el valor P correspondiente. En los problemas resueltos,


al final del tema se mostrara este procedimiento.

1.8 APLICACIONES.

La técnica de RLS constituye una poderosa herramienta estadística en el campo profesional


del ingeniero en gestión empresarial. El análisis de la relación lineal entre una variable Y y
una regresora X; le ayuda en la predicción de Y a partir de valores problema de la variable
independiente. Por ejemplo en la determinación de un pronóstico, dentro del proceso de
elaboración de un presupuesto. En la precisión de un programa de presupuesto de las
operaciones productivas, se reflejara el aumento de la productividad empresarial.

En los problemas (ABP) 1 y 2, se mostrara una aplicación de este tipo. Otras aplicaciones
serian.

1. Al cuantificar el grado de efecto que tiene X, sobre Y que da el modelo, se genera un


conocimiento que se concreta en la variable de respuesta. Un caso se presenta en la
industria de producción de diferentes tipos de papel del problema 1 resuelto, en los
complementos educacionales. En este se muestra como los requerimientos de un cliente,
traducido en un valor de X, se fabrica un tipo de papel con una resistencia dado por Y.

2. Parecido a la aplicación anterior; está el problema propuesto 1, para la industria


automotriz. En este, se ve el caso del peso de un vehículo (en Libras ) y el efecto que tiene
en Y como variable de respuesta, el rendimiento promedio del motor de un vehículo en
millas por galón (mpg).

3. Se muestra un estudio para cuantificar la relación entre la inversión (X ) en investigación


y desarrollo de una empresa, y el efecto que tiene en las ganancias o utilidades (Y)
esperadas anuales. Esta aplicación tiene utilidad en la elaboración de un presupuesto, de
acuerdo al proyecto y su costo en desarrollarlo.

4. Finalmente hay un problema presentado como secuencia didáctica de los complementos


educacionales de este tema; aplicado a la logística de las operaciones o de un programa
de entrega de productos a los clientes, o la cadena de suministros. Aquí se estudia la
relación que existe entre las (X), las millas recorridas por un vehículo de transporte y (Y) el
tiempo de recorrido del mismo en horas. Esto dentro de un área de desempeño profesional
de los sistemas para incrementar la eficiencia y productividad de un negocio.

En muchas áreas de desempeño de la gestión empresarial, como los anteriores; es


importante medir la magnitud de la relación entre las variable X y Y. No solo conocer que
la relación es positiva o negativa. Esta cuantificación es el nuevo conocimiento que produce
el análisis estadístico. Es recomendable, considerar en las aplicaciones no solo una variable
regresora. Sino un conjunto de ellas para seleccionar la que tenga el mayor poder de
explicación o de correlación de Y.
Cuando se elige un modelo de RLS para una X dada, con una calidad de ajuste aceptada,
dada por la disponibilidad de los recursos en el estudio; la estimación de Y es la parte
fundamental. Pues en esta; la determinación de intervalos de confianza y de predicción
incorpora la probabilidad de los valores de Y, deseados además de la estimación puntual.
Y con esta magnitud fijada de probabilidad de la estimación, es como se controla, la
incertidumbre y las decisiones administrativas o de ingeniería toman el carácter de
científicos.

También podría gustarte