Está en la página 1de 18

ASIGNATURA DATOS DEL ESTUDIANTE FECHA

ESTADISTICA INFERENCIAL JORGE LUIS NAVAS VEGA NOVIEMBRE 6 DEL 2023


PROF:GERMAN VIVANCO HUGO GOMEZCASSERES SEMESTRE 1 TECNOLOGIA
HOLMES AGUAS ACUÑA ADMINISTRACION PUBLICA
MAIKOL COSSIO GUERRERO
BRAYAN COSSIO GUERRERO
ELIANA AGUAS BARRETO

ACTIVIDAD PROTOCOLO CONTEXTUALIZADO


REGRESION LINEAL

ANALISIS Y SINTESIS

INFORME FINAL DE LA INVESTIGACIÓN


El informe final de la investigación debe contener los siguientes ítems.
1. El tema de investigación
2. Planteamiento o formulación del problema de investigación
3. Marco de referencia del problema
Incluye los antecedentes del problema, el marco conceptual, el marco teórico, definiciones de
conceptos.
4. Formulación de objetivos
5. Hipótesis de investigación
6. Justificación de la investigación
7. Diseño metodológico
8. Análisis e interpretación de los datos
9. Cronograma de trabajo
10. Conclusiones y recomendaciones
11. Bibliografía
12. Anexos
REGRESION LINEAL
PLANTEAMIENTO O FORMULACION DEL PROBLEMA
DE INVESTIGACION

Los Modelos Lineales han sido usados durante décadas tanto intensiva como extensivamente en
aplicaciones Estadísticas. Llamamos Modelos Lineales a aquellas situaciones que después de
haber sido analizadas Matemáticamente, se representan por medio de una función lineal, los
cuales son lineales en los parámetros desconocidos e incluyen un componente de error. El
componente de error es el que los convierte en Modelos Estadísticos. Estos modelos son la base
de la metodología que utilizamos en nuestra empresa de ventas de seguros exequiales o paquetes
de servicio fúnebres (FUNERARIA SANTO CRISTO) que usualmente llamamos Regresión simple. Por
esta razón el manejo de los Modelos Lineales es indispensable para comprender y aplicar
correctamente los Métodos Estadísticos. En algunos casos el modelo coincide precisamente con
una recta; en otros casos, a pesar de que las variables que interesan no pertenecen todas a la
misma línea, es posible encontrar una función lineal que mejor se aproxime al problema,
ayudando a obtener información valiosa. Un Modelo Lineal se puede determinar de manera
gráfica o bien, por medio de una ecuación. Existen ocasiones en que en una de las variables se
quiere que cumpla varias condiciones a la vez, Aquí bajo de este estudio estadístico atravez de los
gráficos podemos constatar cuales son los puntos de equilibrio que posee nuestra compañía a
nivel de ventas promedios. entonces surge un conjunto de ecuaciones donde el punto de
intersección de dichas ecuaciones representa la solución del problema.

El presente trabajo pretende contribuir al desarrollo de esta rama de la Estadística por medio de la
aplicación de la teoría a un problema real y que a su vez pueda ser utilizado como una guía de
estudio para los estudiantes de la administración pública, como también por los docentes para el
desarrollo del curso de Modelos Lineales, ya que no se encuentra bibliografía completa para el
desarrollo del curso.
MARCO DE REFERENCIA DEL PROBLEMA
ANTECEDENTE DEL PROBLEMA

Los primeros intentos de modelar la relación estadística entre dos variables se hicieron en
Astronomía en el siglo XVIII con el objeto de contrastar la teoría de Newton. Adrien M. Legendre
(1752-1833) y Carl F. Gauss (1777-1855) resuelven de manera general el problema de explicar la
posición de un planeta, variable respuesta, como función de las posiciones de otros cuerpos.
Aunque según la teoría de Newton la relación es Matemática o Determinista, los errores de
observación de los instrumentos existentes requerían un procedimiento Estadístico para modelar
la relación entre las variables observadas. Legendre resolvió este problema inventando el Método
de Estimación de Mínimos Cuadrados, que es aún la herramienta más utilizada para la Estimación
de Modelos Estadísticos. Gauss, independientemente, obtuvo tambien este resultado y demostró
su optimalidad cuando los errores de medida siguen una Distribución Normal.

Francis Galton (1822-1911) fue un hombre de profunda curiosidad intelectual que le llevo a viajar
por todo el mundo, a realizar actividades tan diversas como redactar leyes para los hotentotes*
que gobernaban en el sur de África, Galton se interesó en estudiar la transmisión de características
entre generaciones, con el objetivo de contrastar las teorías de su primo Darwin, y comparó las
estaturas de padres e hijos. Encontró que los padres altos tenían, en promedio, hijos altos, pero en
promedio más bajos que sus padres, mientras que los padres bajos tenían hijos bajos, pero, en
promedio, más altos que sus padres. Este fenómeno, que él denominó de regresión a la media, se
ha encontrado en muchas características hereditarias, de manera que los descendientes de
personas extremas en alguna característica estarán, en promedio, más cerca de la media de la
población que sus progenitores. El trabajo de Galton condujo ha denominar Métodos de Regresión
a los desarrollados para medir la relación Estadística entre dos variables, y estimuló a Karl Pearson
(1857-1936), Matemático y Filósofo inglés para inventar el Coeficiente de Correlación Lineal.
George U.Yule (1871-1951) introdujo el Coeficiente de Correlación Múltiple y Parcial. Cualquiera
que sea el origen de la Modelación Estadística, hay que reconocer que es hasta la década de los
años treinta del siglo XX cuando Ronald A. Fisher desarrolló de forma integral una familia de
Modelos para resolver un tipo genérico de problemas, inventando el Análisis de la Varianza
(ANOVA) y los correspondientes Modelos, hoy conocidos como Modelos ANOVA.

Sin temor a equívoco, es posible asegurar que el detonante de la Modelación Estadística en datos
discretos lo constituyen el trabajo de Nelder y Wedderburn (1972), que presenta, a partir de los
Modelos Lineales Generalizados, un marco teorico general para el estudio de los Modelos
Estadísticos, incluyendo los Modelos de Regresión Lineal para respuestas continuas, dicótomas
(logística), de conteos (Poisson) y los Modelos de medias (ANOVA).
La Modelación requiere necesariamente de supuestos, pues de otra manera no podríamos
representar a escala y con sencillez una realidad compleja. Un buen modelo puede ser aquel que
se enfoque principalmente en describir la realidad, pero también aquel que tenga capacidad de
hacernos ver más allá de lo que a primera vista parece ofrecer. Un modelo “malo” es aquel
altamente realista, pero tan complicado que se vuelve inmanejable; en este caso no hay razón
para construirlo.
MARCO CONCEPTUAL

Los Modelos Lineales constituyen una de las Metodologías Estadísticas más ampliamente
utilizadas en la Modelización y el análisis de datos de todo tipo, estos se encuentran además en la
base de técnicas tan populares como la Regresión y Análisis de Varianza, también el estudio de los
Modelos Lineales requiere de conocimientos teóricos en un nivel avanzado sobre Álgebra Lineal y
Estadística. Es por ello que se desea conocer más a fondo la teoría de los Modelos Lineales y
conocer las áreas de aplicación de los modelos, además de la necesidad que tienen los estudiantes
de la carrera de Licenciatura en Estadística a tener acceso a un documento que se adecue a las
exigencias que tendrán al someterse a un curso de Modelos Lineales, y es una de las áreas que
corresponde al plan de estudios, la cual tiene un soporte bibliográfico limitado en el sentido de
que los textos existentes no enfocan problemas de nuestra realidad, además la mayoría está
escrito en el idioma inglés. Otra razón es que con la facilitación de este material vamos a poder
colaborar con la enseñanza de Los Modelos Lineales, para que se obtenga una mejor
profesionalización en el área de la Estadística.

Este modelo de regresión lineal es muy utilizado y su estudio conforma un área de Investigación
Clásica dentro de la Ciencia Estadística desde hace muchos años. Mediante la Regresión Lineal
Simple, se busca hallar la línea recta que mejor explica la relación entre una variable
independiente y una variable dependiente. Se trata de cuantificar cuánto varía la variable
respuesta con cada cambio en la variable independiente. Cuando sólo se incluye en el modelo una
variable independiente se habla de Regresión Lineal Simple. En los modelos de Regresión Lineal
Simple la variable dependiente será siempre cuantitativa. Son numerosas las aplicaciones de la
regresión, y, las hay en diversos campos como: Ingeniería, Ciencias Físicas, Ciencias Químicas,
Economía, Administración, Ciencias Biológicas y Ciencias Sociales, entre otras.
EL MARCO TEORICO

El análisis de regresión se usa con el propósito de predicción. La meta del análisis de regresión es
desarrollar un modelo estadístico que se pueda usar para predecir los valores de una variable
dependiente o de respuesta basados en los valores de al menos una variable independiente o
explicativa. Para establecer una relación cuantitativa entre y es necesario disponer de cierta
información muestral. Esta información consiste de un conjunto de pares de observaciones de y,
donde cada uno de estos pares pertenece a una unidad elemental particular de la muestra. Por lo
tanto, el análisis de regresión lineal simple, es el proceso general de predecir una variable (Y) a
partir de otra (X). Las relaciones entre las variables pueden ser directas o también inversas.
Relación directa: la pendiente de esta línea es positiva, porque la variable Y crece a medida que la
variable X también lo hace. La regresión lineal simple implica aplicar una ecuación matemática de
mínimos cuadrados que permite pronosticar o predecir el valor de una variable con base en el
valor de otra; este procedimiento se llama análisis de regresión.

El análisis de regresión es un método para examinar una relación lineal entre dos variables; se
utiliza el concepto de correlación r, sin embargo, la regresión proporciona mucha más
información, además de permitir estimaciones o predicciones de la relación lineal con la ecuación
de mínimos cuadrados
DEFINICIONES DE CONCEPTOS
GLOSARIO DE REGRESION LINEAL

1-Análisis residual: son los que se usan para determinar si parecen ser validos los supuestos
plateados a cerca del modelo de regresión. También se utilizan para identificar observaciones
atípicas y observaciones influyentes.

2-Coeficiente de la correlación: medida de la intensidad de la relación lineal entre 2 variables.

3-Diagrama de dispersión: grafica de datos bivariados en la que la variable independiente se ubica


en el eje horizontal y la variable dependiente se ubica en la parte vertical.

4-Ecuación de regresión: ecuación que describe como está relacionada la media o valor esperado
de la variable dependiente con la variable independiente, en la regresión lineal simple:
Y = Ax +b

5-error cuadrado medio: estimación insesgada de la varianza del término del error o 2 se denota
como ECM o S2.

6-Ecuacion de regresión estimada: estimación de la ecuación de regresión obtenida a partir de


datos muestrales empleado el método de mínimo cuadrado, en la regresión lineal simple, la
ecuación de regresión estimada: Y =Ax + b.

7-intervalo de confianza: estimación por intervalo del medio de Y para un valor dado de X
8-Intervalo de predicción: estimación por intervalo de un solo valor Y para un valor dado de X

9-Metodo de mínimo cuadrado: procedimiento para obtener la ecuación de regresión estimada el

2
Objetivo es minimizar, SUMA (Y - Y) .

10-regresion lineal simple: análisis de regresión en el que participan una variable independiente y
una variable dependiente y la relación entre estas variables se aproxima mediante una línea recta.

11-tabla de ANOVA: en el análisis de varianza esta tabla se usa para resumir los cálculos asociados
con la prueba F de significancia.

12- variable dependiente: variable que se predice o explica, se denota con la letra Y.

13-variable independiente: variable que predice o explica, se denota por X.

14-Analisis de regresión múltiple: análisis de regresión que involucra dos o más variables in
dependiente
Formulación de objetivos

OBJETIVO GENERAL
*Adquirir dominio de la teoría Matemática y aplicaciones de los Modelos Estadísticos Lineales,
para ajustar Modelos de Regresión Lineal Simple o Múltiple a un conjunto de datos.

* Ilustrar como construir Modelos que expliquen el comportamiento de una variable de interés, la
variable respuesta, como resultado del efecto de un conjunto de variables explicativas y mostrar la
utilización de estos Modelos para hacer predicciones o tomar decisiones.

OBJETIVOS ESPECIFICOS
*Evaluar la bondad de ajuste en los Modelos estimados.

*Proporcionar las herramientas de cómo construir un Modelo a partir de un conjunto de datos.

*Estudiar la Multicolinealidad en un conjunto de datos, la Heteroscedasticidad y la

Autocorrelación en los residuos .


*Preparar los archivos de datos y comandos para un análisis de regresión lineal y logística

* Debe saber cuándo aplicar un modelo de regresión lineal y un modelo de regresión logística
*Preparar archivos de datos y comandos para un análisis de tablas multidimensionales mediante
modelos log lineales.

* Interpretar los resultados del ajuste del modelo


HIPOTESIS

En este apartado vamos a formular en primer lugar el modelo de regresión, identificando todas
sus partes. A continuación, constataremos que es imposible estimar los parámetros del modelo
sólo con los datos disponibles.

Para poder estimar los parámetros del modelo y la varianza del error debemos establecer algunas
hipótesis simplificadoras respecto a la perturbación, respecto a las variables explicativas y la
explicada, y respecto a los parámetros β del modelo. De no hacerlo así, obtener las estimaciones
deseadas se convertiría en una tarea bastante complicada, si no imposible. Nos centramos en las
hipótesis sobre el error, por ser las más importantes:

1. Los errores son variables aleatorias de media nula.

2. Todos los errores tienen la misma varianza.

3. Todos los errores están in correlacionados entre sí.

4. El error tiene una distribución conjunta normal. Junto a la hipótesis anterior se concluye que los
errores son independientes entre sí.

1- Los errores son variables aleatorias de media nula. Esto quiere decir que no existe error
sistemático, es decir, que no predecimos la variable explicada siempre por encima (o por debajo)
de su valor real. En ocasiones lo haremos por encima, en ocasiones lo haremos por debajo, y en
promedio no estaremos añadiendo ni quitando nada. Si, bueno... lo ideal sería que el error fuese
cero, pero como no puede ser constante (el cero es constante), ya que es una variable aleatoria,
pues hay que conformarse con esto.

2- Todos los errores tienen la misma varianza. Esto quiere decir que la importancia del error es
siempre la misma. El error no, el error particular e individual será diferente en cada observación.
Hablamos aquí de su importancia en conjunto, de su orden de magnitud. El error estará "acotado"
y se espera que sus valores no superen un cierto límite. Evidentemente, desearemos que ese
límite sea lo más pequeño posible. Sin embargo, esta simplificación puede ser excesiva en algunos
casos, pues hay variables que por su propia naturaleza hacen que la varianza del error no sea
constante.

3- Todos los errores están in correlacionados entre sí. Esto quiere decir que el error cometido con
una observación, un año, una comunidad autónoma, no influirá en el error que se cometerá con
otra observación, otro año u otra comunidad autónoma.

4- El error tiene una distribución conjunta normal. Los errores son independientes.

Esta simplificación es necesaria para más tarde poder realizar pruebas de hipótesis con
distribuciones conocidas (distribuciones t y F), y tener expresiones sencillas de los estimadores
puntuales y de los intervalos de confianza de los parámetros y de la desviación típica del error.
Recordemos que la distribución normal es la distribución más habitual que uno puede encontrar
para una variable aleatoria, así que asumir normalidad no es una condición muy exigente.
JUSTIFICACION

La temática de regresión y correlación lineal es necesaria porque son de utilidad constantemente


en las investigaciones que se hacen en distintos aspectos de las ciencias, a partir del estudio de la
relación entre dos o más variables. De las cuales se puede considerarla variación conjunta de las
dos mediciones; teniendo en cuanta que ninguna de las cuales está sujeta a restricción por el
experimentador. Además se pude ver la pertinencia del tema debido a que es el análisis de
regresión es el que permite establecer una ecuación que relaciona la variable de criterio con una o
más variables de predicción y de esta manea poder modelar una situación que no encaja
estrictamente en un comportamiento matemático perfecto.

Al momento de abordar la temática de regresión, se evidencias el uso de muchos procesos en los


cuales se tengan que tomar decisiones o hacer inferencias acerca de algún fenómeno que no
conozcamos aún su resultado, en el cual se tenga información de una variable independiente y el
comportamiento de otra variable que no necesariamente se evidencia que depende de la primera.
De esta manera se da a conocer la importancia de la regresión y correlación lineal

La correlación y regresión son conceptos estadísticos fundamentales, pues extienden la idea de


dependencia funcional, y se relacionan con muchos otros como como los de variación,
distribución, centralización o dispersión. Otra razón que justifica el interés de este tema es que el
razonamiento sobre la correlación y regresión se vincula a la toma de decisiones en ambiente de
incertidumbre.

La investigación didáctica se ha centrado en la comprensión de algunas propiedades de la


correlación y regresión por los compañeros del cipa. Así, describimos como la población escoge
las tarifas de seguros exequiales de menor valor sobre aquellas que son de mayor valor , analiza el
efecto de la intensidad y signo de la correlación sobre la precisión de la estimación de la
correlación y describe errores relacionados con esta estimación.
PLANTEAMOS EL SIGUIENTE EJEMPLO DE REGRESION

En esencia, una técnica de regresión lineal simple intenta trazar un gráfico lineal entre dos
variables de datos, x e y. Como variable independiente, x se traza a lo largo del eje horizontal. Las
variables independientes también se denominan variables explicativas o variables predictivas. La
variable dependiente, y, se traza en el eje vertical. También puede hacer referencia a los valores y
como variables de respuesta o variables pronosticadas.

La empresa exequial SANTO CRISTO Vende paquetes o seguros exequiales para servicios fúnebres
donde incluye traslados del cuerpo, silletería, velación y terreno para sus exequias para esto
buscaremos la variable y el promedio durante los primeros 10 días del mes de octubre para eso
tenemos los siguientes datos de ventas de seguro exequial. Valores seguro 10000,15000, 20000.
Cual sería la proyección de los datos en 1 mes (30 días).

# Y(VENTAS) X (VALOR) X.Y 2


X
seguro
1 30 10000 300000 100000000
2 20 15000 300000 225000000
3 50 10000 500000 100000000
4 30 10000 300000 100000000
5 25 15000 375000 225000000
6 15 20000 300000 400000000
7 10 20000 200000 400000000
8 31 15000 465000 225000000
9 20 10000 200000 100000000
10 24 15000 360000 225000000

SUMA: 55 225 135000 3300000 2100000000

Calculamos la recta de la pendiente


Y= variable dependiente Y= ax+b

A= ordenada con el eje( y) constante


N Suma X.Y - suma X. suma Y
b= pendiente de la región regresión a= ----------------------------------

x = variable independiente N.suma X2 -(suma X)2


Podemos determinar el costo promedio de ventas en función a la base de valores establecidos,
hallamos el coeficiente de la recta.

N (Suma X.Y) – (suma X).( suma Y ) 10( 3.300.000) –(135.000).(255)

a= ------------------------------------ a = ------------------------------------

2
N.(suma X2) -(suma X)2 10(2.100.000.000)-(135.000)

33.000.000 – 34.425.000 -1.425.00

A= ---------------------------------------- - a = --------------------- a = -0.0005135

21.000.000.000 – 18.225.000.000 2.775.000.000

Hallamos el coeficiente b.

2
(Suma Y). (suma X ) – (suma X).(suma X.Y) (255).(2.100.000.000) – (135.000)(3.300.000)

B= ----------------------------------------------------- b = ---------------------------------------------------

2 2 2
N(suma X ) – (suma X) 10 (2.100.000.000) –(135.000)

535.500.000.000 - 445.500.000.000 89.500.000.000

B = ----------------------------------------- b= --------------------- b = 32.25

21.000.000.000 -18.225.000.000 2.775.000.000

Y = AX + B Y = -0.0005135(30) + 32.25 Y = 32.234

GRAFICA DE LA PENDIENTE
Y (VENTAS)

50 *

40

31 *

30 *

25 *

24 *

20 *

15 *

10 *

X (Valor)
10.000 15.000 20.000
Chart Title
20000
18000
16000
14000
12000
10000 ventas
valor
8000
6000
4000
2000
0
1 2 3 4 5 6 7 8 9 10

GRAFICAS DE DISPERSION

25000

20000

15000

unidades
valor
10000

5000

0
1 2 3 4 5 6 7 8 9 10
Podemos establecer como resultados de las variables deducimos que según los 10 primeros días
se vendieron más paquetes exequiales de $ 10000 en total fueron 130 que equivalen al 51% de la
venta total mientras que las ventas de los paquetes exequiales de $ 15000 que fueron en total 100
equivalente al 39.2% de la venta total mientras los paquetes de $20000 fueron en total 25
paquetes exequiales que equivalen a un 9.8 %. Analizando los datos vemos que por su economía la
gente obtuvo el paquete exequial más económico debido a la situación económica de vivimos en
nuestro país a pesar de esto para la compañía funeraria SANTO CRISTO el recaudo de los paquetes
exequiales fueron superiores en los paquetes exequiales de 15000 a pesar de que se vendieron
menos unidades que los paquetes de 10000.

Paquetes exequiales$ Unidades vendidas Total $ %


10.000 130 1.300.000 51
15.000 100 1.500.000 39.2
20.000 25 500.000 9.8
Total 225 3.300.000 100

1600000

1400000

1200000

1000000

800000 unidades
valores
600000

400000

200000

0
10000 15000 20000
Hallamos el coeficiente correlacional con los datos anteriores

( X –X ) (Y – Y ) 2 2 ( X –X ) ( Y – Y )
(X–X) (Y–Y)
-3500 4.5 12.250.000 20.25 -15.750
1500 -5.5 2.250.000 30.25 -8.250
-3500 24.5 12.250.000 600.25 -85.750
-3500 4.5 12.250.000 20.25 -15.750
1500 -0.5 2.250.000 0.25 - 750
6500 -10.5 42.250.000 110.25 -68.250
6500 -15.5 42.250.000 240.25 -100.750
1500 5.5 2.250.000 30.25 8.250
-3500 -5.5 12.250.000 30.25 19.250
1500 -1.5 2.250.000 2.25 -2.250
Suma: 142.500.000 1084.5 - 270.000

Recordemos:

Suma X 135.000
X=----------- X = ----------- X = 13.500
10 10
Suma Y 255
Y =----------- Y = --------- Y = 25.5
10 10

Hallamos la correlación con su fórmula:

Suma (X – X) (Y – Y) -270.000
R = -------------------------------------------- R = ------------------------------------------

2 2
Suma (X – X) suma (Y – Y) (142.500.000) (1084.5)

-270.000 -270.000
R = --------------------- R = ----------------- R = -0.685
(11.937) (33) 393.921

Los valores de r negativos indican una correlación negativa, en la que los valores de una variable
tienden a incrementarse mientras que los valores de la otra variable descienden.

Esto ocurre cuando al crecer alguna de las variables, la otra decrece o viceversa. Por ejemplo: en
este caso vemos como los usuarios acceden más a los paquetes económicos y crece en las
posibilidades de ventas mientras que las ventas de los paquetes más costosos descrecen en
posibilidades de ventas.

También podría gustarte