Está en la página 1de 15

Maestría en Estadística Aplicada

Modelos de Regresión Lineal


Docente: Lic. M.A. Andre Chocó

Tarea 1. Hoja de trabajo I: Conceptos preliminares

Nombre: _Jorge Humberto Ramos Santizo _________ clave: 14_


Nombre: __ Estuardo José Estrada Godínez ________ clave: _24_
Nombre: __Nixon Berni Noriega Urizar_____________ clave: _29_
Nombre: _Victor Vicente Ochoa Contreras___________ clave: 13_
Nombre: ____Boris Massaru Quan Alvarado_________ clave: 17_
Nombre: Ronald Antonio Sandoval López clave: 25

Instrucciones: Esta es una tarea grupal (grupos de 4 a 6 estudiantes). Responda a las


siguientes preguntas. Responda clara y brevemente a cada cuestionamiento y en caso
que se requieran operaciones matemáticas o manejo de software deje constancia de la
evidencia correspondiente. Al finalizar convierta el documento a formato PDF y súbalo a la
plataforma tomando en cuenta fecha y hora límite.

SERIE 1. Estudio de caso (2 puntos)


Se quiso predecir la cantidad de material particulado (partículas en suspensión) a partir
del aumento porcentual de vehículos en circulación con relación al año anterior y al
número de incendios forestales en época de verano en 20 ciudades de Europa Oriental.
Responda las siguientes preguntas:

1. Identifique la variable dependiente y la variable o las variables independientes.

● Variables independientes: cantidad de vehículos en circulación y número de


incendios forestales
● Variable dependiente: cantidad de material particulado (partículas en suspensión)

1
2. Cuál es el tipo y escala de medición de cada variable. Sugerencia: puede hacer un
cuadro respondiendo a esta y la pregunta anterior.

VARIABLE TIPO DE VARIABLE ESCALA DE MEDICIÓN


Cantidad de vehículos en Numérica Razón, Discreta
circulación
Número de incendios Numérica Razón, Discreta
forestales
Cantidad de material Numérica Razón, Continua
particulado

3. Con base a lo anterior, qué tipo de modelo de regresión podría utilizar. Razone su
respuesta.

VARIABLE REGRESIÓN RAZÓN


Cantidad de vehículos en Lineal Ya que las variables son cuantitativas
circulación
Número de incendios Poisson/Lineal Al ser un conteo pero sin saber su
forestales frecuencia esta variable podría tomar
cualquiera de los dos tipos de
regresiones
Cantidad de material Lineal Ya que las variables son cuantitativas
particulado

4. Si calculase coeficientes de correlación entre todas las variables, ¿qué tipo de


relaciones esperaría encontrar? Y cuál sería el signo que tendrían sus
covarianzas. Sugerencia: Haga un cuadro para presentar toda la información para
esta pregunta.

VARIABLES A RELACIONAR RELACIÓN COVARIANZA


Cantidad de Cantidad de Directa, ya que entre más Positiva
vehículos en material vehículos en circulación,
circulación particulado mayor material particulado.
Número de Cantidad de Directa, ya que entre más Positiva
incendios material vehículos en circulación,
forestales particulado mayor material particulado
Cantidad de Número de Sin relación Tendería a cero.
vehículos en incendios
circulación forestales

2
SERIE 2. Manejo de conceptos (1.5 puntos)

5. En la amplitud de un intervalo de confianza para el coeficiente de correlación


poblacional influyen 2 aspectos que son: el tamaño de la muestra y el coeficiente
de correlación muestral (r).

6. Explique hasta este momento, ¿qué diferencia encuentra entre la correlación y un


modelo de regresión, trate de no acudir a internet o a un libro?
● En la correlación se determina el nivel de relación entre dos o más variables y
el sentido de esta misma, sin importar si estas son dependientes o
independientes. En cambio, desde la regresión, se puede predecir una variable
desde su relación con una o más variables (predictoras)

7. En un modelo de regresión como los que se ejemplifican en la primera conferencia


magistral, ¿para qué sirven los coeficientes y para qué los estadísticos t? o dicho
de otra forma: ¿Qué información me proveen los estadísticos t y los coeficientes
del modelo de regresión?

● Los coeficientes indican si la relación es directa o indirecta entre la variable


independiente y la variable dependiente. El estadístico t, es específico del
tamaño del efecto, es decir el que tiene el valor absoluto más grande se puede
considerar como el mejor predictor.

SERIE 3. Manejo de software y cálculos (4 puntos)


Caso A (Uso de jamovi): Utilice la base de datos adjunta en formato Excel. En ella
encuentra los resultados de ventas semanales en dólares de una empresa, así como su
inversión en dólares publicidad en diferentes rubros. También hay una variable
correspondiente a si en la publicidad de TV participó una persona famosa, cuyos valores
están codificados (1 = “Sí”, 2 = “No”). Tome en cuenta que la variable publicidad es la
suma de los valores de las variables publicidad, tv, radio, periódico y redes.
8. A través de un cuadro de correlaciones (matriz de correlaciones) indique cuál de
las variables numéricas se relaciona más fuertemente a la variable
ventas_semanales_dolares. No se olvide de presentar su cuadro de correlaciones
editado en Excel y de justificar su respuesta.

3
CUADRO DE CORRELACIONES

Ventas TV Radio Periódico Redes


semanales

Ventas 1 0.79 0.784 0.493 0.361


semanales

TV 0.79 1 0.754 0.541 0.25

Radio 0.784 0.754 1 0.494 0.102

Periódico 0.493 0.541 0.494 1 -0.09

Redes 0.361 0.25 0.102 -0.09 1

Cómo se puede ver en la Matriz de Correlaciones, el coeficiente de correlación (r de


Pearson) en la relación con la variable “ventas_semanales_dolares”, es más fuerte con la
variable “tv” ya que esta tiene el valor más alto y el más cercano a 1, comparado con las
otras tres. La siguiente relación más fuerte es la variable “radio”, ya que su valor de R está
apenas por debajo del valor R para “tv”. Las relaciones más débiles son con las variables
“periodico” y la variable “redes”, en ese orden. Todas las relaciones son directas, ya que
el R es positivo.

4
9. Presente los gráficos de dispersión de cada de las relaciones anteriores, haga uso
del comando gráfico de dispersión, instalando previamente el paquete sctr.
Interprete cada uno de los gráficos.

● Gráficos de dispersión para las relaciones entre todas las variables (hechos en
Jamovi).:

5
● Gráficos de dispersión individuales para la variable “ventas_semanales_dolares”
en relación con las variables “tv”, “radio”, “periodico”, “redes” (hechos en Jamovi).

Gráfico de dispersión de tv y ventas semanales

INTERPRETACIÓN: Existe una relación directa entre la variable “tv” y la variable “ventas
semanales”. Los datos se encuentran distribuidos de manera uniforme a lo largo de la
recta de regresión. Con la correlación más alta de 0.79.

Gráfico de dispersión de radio y ventas semanales

INTERPRETACIÓN: Existe una relación directa entre la variable “radio” y la variable


“ventas semanales”. Con una correlación de 0.784.

6
Gráfico de dispersión de periódico y ventas semanales

INTERPRETACIÓN: Existe una relación directa entre la variable “periódico” y la variable


“ventas semanales”. Los datos se ven dispersos y cercanos a valores menores de 750 del
eje x.

Gráfico de dispersión de redes y ventas semanales

INTERPRETACIÓN: Existe una relación directa entre la variable “redes” y la variable


“ventas semanales”. Los datos tienen una correlación de 0.361, utilizando un modelo
lineal, por lo tanto se recomienda corroborar con otros modelos de regresión.

7
10. Indique qué correlaciones de las anteriores resultaron significativas y cuál fue la
relación que se estimó con mayor precisión. Justifique sus respuestas y presente
evidencias.

● Según el coeficiente de correlación, todas las variables evaluadas tienen una


relación con la variable “ventas_semanales_dolares”, pero no con la misma
correlación.

● El coeficiente de correlación de la variable “tv” es 0.79, y el intervalo de confianza


de este mismo presenta una menor amplitud por lo cual tiene una mayor precisión

8
● El coeficiente de correlación de la variable “radio” es 0.784, y una mayor precisión
similar a la de la variable “tv” con un intervalo de menor amplitud.

● El coeficiente de correlación de la variable “periódico” es de 0.493, el cual está


bastante abajo respecto a los dos anteriores. Por ello, se puede determinar que
tiene menor precisión también basándose en un intervalo de confianza que tiene
una mayor amplitud.

● El coeficiente de correlación de la variable “redes”, es de 0.361, al ser el más bajo,


podemos determinar que posee la menor precisión y el intervalo con la mayor
amplitud.

11. Descargue el paquete esci y realice un análisis de diferencia de correlaciones con


intervalos de confianza estratificando por la variable figura_publica_en_anuncio.
Utilice las variables ventas_semanales_dolares (como variable respuesta) y la
variable publicidad como predictora. Concluya si hay diferencias significativas en
las correlaciones entre la predictora y la respuesta cuando se estratifica por la
tercera variable. Deje evidencia de su análisis y justifique su respuesta.

Al hacer la estratificación con la tercera variable (figura_publica_en_anuncio),


tendríamos dos grupos, uno cuando sí hay figura pública (Sí=1) y otro cuando no
hay figura pública (No=2). El coeficiente de correlación para el “Sí” es de 0.8431 y
para el “No” es de 0.8601. La diferencia entre ellos es de 0.0171. Esto nos dice
que no hay una diferencia significativa en las correlaciones al hacer la
estratificación. Además, al ser el valor cercano a 1, podemos decir que la
correlación es fuerte en ambos casos.

9
Ver estadísticas en la tabla a continuación, así como el gráfico de dispersión.
TABLA DE CORRELACIÓN

GRÁFICA DE CORRELACIÓN

10
FIGURA DE ESTIMACIÓN

Caso B (Cálculos con fórmulas): En una investigación hipotética se relaciona el número


de horas extras pagadas a colaboradores semanalmente en una fábrica y el % de
artículos defectuosos obtenidos en tales semanas. Para ello se presentan los siguientes
datos, y un resumen numérico de ambas variables:

11
N Media DE
Horas extra 22 246.41 183.16
Artículos defectuosos (%) 22 6.32 3.64

12. Calcule e interprete la correlación y la correlación de Pearson (deje constancia de


sus operaciones).

En Excel, donde x = horas_extras y la variable y = %_articulos_defectuosos

(x-)(y-
x y x- y- ) x2 y2 xy (xi - )2 (yi - )2
340 5 93.59 -1.32 -123.37 115600 25 1700 8759.25826 1.73760331
95 3 -151.41 -3.32 502.40 9025 9 285 22924.7128 11.0103306
210 6 -36.41 -0.32 11.58 44100 36 1260 1325.6219 0.10123967
809 15 562.59 8.68 4884.31 654481 225 12135 316508.531 75.3739669
80 4 -166.41 -2.32 385.77 6400 16 320 27691.9855 5.37396694
438 10 191.59 3.68 705.40 191844 100 4380 36707.0764 13.5557851
107 4 -139.41 -2.32 323.18 11449 16 428 19434.8946 5.37396694
180 6 -66.41 -0.32 21.13 32400 36 1080 4410.16736 0.10123967
100 3 -146.41 -3.32 485.81 10000 9 300 21435.6219 11.0103306
550 13 303.59 6.68 2028.54 302500 169 7150 92167.4401 44.6466942
220 7 -26.41 0.68 -18.01 48400 49 1540 697.440083 0.46487603
50 3 -196.41 -3.32 651.72 2500 9 150 38576.531 11.0103306
193 6 -53.41 -0.32 16.99 37249 36 1158 2852.53099 0.10123967
290 8 43.59 1.68 73.31 84100 64 2320 1900.16736 2.8285124
340 2 93.59 -4.32 -404.14 115600 4 680 8759.25826 18.6466942
115 4 -131.41 -2.32 304.63 13225 16 460 17268.3492 5.37396694
362 10 115.59 3.68 425.58 131044 100 3620 13361.2583 13.5557851
300 9 53.59 2.68 143.72 90000 81 2700 2871.98554 7.19214876
75 2 -171.41 -4.32 740.18 5625 4 150 29381.0764 18.6466942
93 2 -153.41 -4.32 662.45 8649 4 186 23534.3492 18.6466942
320 10 73.59 3.68 270.95 102400 100 3200 5415.6219 13.5557851
154 7 -92.41 0.68 -63.01 23716 49 1078 8539.44008 0.46487603
Sum 5421 139 12029.14 2040307 1157 46280 704523.318 278.772727
Media 246.41 6.32

12
Utilizando las siguientes fórmulas:

Cov = 572.82
r = 0.859
Confirmando los datos con Jamovi:

Matriz de Correlaciones
% articulos_defectuosos horas_extras

% articulos_defectuosos R de Pearson —
gl —
valor p —
horas_extras R de Pearson 0.858 —
gl 20 —
valor p < .001 —

INTERPRETACIÓN:

El coeficiente de correlación es 0.859, por lo que se puede deducir que existe una relación directa
entre dos variables. La correlación es fuerte, ya que es un número próximo a 1.

13
13. Utilice una prueba de una cola con un nivel de significancia del 10% para el
contraste del coeficiente de correlación poblacional, enunciar hipótesis nula e
hipótesis alterna, concluya con base a los resultados (usando tabla de t de
Student). Deje constancia de sus operaciones.

Utilizando la siguiente fórmula (cálculos en Excel):

𝑟 0.858
𝑡= 2
𝑡= 2
= 7. 4816
1−𝑟 1−0.858
𝑛−2 22−2

Grados de Libertad: gl= 20


α = 0.10

Valor crítico (calculado en Excel) = -1.3253


Como r > 0, entonces el valor crítico = 1.3253

Si se usa la tabla t de Student, el valor crítico es 1.325.

Hipótesis nula: t < valor crítico, no hay correlación estadísticamente significativa

Hipótesis alterna: t > valor crítico, hay una correlación estadísticamente


significativa

INTERPRETACIÓN:
Al ser t mayor que el valor crítico, se rechaza la hipótesis nula y se acepta la hipótesis
alterna, lo que significa que si hay una correlación estadísticamente significativa entre las
variables horas_extras y la variable %_articulos_defectuosos.

14. Calcule un intervalo de confianza del 90% para el intervalo de confianza de la


correlación poblacional. Interprete el intervalo. Deje constancia de sus
operaciones.

Con las siguientes fórmulas (cálculos en Excel):

r =0.858 𝑧=
1
2 ( )
𝑙𝑜𝑔𝑒
1+𝑟
1−𝑟
𝑧=
1
2 (
𝑙𝑜𝑔𝑒
1+0.858
1−0.858 ) = 1. 286

Para un α=0.1
𝑧1−α/2 = 1. 645 (calculado en Excel con la función DISTR.NORM.ESTND.IN)

14
𝑧 α
1− 2 1.645
𝑧=𝑧− = 1. 286 − = 0. 908
𝑛−3 22−3

𝑧 α
1− 2 1.645
𝑧=𝑧+ = 1. 286 + =1.663
𝑛−3 22−3

2𝑧
𝑒 −1
ρ= 2𝑧 = 0. 72
𝑒 +1

2𝑧
𝑒 −1
ρ= 2𝑧 = 0. 931
𝑒 +1

Confirmando con Jamovi

Correlations: Single Group


Linear Correlation
90% CI
X variable Y variable Effect r LL UL Npairs df

X variable Y variable X variable and Y variable 0.858 0.710 0.928 22 20

Estimation Figure

Interpretación:

El intervalo de confianza para ρ estaría entre 0.72 y 0.931, realizado en Excel y confirmado con
Jamovi. La estimación no es muy precisa ya que el tamaño de la muestra es bastante pequeño, ello
se puede ver en que el intervalo es algo amplio, al operar la diferencia entre los límites inferior y
superior nos da un valor de 0.211.

15

También podría gustarte