Documentos de Académico
Documentos de Profesional
Documentos de Cultura
REGRESIÓN Y CORRELACIÓN
GRUPO NO. 13
SALÓN 207
EVALUACIÓN
BAJA - MEDIA -5 ALTA -
NOMBRE CARNÉ OBSERVACIÓN
0 PTS. PTS. 10 PTS.
Daniel Alexander
201404788 9
Alfaro Leonardo
Julio Javier De Paz
201505516 9
Jacobo
Jeanifer Paola
201605386 9
Álvarez
José Alfredo Pistún
201605449 9
Pixtún
Yesli Estiffani
Lisseth Abril 201704704 9
Realique
Esly Adonai Ruano
201712105 9
Muñoz
Ingrid Aracely
201712322 9
Santos Lorenzo
Kevin Gerardo
201712695 9
Chacón de la Cruz
Gerardo Antonio
201713442 9
Canizales Rodenas
ÍNDICE
INTRODUCCIÓN ................................................................................................................. i
CAPÍTULO I ........................................................................................................................ 1
CAPÍTULO II ..................................................................................................................... 24
CONCLUSIONES .............................................................................................................. 28
RECOMENDACIONES .................................................................................................... 29
WEBGRAFÍA ..................................................................................................................... 30
INTRODUCCIÓN
El presente trabajo pretende contribuir al desarrollo de esta rama de la Estadística por medio
de la aplicación de la teoría a un problema real y que a su vez pueda ser utilizado como una
guía de estudio para los estudiantes de la Licenciatura en Estadística como también por los
docentes para el desarrollo del curso de Modelos Lineales, ya que no se encuentra bibliografía
completa para el desarrollo del curso.
La regresión lineal simple utiliza una sola variable de regresión y el caso más sencillo es el
modelo de línea recta. Determina si los cambios en una de ellas influyen en los valores de la
otra. Si ocurre esto se dice que las variables están correlacionadas o bien que
hay correlación entre ellas.
Un Modelo Lineal se puede determinar de manera gráfica o bien, por medio de una ecuación.
Existen ocasiones en que en una de las variables se quiere que cumpla varias condiciones a
la vez, entonces surge un conjunto de ecuaciones donde el punto de intersección de dichas
ecuaciones representa la solución del problema.
Capítulo I, se presenta una pequeña introducción, así como también una definición de
términos básicos.
1.1 Regresión
La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación
matemática lineal que describe la reacción entre dos variables.
La regresión puede ser utilizada de diversas formas. Se emplean en situaciones en la que las
dos variables miden aproximadamente lo mismo, pero en las que una variable es
relativamente costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que
con la otra variable no ocurre lo mismo.
La finalidad de una ecuación de regresión seria estimar los valores de una variable con base
en los valores conocidos de la otra.
Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable
en término de otra. Es decir, se puede intuir una relación de causa y efecto entre dos variables.
El análisis de regresión únicamente indica qué relación matemática podría haber, de existir
una. Ni con regresión ni con la correlación se pude establecer si una variable tiene “causa
“ciertos valores de otra variable. (Pedagogia, 2022)
1
(denominados variables), y que involucra solamente sumas y restas de una variable a la
primera potencia. Por ejemplo, 2x – 3 = 3x + 2 es una ecuación lineal o de primer grado.
Donde: (Profe, 2022)
Por un lado, sirven para encontrar el rango de una matriz. El rango está relacionado con la
dimensión del espacio de soluciones a un sistema lineal de ecuaciones.
Por otro lado, cuando tenemos sistemas lineales con matriz asociada cuadrada e invertible,
podemos usar determinantes para encontrar las soluciones. A esto se le conoce como
las fórmulas de Cramer o la regla de Cramer. La regla de Cramer es parcialmente útil en
términos prácticos, pues para sistemas concretos conviene más usar reducción gaussiana. Sin
embargo, ero es muy importante en términos teóricos, cuando se quieren probar propiedades
de las soluciones a un sistema de ecuaciones. (Sandoval, 2020)
2
1.5 Interferencia en el análisis de regresión
Los Modelos de Regresión Lineal permiten analizar la posible relación existente entre la
pauta de variabilidad de una variable aleatoria y los valores de una o más variables
(aleatorias o no) de las que la primera depende, o puede depender. El ANOVA es un caso
particular de los Modelos de Regresión (MR) Lineal. Exigen cálculos mucho más
laboriosos que los implicados en los ANOVA El recurso a un software estadístico es
prácticamente indispensable. (Vasquez, 2015)
3
1.6 El error estándar de estimación
El error estándar es una estimación de la cantidad que el valor de una estadística de prueba
varía de muestra a muestra. Es la medida de la incertidumbre de la estadística de prueba. Es
posible que el error estándar se abrevie como std. Error.
Imagine que estaba realizando una encuesta y se eligió al azar a 1000 personas para la
encuesta. Este grupo es una muestra. Puede elegir otra muestra aleatoria de 1000 personas, y
otra muestra, y otra muestra, etc. A continuación, puede calcular la media para cada muestra.
La distribución de estos medios de muestreo es la distribución del muestreo. Mediante el
cálculo de la desviación estándar de esta distribución, se obtiene el error estándar de la media.
Cuando se escribe un error estándar sin cualificación, se supone que es el error estándar de
la media.
4
1.7 Inferencia acerca de la pendiente de una línea de regresión
Aun cuando es poca a nula la relación entre dos variables de una población, es posible tener
valores que hacen que parezca que las variables están relacionadas, es importante probar los
resultados tales del cálculo, a fin de determinar si son significativos (es decir si los parámetros
verdaderos no son cero), si no existiere ninguna relación se esperaría tener una pendiente
cero, se pone a prueba la hipótesis nula contra la hipótesis alternativa.
Si a medida que crece X hay un cambio en los valores de Y existe una correlación. La
correlación es positiva cuando Y tiende a crecer y en negativo cuando pasa lo contrario Y
empieza a decrecer si los pares ordenados (X, Y) tienden a seguir un patrón de línea recta, se
tiene una correlación lineal. La relación lineal perfecta ocurre cuando todos los puntos estas
exactamente sobre una recta. Esta correlación puede ser positiva o negativa dependiendo si
5
Y crece o decrece a medida de que X se incrementa. Si los datos forman una recta horizontal
o vertical hay correlación, ya que una variable no afecta a la otra.
6
1.8.1.3 Correlación nula
La correlación nula se da cuando no hay dependencia de ningún tipo entre las variables.
En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma
redondeada.
7
El coeficiente de correlación tiene el mismo signo que el del coeficiente de covarianza. Así,
si la covarianza es positiva, la correlación es directa; y si la covarianza es negativa, la
correlación es, por tanto, inversa. Por su parte, cuando la covarianza es nula, la correlación
no existe.
El valor del índice de correlación puede estar entre -1 y +1, ambos incluidos. Más abajo
veremos cómo se interpreta el valor del coeficiente de correlación.
Ten en cuenta que existen otros tipos de coeficientes de correlación, como por ejemplo el
coeficiente de correlación de Spearman o el de Kendall. Pero sin duda el más habitual es el
coeficiente de correlación de Pearson.
8
1.9 Datos continuos: r de pearson
El coeficiente de correlación de Pearson es una prueba que mide la relación estadística entre
dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el
coeficiente no se encuentra representado adecuadamente.
Donde:
“x” es igual a la variable número uno, “y” pertenece a la variable número dos, “zx” es
la desviación estándar de la variable uno, “zy” es la desviación estándar de la variable dos y
“N” es el número de datos.
9
de Pearson tiene el objetivo de indicar cuán asociadas se encuentran dos variables entre sí
por lo que:
Cuando el valor de alguna variable es alto, el valor de la otra variable es bajo. Mientras más
próximo se encuentre a -1, más clara será la covariación extrema. Si el coeficiente es igual a
-1, nos referimos a una correlación negativa perfecta.
Cuando el valor de una variable es alto, el valor de la otra también lo es, sucede lo mismo
cuando son bajos. Si es cercano a +1, el coeficiente será la covariación.
Correlación igual a cero: Cuando la correlación es igual a cero significa que no es posible
determinar algún sentido de covariación. Sin embargo, no significa que no exista una relación
no lineal entre las variables.
Cuando las variables son independientes significa que estas se encuentran correlacionadas,
pero esto no significa que el resultado sea verdadero.
Entre las principales ventajas del coeficiente de correlación de Karl Pearson se encuentran:
✓ El valor es independiente de cualquier unidad que se utiliza para medir las variables.
✓ Si la muestra es grande, es más probable la exactitud de la estimación.
Alguna de las desventajas del coeficiente de correlación es:
✓ Es necesario las dos variables sean medidas a un nivel cuantitativo continuo.
✓ La distribución de las variables debe ser semejante a la curva normal.
10
1.9.1 Tipos de variables donde se puede utilizar el coeficiente r de Pearson
Para poder usar el coeficiente de correlación r de Pearson se usan en variables las cuales son:
✓ Las dos continuas
✓ Una continua y una discontinua (1 ó 0)
✓ Las dos Dicotomaticas (1 ó 0)
La relación entre una variable continua y otra dicotomatica se denomina correlación biserial
puntual (rbp) pero el cálculo y la interpretación son los mismos que cuando las dos variables
son continuas (y podemos utilizar calculadoras y programas que tienen ya programada la
correlación r de Pearson (Ortega)
1.10 Carácter de r
11
El coeficiente de determinación (r2) representa la proporción de la varianza explicada por
una variable respecto a la varianza total de otra variable. Recibe el nombre de determinación
porque se suele considerar como medida del grado de influencia de una variable en otra.
Fórmula de coeficiente de determinación:
12
1.12 Inferencias respeto de r (coeficiente de correlación de Pearson)
La inferencia estadística es el conjunto de métodos y técnicas que permiten inducir, a partir
de la información empírica proporcionada por una muestra, cual es el comportamiento de
una determinada población con un riesgo de error medible en términos de probabilidad.
13
precisión asociado con una estimación puntual se parte de dicha estimación para construir un
intervalo de confianza. En síntesis, un intervalo de confianza está formado por un conjunto
de valores numéricos tal que la probabilidad de que éste contenga al verdadero valor del
parámetro puede fijarse tan grande como se quiera. Esta probabilidad se denomina grado de
confianza del intervalo, y la amplitud de éste constituye una medida del grado de precisión
con el que se estima el parámetro.
a) Supuestos:
b) Hipótesis:
c) Estadístico de contraste:
g) Intervalo de confianza:
14
1.13 Intervalo de confianza para la correlación de la población
a) Supuestos:
b) Hipótesis:
c) Estadístico de contraste:
g) Intervalo de confianza:
15
1.14 Prueba de significancia para cada coeficiente de la regresión
La prueba individual de un coeficiente de regresión puede ser útil para determinar si:
La SC incremente
La SC disminuya
16
1.15 Datos jerarquizados de: r sperman
1. Depuración de datos y detección de valores atípicos de la variable dependiente de
respuesta, a través del Diagrama de Caja.
2. Análisis Descriptivo.
(CONSULTORIA, 2019)
1.17 Ventajas
Para dos variables, la fórmula compara la distancia de cada dato puntual respecto a la media
de la variable y utiliza esta comparación para decirnos hasta qué punto la relación entre las
variables se ajusta a una línea imaginaria trazada entre los datos. A esto nos referimos cuando
decimos que la correlación examina las relaciones lineales.
17
1.18 Limitaciones
La correlación sólo se refiere a las dos variables dadas y no aporta información sobre las relaciones
más allá de los datos bivariados. Esta prueba no puede detectar valores atípicos en los datos (y por
tanto estos sesgan los resultados) y tampoco puede detectar correctamente las relaciones
curvilíneas.
✓ Los valores de r positivos indican una correlación positiva, en la que los valores de ambas variables
Dos variables perfectamente correlacionadas cambian conjuntamente a una tasa fija. Decimos que
tienen una relación linear; cuando representados en un gráfico de dispersión, todos los puntos
correspondientes a los datos pueden conectarse con una misma línea recta.
✓ El valor p nos ayuda a determinar si podemos o no concluir de manera significativa que el
El valor p es una medida de probabilidad empleada para hacer pruebas de hipótesis. El objetivo de
una prueba de hipótesis es determinar si hay evidencia suficiente para apoyar una determinada
hipótesis sobre los datos. De hecho, formulamos dos hipótesis: la hipótesis nula y la hipótesis
alternativa.
En el análisis de correlación, usualmente, la hipótesis nula expresa que la relación observada entre
las variables es producto del mero azar (esto es, que el coeficiente de correlación en realidad es
cero y no hay una relación lineal).
18
El coeficiente de correlación de la muestra puede representarse con una fórmula:
Para empezar a responder a esta pregunta, recopilaremos los datos de los promedios diarios de
venta de helado y la temperatura máxima diaria. Por tanto, las ventas de helado y la temperatura
son las dos variables que usaremos para calcular el coeficiente de correlación. A veces a este tipo
de datos se los llama datos bivariados, porque cada observación (o instante de tiempo en el que
19
hemos medido tanto las ventas como la temperatura) tiene dos datos que podemos usar para
describirla. En otras palabras, nos estamos preguntando si las ventas de helado y la temperatura
varían conjuntamente.
Tal como lo hemos hecho antes, un gráfico de dispersión es útil para echar un primer vistazo:
También podemos ver los datos en una tabla, ya que nos ayuda a seguir el cálculo del
coeficiente a partir de cada dato bivariado. Cuando hablamos de datos bivariados, lo común
es llamar a una variable X y a la otra Y (esto también nos ayuda a orientarnos en un plano
visual, como los ejes de un gráfico). Vamos a llamar X a las ventas de helado e Y a la
temperatura.
Observe que todos los datos bivariados se dan por pares. Recuerde que estamos observando
en instantes individuales en el tiempo, y cada uno de ellos tiene un valor tanto para las ventas
como para la temperatura.
20
Comience averiguando las medias de la muestra
Ahora que hemos orientado nuestros datos, podemos empezar con dos subcálculos
importantes de la fórmula anterior: la media de la muestra y la diferencia entre cada dato
puntual y esta media (durante estos pasos, también podrá ver los cimientos iniciales de
la desviación estándar).
Las medias de la muestra se representan con los símbolos x̅ e y̅, a veces llamados "X-Barra"
e "Y-Barra". Las medias de venta de helados (x̅) y temperatura (y̅) pueden calcularse
fácilmente de la siguiente manera:
Una vez que hemos obtenido la media de cada una de las dos variables, el siguiente paso es
restar la media de ventas de helado (6) de cada uno de los datos puntuales de ventas (x_i en
la fórmula) y la media de temperatura (75) de cada uno de los datos puntuales de temperatura
(y_i en la fórmula). Tenga en cuenta que esta operación a veces da lugar a un número negativo
o a cero.
21
Complete el numerador de la ecuación del coeficiente
Esta parte de la ecuación se llama la suma de los productos. Un producto es un número que
se obtiene tras una multiplicación, así que esta fórmula es justo lo que parece: la suma de los
números que ha multiplicado.
Tomamos los pares de valores de cada fila de las últimas dos columnas de la tabla de arriba,
los multiplicamos (recuerde que al multiplicar dos números negativos se obtiene un resultado
positivo) y sumamos los resultados:
Vamos a ver las expresiones de esta ecuación por separado con los números de nuestro
ejemplo de ventas de helado:
22
Cuando multiplicamos el resultado de las dos expresiones entre sí, obtenemos:
23
La correlación supone que ninguna es fija: las dos variables están fuera del control de investigador.
(estadística, 2023)
CAPÍTULO II
CASO PRÁCTICO
Ingresos 25 30 40 35 20
Gastos 20 22 35 30 18
ΣX = 150
ΣY = 125
ΣX² = 4,750
ΣY² = 3,333
ΣXY = 3,970
n = 5
No conocemos la variable a y
ΣY = na + bΣX b
ΣXY = aΣX+bΣX^2
125 = 5a+150b
3970 = 150a+4750b
24
125 = 5a+150b
-5a = -125+150b
a = -125+150b
-5
a = 25 - 30b
3970 = 150a+4750b
150*(25-
3970 = 30b)+4750b
- 250b = 3750-3970
- 250b = -220
b = -220
-250
b = 0.88
125 = 5a+150b
-5a = -125+150*(0.88)
-5a = 7
a = 7
-5
a = -1.4
Yc = a + bx
25
La x se reemplaza
Yc = -1.4 + 0.88x por 50
Yc = 42.6
b. Determinar el
coeficiente de
correlación y su
interpretación
193.6
r=
208
r= 0.93077
r= 0.96476382
c. Determinar el
error estándar de
la regresión
26
Sy/x = 3333 + -175 - 3494
5
Sy/x = 14.4
5
2.88
Sy/x =
Sy/x = 1.69705627
27
CONCLUSIONES
28
RECOMENDACIONES
29
WEBGRAFÍA
CONSULTORIA, E. (13 de JUNIO de 2019). ESTAMÁTICA CONSULTORIA. Obtenido
de https://estamatica.net/regresion-multiple-jerarquica-con-spss/
30
Software del Sol, S. (2 de 2020). por Software DELSOL. Obtenido de Analisis de
Regresion : https://www.sdelsol.com/glosario/analisis-de-regresion/
31