Documentos de Académico
Documentos de Profesional
Documentos de Cultura
REGRESIÓN Y CORRELACIÓN
SALON: 211
EDIFICIO: S-12
INTEGRANTES
Nombre Carnet
Lurdes Mishell Macario Roca 200921295
Sheila Merarí Santay Campos 201011012
Pedro Tocay Monroy 201111228
Miguel Suy Méndez 201111664
Vivian Karina Macario Roca 201119888
Cindi Regina López Ramírez 201120023
Ana Cristina Juárez Cuyún 201214841
Yojana Betzaly Sapón Coyoy 201214869
Gabriela Mariel Reneau Pastor 201214916
Contenido Pág.
INTRODUCCIÓN..................................................................................................................................1
REGRESIÓN.........................................................................................................................................2
CORRELACIÓN ....................................................................................................................................5
CORRELACIÒN VALOR O RANGO ....................................................................................................9
DISTRIBUCIÒN DIVARIANTE .........................................................................................................10
CASOS PRÁCTICOS............................................................................................................................14
CONCLUSIONES ................................................................................................................................19
RECOMENDACIONES ........................................................................................................................20
BIBLIOGRAFIA...................................................................................................................................21
1
INTRODUCCIÓN
REGRESIÓN
Muchas técnicas han sido desarrolladas para llevar a cabo el análisis de regresión.
Métodos familiares tales como la regresión lineal y la regresión por cuadrados mínimos
ordinarios son paramétricos, en que la función de regresión se define en términos de un
número finito de parámetros desconocidos que se estiman a partir de los datos. La regresión
no paramétrica se refiere a las técnicas que permiten que la función de regresión consista en
un conjunto específico de funciones, que puede ser de dimensión infinita.
La regresión como una técnica estadística, una de ellas la regresión lineal simple y la
regresión multifactorial, analiza la relación de dos o más variables continuas, cuando analiza
las dos variables a esta se le conoce como variable bivariantes que pueden corresponder a
variables cualitativas, la regresión nos permite el cambio en una de las variables llamadas
respuesta y que corresponde a otra conocida como variable explicativa, la regresión es una
técnica utilizada para inferir datos a partir de otros y hallar una respuesta de lo que puede
suceder.
Siendo así la regresión una técnica estadística, por lo tanto para interpretar situaciones
reales, pero a veces se manipula de mala manera por lo que es necesario realizar
una selección adecuada de las variables que van a construir las formulas matemática, que
representen a la regresión, por eso hay que tomar en cuenta variables que tiene relación, de
lo contraria se estaría matematizando un galimatías.
Se pueden encontrar varios tipos de regresión, por ejemplo:
1. Regresión lineal simple
2. Regresión múltiple ( varias variables)
a. Simple b) Múltiple, etc.
3. Regresión logística
La regresión lineal técnica que usa variables aleatorias, continuas se diferencia del
otro método analítica que es la correlación, porque esta última no distingue entre las variables
respuesta y la variable explicativa por que las trata en forma simétrica.
La matematización nos da ecuaciones para manipular los datos, como por ejemplo medir la
circunferencia de los niños y niñas y que parece incrementarse entre las edades de 2 meses y
18 años, aquí podemos inferir o predecir que las circunferencias del cráneo cambiara con la
edad, en este ejercicio la circunferencia de la cabeza es la respuesta y la edad la variable
explicativa.
En la regresión tenemos ecuaciones que nos representan las diferentes clases de
regresión:
Regresión Lineal: y = A + Bx
Regresión Logarítmica: y = A + BLn(x)
Regresión Exponencial: y = Ac (bx)
Regresión Cuadrática: y = A + Bx +Cx2
4
CORRELACIÓN
Para poder entender esta relación tendremos que analizarlo en forma gráfica:
30 75
19 65 150
1698 47
100 2045 15
La correlación
31 se puede
92 explicar con la pendiente de 50
1348 100
1268 120
esa recta estimada y de esta forma nos podemos dar
0
cuenta que también existe el caso en el que al crecer 1000 1500 2000
la variable independiente decrezca la variable
dependiente. En aquellas rectas estimadas cuya
pendiente sea cero entonces podremos decir que no
existe correlación.
n n n
En donde:
n xi y i xi * y i
r i 1 i 1 i 1 R = coeficiente de correlación
n 2 n 2 n 2 n
2
Y = variable independiente
Ejemplo:
n n n
n xi yi xi * yi
i 1 i 1 i 1 7 * 13483 (183 * 499 )
r 0.65638606
n 2
n x 2 x n y 2 y
n n n
2
7 * 5319 (183) 2 7 * 36403 (499 ) 2
i 1 i i i
i 1 i 1 i 1
i
En nuestro ejemplo decimos que la correlación es casi perfecta, ya que, está muy
cerca de 1 y que el porcentaje de datos que explican a “y “es (0.65638606)2= 0.430842 o sea
el 43.08 %
Primero tendremos que pensar que se genera una matriz, ya que, ahora estamos
juntando dos tablas de distribución de frecuencias y por ello nuestros cálculos serán más
laboriosos, por lo que les recomiendo el uso de una hoja de cálculo o al menos una
calculadora con regresión para datos agrupados.
k l l k
n f xi y i fx xi * fy y i En donde podemos encontrar
j 1 i 1 i 1 i 1
r k como el número de clases
l l f x n k f y 2 k f y
2 2
n f x
x i x i y i y i
2
para la variable "y" y l para el
i 1 i 1 i 1 i 1 número de clases de "x".
También podemos observar que hay varios tipos de "f" es decir, la que se encuentra sola (sin
subíndice) que nos habla de las frecuencias celdares (cada una de las frecuencias que se
encuentran en la intersección entre una columna y un renglón) y las "f" con subíndices que
representan las frecuencias de cada una de las variables.
8
Los resultados que se presentan en la siguiente tabla representan los pesos y las estaturas de
48 alumnos entrevistados el "día anáhuac"
x 0 9 12 17 7 3 48 3116 212072
5380.77
Correlación= 0.695
9
k l l k
n f x i y i f x x i * fy y i
j 1 i 1 i 1 i 1 48 * 5380.77 - (82.06 * 3116)
r 0.695
l l k
2
k
2
((48 * 140.8982) - 82.06 2 ) * (( 48 * 212072) - 3116 2 )
n f x x i f x x i n fy y i fy y i
2 2
i 1 i 1 i 1 i 1
Al interpretar nuestro resultado podemos concluir que si existe relación entre el peso
y la estatura, es decir, que a mayor estatura mayor peso.
demanda
150
1698 47
100 2045 15
1348 100
50
1268 120
0
1000 1500 2000
1) Perfecta 1) R = 1
2) Excelente 2) R = 0.9 < = R < 1
3) Buena 3) R = 0.8 < = R < 0.9
4) Regular 4) R = 0.5 < = R < 0.8
5) Mala 5) R < 0.5
10
DISTRIBUCIÒN DIVARIANTE
DEFINICIÒN:
La distribución diváriate es cuando se estudia en una población dos variables, que
forman pares correspondientes a cada individuo, como por ejemplo:
Las notas de 10 alumnos en biología y lenguaje
BIOLOGIA 2 4 5 5 6 6 7 7 8 9
LENGUAJE 2 2 5 5 5 7 5 8 7 10
Los pares de valores son: (2, 2) (4,2) (5,5)……. (8,7) (9,10) forman una distribución
diváriate.
La correlación, método por el cual se relacionan dos variables se pude graficar con
un diagrama de dispersión de puntos, a la cual muchos autores le llaman nubes de puntos,
encuadrado dentro de un gráfico de coordenadas X Y en la cual se pude trazar una recta y
cuyos puntos más cercanos de una recta hablaran de una correlación más fuerte, ha esta recta
se le denomina recta de regresión, que puede ser positiva o negativa, la primera
contundencia a aumentar y la segunda en descenso o decreciente.
Por último se pueden graficar las líneas de tendencia, herramienta muy útil para
el mercadeo porque es utilizada para evaluar la resistencia que proyectan los precios. Cuando
una línea de tendencia central se rompe ya sea con tendencia al alza o en la baja es porque
ocurre un cambio en los precios, por lo tanto las líneas de tendencia pueden ser alcista cuando
se unen los puntos sucesivos y bajista cuando se unen los puntos máximos.
También existen gráficos que representan la dispersión de datos dentro de las
coordenadas cartesianas, ósea las nubes de puntos y que pueden darse según la relación que
representa, que puede ser lineal, exponencial y sin relación, esta última cuando los puntos
están dispersos en todo el cuadro sin agruparse lo cual sugiere que no hay relación.
12
2.95 18.50
3.20 20.00
3.40 21.10
3.60 22.40
3.20 21.20
2.85 15.00
3.10 18.00
2.85 18.80
3.05 15.70
2.70 14.40
2.75 15.50
3.10 17.20
3.15 19.00
2.95 17.20
2.75 16.80
14
CASOS PRÁCTICOS
Ejercicio 1
xi yi x i2 y i2 xi · yi
2 14 4 1 96 28
3 20 9 4 00 60
5 32 25 1 024 1 60
7 42 49 1 764 2 94
8 44 64 1 936 3 52
15
25 1 52 1 51 5 320 8 94
16
Ejercicio 2
8 15
7 19
6 25
4 23
2 34
1 40
xi yi xi ·yi x i2 y i2
8 15 1 20 64 2 25
7 19 1 33 49 3 61
6 25 1 50 36 6 25
4 23 92 16 5 29
2 34 68 4 1 156
1 40 40 1 1 600
28 1 56 6 03 1 70 4 496
18
C o r rela ció n ne ga ti va m uy f ue r te .
19
CONCLUSIONES
RECOMENDACIONES
2. Combinar el uso de regresión múltiple con otra técnica estadística, lo cual permitirá
obtener mejores modelos para usarlos en la predicción de variables.
21
BIBLIOGRAFIA