Está en la página 1de 24

UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

FACULTAD DE CIENCIAS ECONOMICAS


ESCUELA DE AUDITORÍA

CURSO: SEMINARIO DE INTEGRACIÓN PROFESIONAL


CATEDRATICO: CARLOS MAURICIO GARCIA

REGRESIÓN Y CORRELACIÓN

SALON: 211
EDIFICIO: S-12

GUATEMALA, ENERO 2017


GRUPO NO. 6

INTEGRANTES

Nombre Carnet
Lurdes Mishell Macario Roca 200921295
Sheila Merarí Santay Campos 201011012
Pedro Tocay Monroy 201111228
Miguel Suy Méndez 201111664
Vivian Karina Macario Roca 201119888
Cindi Regina López Ramírez 201120023
Ana Cristina Juárez Cuyún 201214841
Yojana Betzaly Sapón Coyoy 201214869
Gabriela Mariel Reneau Pastor 201214916
Contenido Pág.
INTRODUCCIÓN..................................................................................................................................1
REGRESIÓN.........................................................................................................................................2
CORRELACIÓN ....................................................................................................................................5
CORRELACIÒN VALOR O RANGO ....................................................................................................9
DISTRIBUCIÒN DIVARIANTE .........................................................................................................10
CASOS PRÁCTICOS............................................................................................................................14
CONCLUSIONES ................................................................................................................................19
RECOMENDACIONES ........................................................................................................................20
BIBLIOGRAFIA...................................................................................................................................21
1

INTRODUCCIÓN

A continuación se ofrece una descripción general sobre los temas de Regresión y


Correlación en la Estadística.

En estadística, el análisis de la regresión es un proceso estadístico para estimar las


relaciones entre variables. Incluye muchas técnicas para el modelado y análisis de diversas
variables, cuando la atención se centra en la relación entre una variable dependiente y una o
más variables independientes (o productoras). El análisis de regresión ayuda a entender cómo
el valor de la variable dependiente varía al cambiar el valor de una de las variables
independientes, manteniendo el valor de las otras variables independientes fijas.

En probabilidad y estadística, la correlación indica la fuerza y la dirección de una


relación lineal y proporcionalidad entre dos variables estadísticas. Se considera que dos
variables cuantitativas están correlacionadas cuando los valores de una de ellas varían
sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables
(A y B) existe correlación disminuir los valores de A lo hacen también los de B y viceversa.

Parte de la Estadística corresponde a la Estadística Inferencial y dentro de ella los


capítulos de correlación y regresión son muy usados en la Investigación Científica, una
herramienta muy útil cuando se trata de relacionar dos o más variables, relacionadas entre sí,
como por ejemplo el nivel de hemoglobina y embarazo en el ámbito de las Ciencias de la
Salud, la Correlación implica el grado de dependencia de una variable respecto a otra y la
Regresión es otra técnica que ayuda en la investigación de la salud Psicología costos de una
Empresa etc.
2

REGRESIÓN

El análisis de regresión es ampliamente utilizado para la predicción y previsión,


donde su uso tiene superposición sustancial en el campo de aprendizaje automático. El
análisis de regresión se utiliza también para comprender cuales de las variables
independientes están relacionadas con la variable dependiente, y explorar las formas de estas
relaciones. En circunstancias limitadas, el análisis de regresión puede utilizarse para inferir
relaciones causales entre las variables independientes y dependientes. Sin embargo, esto
puede llevar a ilusiones o relaciones falsas, por lo que se recomienda precaución, por
ejemplo, la correlación no implica causalidad.

Muchas técnicas han sido desarrolladas para llevar a cabo el análisis de regresión.
Métodos familiares tales como la regresión lineal y la regresión por cuadrados mínimos
ordinarios son paramétricos, en que la función de regresión se define en términos de un
número finito de parámetros desconocidos que se estiman a partir de los datos. La regresión
no paramétrica se refiere a las técnicas que permiten que la función de regresión consista en
un conjunto específico de funciones, que puede ser de dimensión infinita.

El desempeño de los métodos de análisis de regresión en la práctica depende de la


forma del proceso de generación de datos, y cómo se relaciona con el método de regresión
que se utiliza. Dado que la forma verdadera del proceso de generación de datos generalmente
no se conoce, el análisis de regresión depende a menudo hasta cierto punto de hacer
suposiciones acerca de este proceso. Estos supuestos son a veces comprobables si una
cantidad suficiente de datos está disponible. Los modelos de regresión para la predicción son
frecuentemente útiles aunque los supuestos sean violados modernamente, aunque no pueden
funcionar de manera óptima. Sin embargo, en muchas aplicaciones, sobre todo con pequeños
efectos o las cuestiones de causalidad sobre la base de datos observacionales, los métodos de
regresión pueden dar resultados engañosos.
3

La regresión como una técnica estadística, una de ellas la regresión lineal simple y la
regresión multifactorial, analiza la relación de dos o más variables continuas, cuando analiza
las dos variables a esta se le conoce como variable bivariantes que pueden corresponder a
variables cualitativas, la regresión nos permite el cambio en una de las variables llamadas
respuesta y que corresponde a otra conocida como variable explicativa, la regresión es una
técnica utilizada para inferir datos a partir de otros y hallar una respuesta de lo que puede
suceder.
Siendo así la regresión una técnica estadística, por lo tanto para interpretar situaciones
reales, pero a veces se manipula de mala manera por lo que es necesario realizar
una selección adecuada de las variables que van a construir las formulas matemática, que
representen a la regresión, por eso hay que tomar en cuenta variables que tiene relación, de
lo contraria se estaría matematizando un galimatías.
Se pueden encontrar varios tipos de regresión, por ejemplo:
1. Regresión lineal simple
2. Regresión múltiple ( varias variables)
a. Simple b) Múltiple, etc.
3. Regresión logística

La regresión lineal técnica que usa variables aleatorias, continuas se diferencia del
otro método analítica que es la correlación, porque esta última no distingue entre las variables
respuesta y la variable explicativa por que las trata en forma simétrica.
La matematización nos da ecuaciones para manipular los datos, como por ejemplo medir la
circunferencia de los niños y niñas y que parece incrementarse entre las edades de 2 meses y
18 años, aquí podemos inferir o predecir que las circunferencias del cráneo cambiara con la
edad, en este ejercicio la circunferencia de la cabeza es la respuesta y la edad la variable
explicativa.
En la regresión tenemos ecuaciones que nos representan las diferentes clases de
regresión:
Regresión Lineal: y = A + Bx
Regresión Logarítmica: y = A + BLn(x)
Regresión Exponencial: y = Ac (bx)
Regresión Cuadrática: y = A + Bx +Cx2
4

Para obtener un modelo de regresión es suficiente establecer la regresión para eso se


hace uso del coeficiente de correlación: R.
R = Coeficiente de correlación, este método mide el grado de relación existente entre dos
variables, el valor de R varía de -1 a 1, pero en la práctica se traba con un valor absoluto de
R.
El valor del coeficiente de relación se interpreta de modo que a media que R se
aproxima a 1, es más grande la relación entre los datos, por lo tanto R (coeficiente de
correlación) mide la aproximación entre las variables.
5

CORRELACIÓN

La correlación es la forma numérica en la que la estadística ha podido evaluar la


relación de dos o más variables, es decir, mide la dependencia de una variable con respecto
de otra variable independiente.

Para poder entender esta relación tendremos que analizarlo en forma gráfica:

edad peso Si tenemos los datos que se presentan en la tabla y


consideramos que la edad determina el peso de las personas
15 60 entonces podremos observar la siguiente gráfica:

30 75

18 67 Donde los puntos representan cada uno de los pares


ordenados y la línea podría ser una recta que represente la
42 80
tendencia de los datos, que en otras palabras podría decirse que se observa que a mayor edad
mayor peso.
28 60 demanda

19 65 150
1698 47
100 2045 15
La correlación
31 se puede
92 explicar con la pendiente de 50
1348 100
1268 120
esa recta estimada y de esta forma nos podemos dar
0
cuenta que también existe el caso en el que al crecer 1000 1500 2000
la variable independiente decrezca la variable
dependiente. En aquellas rectas estimadas cuya
pendiente sea cero entonces podremos decir que no
existe correlación.

Así en estadística podremos calcular la correlación para datos no agrupados con la


siguiente formula.
6

n n n
En donde:
n xi y i   xi *  y i
r i 1 i 1 i 1 R = coeficiente de correlación
 n 2  n 2  n 2  n  
2

n xi    xi   n y i    y i   N = número de pares ordenados


 i 1  i 1    i 1  i 1  
X = variable independiente

Y = variable independiente

Ejemplo:

Edad (x) Peso (y) X2 Y2 X* Y

15 60 225 3600 900

30 75 900 5625 2250

18 67 324 4489 1206

42 80 1764 6400 3360

28 60 784 3600 1680

19 65 361 4225 1235

31 92 961 8464 2852

183 499 5319 36403 13483


7

Supóngase que deseamos obtener la correlación de los datos de la tabla anterior:

Ahora podemos observar que:

n n n
n  xi yi   xi *  yi
i 1 i 1 i 1 7 * 13483  (183 * 499 )
r    0.65638606
 n 2 
n  x 2    x   n  y 2    y  
n n n
2   
7 * 5319  (183) 2 7 * 36403  (499 ) 2
 i 1 i  i  i
 i 1    i 1  i 1  
i
  

Se debe aclarar que el coeficiente de correlación sólo puede variar de la siguiente


manera: 1  r  1 y que para entenderlo mejor se debe obtener el coeficiente de
determinación que se obtiene con “r “cuadrada, ya que este representa el porcentaje que se
explica “y” mediante los datos de “x”.

En nuestro ejemplo decimos que la correlación es casi perfecta, ya que, está muy
cerca de 1 y que el porcentaje de datos que explican a “y “es (0.65638606)2= 0.430842 o sea
el 43.08 %

En el caso de que fueran datos agrupados tendremos lo siguiente:

Primero tendremos que pensar que se genera una matriz, ya que, ahora estamos
juntando dos tablas de distribución de frecuencias y por ello nuestros cálculos serán más
laboriosos, por lo que les recomiendo el uso de una hoja de cálculo o al menos una
calculadora con regresión para datos agrupados.

De cualquier forma aquí también estamos evaluando numéricamente si existe relación


entre dos variables y lo haremos con la siguiente ecuación.

k l l k
n   f xi y i   fx xi *  fy y i En donde podemos encontrar
j 1 i 1 i 1 i 1
r  k como el número de clases
 l  l f x   n k f y 2   k f y  
2 2
n f x 
  x i   x i    y i   y i  
2
para la variable "y" y l para el
 i 1  i 1    i 1  i 1   número de clases de "x".

También podemos observar que hay varios tipos de "f" es decir, la que se encuentra sola (sin
subíndice) que nos habla de las frecuencias celdares (cada una de las frecuencias que se
encuentran en la intersección entre una columna y un renglón) y las "f" con subíndices que
representan las frecuencias de cada una de las variables.
8

Para entender el uso de esta fórmula usaremos un ejemplo:

Los resultados que se presentan en la siguiente tabla representan los pesos y las estaturas de
48 alumnos entrevistados el "día anáhuac"

Marcas de clase de "x"

1.44 1.54 1.64 1.745 1.845 1.94 y x y x y^2


5 5 5 5

44.5 3 1 4 178 7921

marcas 54.5 5 9 5 19 1035.5 56434.7


5

de clase 64.5 1 2 4 1 1 9 580.5 37442.2


5

de "Y" 74.5 5 1 1 7 521.5 38851.7


5

84.5 2 2 1 5 422.5 35701.2


5

94.5 1 3 4 378 35721

x 0 9 12 17 7 3 48 3116 212072

x 0 13.9 19.7 29.66 12.915 5.83 82.06


x 05 4 5 5

x 0 21.4 32.4 51.76 23.828 11.3 140.8982


^2
x 8322 723 5425 175 4907
5 5

5380.77

Correlación= 0.695
9

La sustitución de la fórmula es la siguiente:

k l l k
n   f x i y i   f x x i *  fy y i
j 1 i 1 i 1 i 1 48 * 5380.77 - (82.06 * 3116)
r    0.695
 l  l   k
2
k  
2
((48 * 140.8982) - 82.06 2 ) * (( 48 * 212072) - 3116 2 )
n  f x x i    f x x i   n  fy y i    fy y i  
2 2

 i 1  i 1    i 1  i 1  

Al interpretar nuestro resultado podemos concluir que si existe relación entre el peso
y la estatura, es decir, que a mayor estatura mayor peso.

En muchas ocasiones el resultado de la correlación es negativo y lo que debemos


pensar es que la relación de las variables involucradas en el cálculo es inverso es decir que
en la medida que crece la variable independiente la variable dependiente decrece:

demanda

150
1698 47
100 2045 15
1348 100
50
1268 120
0
1000 1500 2000

El coeficiente de correlación se puede clasificar de la siguiente manera:

CORRELACIÒN VALOR O RANGO

1) Perfecta 1) R = 1
2) Excelente 2) R = 0.9 < = R < 1
3) Buena 3) R = 0.8 < = R < 0.9
4) Regular 4) R = 0.5 < = R < 0.8
5) Mala 5) R < 0.5
10

DISTRIBUCIÒN DIVARIANTE

DEFINICIÒN:
La distribución diváriate es cuando se estudia en una población dos variables, que
forman pares correspondientes a cada individuo, como por ejemplo:
Las notas de 10 alumnos en biología y lenguaje
BIOLOGIA 2 4 5 5 6 6 7 7 8 9

LENGUAJE 2 2 5 5 5 7 5 8 7 10

Los pares de valores son: (2, 2) (4,2) (5,5)……. (8,7) (9,10) forman una distribución
diváriate.

La correlación, método por el cual se relacionan dos variables se pude graficar con
un diagrama de dispersión de puntos, a la cual muchos autores le llaman nubes de puntos,
encuadrado dentro de un gráfico de coordenadas X Y en la cual se pude trazar una recta y
cuyos puntos más cercanos de una recta hablaran de una correlación más fuerte, ha esta recta
se le denomina recta de regresión, que puede ser positiva o negativa, la primera
contundencia a aumentar y la segunda en descenso o decreciente.

También se puede describir un diagrama de dispersión en coordenadas cartesianas


valores como en la distribución diváriate, en donde la nube de puntos representa los pares de
valores.
11

GRAFICOS DE RECTA DE REGRESIÒN

Por último se pueden graficar las líneas de tendencia, herramienta muy útil para
el mercadeo porque es utilizada para evaluar la resistencia que proyectan los precios. Cuando
una línea de tendencia central se rompe ya sea con tendencia al alza o en la baja es porque
ocurre un cambio en los precios, por lo tanto las líneas de tendencia pueden ser alcista cuando
se unen los puntos sucesivos y bajista cuando se unen los puntos máximos.
También existen gráficos que representan la dispersión de datos dentro de las
coordenadas cartesianas, ósea las nubes de puntos y que pueden darse según la relación que
representa, que puede ser lineal, exponencial y sin relación, esta última cuando los puntos
están dispersos en todo el cuadro sin agruparse lo cual sugiere que no hay relación.
12

Los gráficos siguientes nos muestran esta relación:

Matemáticamente las ecuaciones serían:


Ajuste Lineal: Y = Bx + A
Ajuste Logarítmico: Y =BLnX + A
Ajuste Exponencial: Y = AC BX
En el modelo de regresión lineal simple se utiliza la técnica de estimación de los
mínimos cuadrados, este modelo tiene solo una variable de predicción y se supone una
ecuación de regresión lineal.
En el siguiente ejemplo la relación entre la calificación y salario la variable repuesta
es el salario inicial y la variable predictiva o de predicción es la calificación promedia, si se
desea determinar una ecuación de regresión para el salario inicial promedio como
una función de la calificación promedio se podrá graficar y procesar los datos en
una computadora, estos datos son:
CP = Calificación Promedio
SI = Salario Inicial
13

De este grupo de datos se obtiene el siguiente gráfico de dispersión


CP SI

2.95 18.50

3.20 20.00

3.40 21.10

3.60 22.40

3.20 21.20

2.85 15.00

3.10 18.00

2.85 18.80

3.05 15.70

2.70 14.40

2.75 15.50

3.10 17.20

3.15 19.00

2.95 17.20

2.75 16.80
14

CASOS PRÁCTICOS

Ejercicio 1

Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente,


14, 20, 32, 42 y 44 kilos.

1 Hallar la ecuación de la recta de regresión de la edad sobre el


peso.

2 ¿Cuál sería el peso aproximado de un niño de seis años?

xi yi x i2 y i2 xi · yi

2 14 4 1 96 28

3 20 9 4 00 60

5 32 25 1 024 1 60

7 42 49 1 764 2 94

8 44 64 1 936 3 52
15

25 1 52 1 51 5 320 8 94
16

Ejercicio 2

U n centro comercial sabe en función de la distancia, en kilómetros, a


la que se sitúe de un núcleo de población, acuden los clientes, en
cientos, que figuran en la tabla:

Nº de Clientes (X) Distancia (Y)

8 15

7 19

6 25

4 23

2 34

1 40

1. Calcular el coeficiente de correlación lineal .

2. S i el centro comercial se sitúa a 2 km, ¿cuántos clientes puede


esperar?

3. S i desea recibir a 5 clientes, ¿a qué distancia del núcleo de


población debe situarse?
17

xi yi xi ·yi x i2 y i2

8 15 1 20 64 2 25

7 19 1 33 49 3 61

6 25 1 50 36 6 25

4 23 92 16 5 29

2 34 68 4 1 156

1 40 40 1 1 600

28 1 56 6 03 1 70 4 496
18

C o r rela ció n ne ga ti va m uy f ue r te .
19

CONCLUSIONES

Las técnicas de regresión y correlación cuantifican la asociación estadística entre dos


o más variables. La regresión lineal simple expresa la relación entre una variable dependiente
Y y una variable independiente X, en términos de la pendiente y la intersección de la línea
que mejor se ajuste a las variables.

La correlación simple expresa el grado o la cercanía de la relación entre las dos


variables en términos de un coeficiente de correlación que proporciona una medida indirecta
de la variabilidad de los puntos alrededor de la mejor línea de ajuste- Ni la regresión ni la
correlación dan pruebas de relaciones causa – efecto.
20

RECOMENDACIONES

1. Es imprescindible continuar trabajos de investigación en esta temática, pues existen


muchas otras técnicas y métodos estadísticos que podrían ser utilizados en una
investigación científica.

2. Combinar el uso de regresión múltiple con otra técnica estadística, lo cual permitirá
obtener mejores modelos para usarlos en la predicción de variables.
21

BIBLIOGRAFIA

 Vommi : MJ ¿Qué es un monografía? [citada 13 08 2005] dirección:


http://www.mografias.com/trabajos7/beren/beren.shtml)
 Torino H. Resumen del libro de Estadísticas de Berenson y Levine [citada 15 08
2005] dirección: http:// www.mografias.com/trabajos13 /beren/beren.shtml)
 Ortega Calvom, Cayuela Domínguez A, Regresión Logística No condicionada y
tamaño de muestra: una revisión bibliográfica. Revista Española de salud Publica
[serie en internet] 2002 Marzo [citada 16 08 05] Vol. 70Nº2 [12 paginas] dirección
http://www.scielospphp?piol=s1135-5727200200020000&scrip[=sciarte
 Galdos Cálculo y Estadística III Edición Única. Grupo La Republica. Lima Perú;
2005.
 Cannavos G. Probabilidad y Estadística Aplicación y métodos. Ed. en español Mc
GRAW- HILL/INTERAMERICANA DE MEXICO.1995.

También podría gustarte