Está en la página 1de 33

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA (UNAD)

ESTADSTICA DESCRIPTIVA

REGRESIN Y CORRELACIN LINEAL MOMENTO 3

PRESENTADO POR:

SERGIO DANILO VELSQUEZ CARDOZO

XIOMARA MARCELA SEPLVEDA OSORIO

YOLIMA VARGAS ROJAS

TUTOR: NESTOR JAVIER RODRIGUEZ

GRUPO: 100105_333

MAYO 11 / 2016
INTRODUCCIN

La finalidad del presente trabajo es describir cada una de las temticas mediante el

desarrollo de ejercicios, que sirven para probar las propiedades de correlacin y regresin

lineal simple y compuesta, por medio del proceso de solucin de problemas para generar

conocimientos, destrezas y as poner a prueba nuevos elementos de estadstica descriptiva

implementando estrategias que conllevan a mejorar diversas situaciones del individuo, de la

comunidad y organizaciones.

Para el desarrollo de esta actividad fue de vital importancia, tener un amplio conocimiento

de las diferentes Unidades presentadas en el mdulo del curso, para lograr un mayor

conocimiento y desarrollo sistemtico de los procesos de recoleccin, procesamiento y

anlisis de datos estadsticos, como las regresiones lineales y la aplicacin de las medidas

variantes de representatividad de datos, las cuales son utilizadas en diversas ocasiones

describiendo as modelos matemticos y ayudando al clculo de situaciones futuras.

La correlacin y regresin son conceptos estadsticos fundamentales, pues extienden la idea

de dependencia funcional y se relacionan con muchos otros como los de variacin,

distribucin, centralizacin o dispersin.


JUSTIFICACIN

Apoyados en la base de datos suministrada por la Secretaria de transito de la ciudad de

Medelln, la cual da a conocer informacin relevante sobre los accidentes de trnsito en el

territorio nacional, permite al grupo colaborativo analizar de manera detallada la

informacin con la intensin de dar posibles soluciones a dicha problemtica por medio de

un conjunto de variables, las cuales son representadas por diagramas de dispersin que

permite conocer e interpretar de una manera ms clara si existe o no relacin entre dichas

variables, para ello es indispensable identificar y desarrollar modelos matemticos que se

ajusten al problema, como la ecuacin lineal, mtodo de mnimos cuadrados, el coeficiente

de correlacin y la recta de regresin.


OBJETIVOS

OBJETIVO GENERAL

Implementar el modelo o modelos matemticos ms apropiados, que se ajusten al problema

para dar soluciones a dicha problemtica.

OBJETIVOS ESPECIFICOS

Tener claros los conceptos bsicos sobre regresin y correlacin lineal simple y

mltiple, para identificarlos y aplicarlos dentro del problema de estudio.

Llevar a cabo un anlisis detallado sobre los accidentes de trnsito en el territorio

nacional, de acuerdo con la base de datos de la Secretaria de Transito de Medelln.

Desarrollar diagramas de dispersin, para obtener informacin ms detallada sobre el

problema de estudio.
LABORATORIO DE REGRESIN Y CORRELACIN LINEAL

1. El rendimiento del producto de un proceso qumico est relacionado con la


temperatura de operacin del proceso. Se desea establecer la relacin que existe entre
la pureza (y) del oxgeno producido y el porcentaje de hidrocarburo (x) que est
presente en el condensador principal en un proceso de destilacin, de acuerdo con los
siguientes datos:

X Y
(% de Hidrocarburos) (Pureza)

0,99 90,01
1,02 89,05
1,15 91,43
1,29 93,74
1,46 96,73
1,36 94,45
0,87 87,59
1,23 91,77
1,55 99,42
1,4 93,65
1,19 93,54
1,15 92,52
0,98 90,56
1,01 89,54
1,11 89,85
1,2 90,39
1,26 93,25
1,32 93,41
1,43 94,98
0,95 87,33
a) Realice el diagrama de dispersin y determine el tipo de asociacin entre las variables.

Tipo de asociacin entre las variables:


Segn la grfica, se tiene que el valor arrojado del coeficiente de determinacin R2 que
equivale a 87.74%, muestra claramente que las variables X y Y no presentan dispersin
entre s, debido a que dichos porcentajes son directamente proporcionales, ya que como se
puede observar al aumentar el porcentaje de hidrocarburos tambin aumenta el porcentaje
de pureza.

b) Encuentre el modelo matemtico que permite predecir el efecto de una variable sobre
la otra. Es confiable?

Para poder predecir el efecto de una variable sobre la otra se debe plantear el siguiente
modelo matemtico haciendo uso de la ecuacin lineal que corresponde a:

= +
= 14.947 + 74.283

El valor del coeficiente de determinacin que equivale a R2 = 0, 87744, al hacerle una


aproximacin su valor es igual a 1, por lo tanto el modelo matemtico es de alta
confiabilidad.

c) Determine el porcentaje de explicacin del modelo y el grado de relacin de las dos


variables.

El porcentaje de explicacin del modelo equivale al 0, 87744 al hallar el valor porcentual


tenemos lo siguiente:

0, 87744 x 100% = 87,74%

El grado de relacin de las dos variables es igual a 93,66% ya que se obtiene por medio de
la raz cuadrada del coeficiente de determinacin de la siguiente manera:

R2 = 0, 87744 = 0,9366

Al hallar el valor porcentual de 0,9366 arroja el resultado de 93,66% de la siguiente


manera:

0,9366 x 100% = 93,66 %, por lo tanto las variables estn relacionadas entre si.

d) Cul es el porcentaje de hidrocarburo cuando la pureza del oxgeno es igual a 91,3?

= ,

= 14.947 + 74.283

, = 14,947 + 74,283

91,3 74,283 = 14,947


91,3 74,283
=
14,947

= 1,13
2. El nmero de libras de vapor (y) consumidas mensualmente por una planta qumica, se
o
relaciona con la temperatura ambiental promedio (en F). Para el ao 2014, se
registraron los siguientes valores de temperatura y consumo anual.

TEMPERATURA
MES CONSUMO DE VAPOR (LB)
(OF)

Ene. 21 185,79
Feb. 24 214,47
Mar. 32 288,03
Abr. 47 424,84
May. 50 455
Jun. 59 539
Jul. 68 621,55
Ago. 74 675,06
Sep. 62 562,03
Oct. 50 452,93
Nov. 41 369,95
Dic. 30 273,98

a) Realice el diagrama de dispersin y determine el tipo de asociacin entre las variables.

REGISTROS DE TEMPERATURA Y CONSUMOS DE VAPOR


800
y = 9.2087x - 6.3184
700
R = 0.9999
600
Consumo de Vapor

500

400

300

200

100

0
0 10 20 30 40 50 60 70 80
Temperatura
b) Ajuste un modelo matemtico que permita predecir el efecto de una variable sobre la
otra. Es confiable

El modelo matemtico que ms se ajusta para predecir el efecto de una variable sobre la
otra es el siguiente:

y= ax+b
y= 9,2087x-6,3184
Se puede ver claramente que el valor del coeficiente de determinacin R2 que es igual a
0,99986 es muy cercano a 1, por lo tanto el modelo matemtico empleado es de excelente
grado de confiabilidad para las dos variables de consumo de vapor (Lb) y de temperatura
(oF).

c) Determine el porcentaje de explicacin del modelo y el grado de relacin de las dos


variables.

La explicacin del porcentaje del modelo el cual equivale 0,9999 , el valor porcentual es el
siguiente:

= 0,9999 100%
= 99,99%

Los dos valores el grado de relacin es 99,99, este resultado se obtiene utilizando la
siguiente formula:

: 2

: 0,9999

: 0,9999499

= 0,9999499 100%

= 99,99%

El nivel de relacin de las variables es alto y positivo.


3. Los investigadores estn estudiando la correlacin entre la obesidad y la respuesta
individual al dolor. La obesidad se mide como porcentaje sobre el peso ideal (x). La
respuesta al dolor se mide utilizando el umbral de reflejo de reflexin nociceptiva (y)
que es una medida de sensacin de punzada. Obsrvese que ambas, X e Y, son
variables aleatorias

x y
(porcentaje de sobrepeso) (umbral de reflejo de flexin
nociceptiva)

89 2
90 3
75 4
30 4,5
51 5,5
75 7
62 9
45 13
90 15
20 14

a. Realice el diagrama de dispersin y determine el tipo de asociacin entre las variables.

% sobre peso vs umbral de reflejo de flexion


16 y = -0.0629x + 11.642
14 R = 0.1115
12
10
8
6
4
2
0
0 20 40 60 80 100
2 .
=
2

799,5 11,64195 . 77 + 0,06287 . 4461,5 183,55467


= =
10 2 8

= 22,9443 = 4,79002

2 799,5
= 2 = (7,7)2 = 79,95 59,29 = 20,66
10
4,79002
= 1 2 = 1 = 1 0,23185 = 0,76815
20,66

b. Ajuste un modelo matemtico que permita predecir el efecto de una variable sobre la
otra. Es confiable?

Como es una tendencia lineal partimos del modelo de una ecuacin lineal y= a+bx

Hallamos a y b

. 10 . 4461,5 627 . 77 3664


= 2 2
= 2
= = 0,06287
( ) 10 . 45141 (627) 58281

77 + 0,06287 . 627 116,4195


= = = = 11,64195
10 10

y=11,64195-0,06287x si es confiable

c) Determine el porcentaje de explicacin del modelo y el grado de relacin de las dos


variables.

Como 2 = 0,76815 podemos decir que el porcentaje es de 76,81%, lo cual quiere decir
que el modelo explica el 76,81% de la informacin. Lo cual nos dice que la correlacin es
regular
d) Cul es el umbral de reflejo de flexin nociceptiva, cuando hay un porcentaje de
sobrepeso, de 40?

= 11,64195 0.06287 = 11,64195 0.06287. (40) = 11,64195 2,5678

= 9,07415
REGRESION Y CORRELACION LINEAL SIMPLE

a) Identificar dos variables cuantitativas de la situacin estudiada que puedan estar


relacionadas.

Independiente Dependiente
VELOCIDAD EDAD
(X) (Y)

66 29
111 38
66 52
80 46
75 21
66 18
45 54
88 33
55 52
70 38
105 46
88 29
69 17
48 22
70 55
83 60
138 33
68 32
77 46
81 55
50 19
88 21
71 42
55 46
78 36
80 35
68 43
74 32
75 24
83 44
65 31
60 50
83 30
95 48
86 53
68 35
55 46
88 45
63 32
70 45
78 31
83 33
138 23
55 56
66 18
108 54
69 33
72 52
74 38
69 46
79 29
65 17
74 22
77 54
51 17
75 21
72 46
77 55
67 19
55 21
40 42
73 46
69 36
70 35
75 56
55 22
69 23
50 45
73 43
38 34
60 38
50 18
100 54
75 33
80 52
95 38
70 46
66 29
69 17
67 22
83 34
70 46
150 55
55 19
66 21
68 42
79 46
79 36
60 35
33 55
85 22
80 18
81 54
62 33
79 52
76 38
80 46
70 29
80 17
83 22
68 38
79 52
79 46
80 21
75 18
66 54
45 60
77 33
81 32
50 46
88 55
71 19
55 21
78 42
67 42
55 46
40 36
73 35
69 56
70 22

1. Realizar el diagrama de dispersin de dichas variables y determinar el tipo de


Asociacin entre las variables.

INDICES DE ACCIDENTALIDAD EN LA CIUDAD DE MEDELLIN


70
y = 0.0624x + 32.469
60 R = 0.0075

50

40
EDAD

30

20

10

0
0 20 40 60 80 100 120 140 160
VELOCIDAD

a) Tipo de asociacin de las variables:

De la grfica se concluye que el valor del coeficiente de determinacin 2 que equivale a


0,00755 es muy cercano a cero, por lo tanto el modelo matemtico empleado no es
confiable ya que su grado de confiabilidad es muy bajo.
b) Encuentre el modelo matemtico que permite predecir el efecto de una variable
sobre la otra. Es confiable

() = +
= 0,0624 + 32,469

= 2 100%

= 0,0075 100%

= 0,75%

El modelo matemtico no es confiable por que el coeficiente de determinacin es muy

bajo y no representa el valor que ah entre las dos variables.

c) Determine el porcentaje de explicacin del modelo y el grado de relacin de las dos


variables.

= 2

= 0,0075

= 0,08

No hay correlacin entre las variables de Velocidad y Edad.


VELOCIDAD (X) NUMERO DE HERIDOS (Y)
66 3
111 2
66 1
80 2
75 8
66 0
45 0
88 4
55 2
70 6
105 4
88 1
69 2
48 0
70 2
83 2
138 3
68 4
77 2
81 5
50 2
88 4
71 2
55 0
78 2
80 1
68 1
74 3
75 4
83 9
65 0
60 3
83 15
95 2
86 2
68 0
55 1
88 0
63 2
70 0
78 4
83 2
138 3
55 0
66 2
108 4
69 1
72 5
74 3
69 6
79 11
65 2
74 3
77 2
51 1
75 4
72 2
77 6
67 4
55 4
40 2
73 3
69 2
70 0
75 1
55 4
69 1
50 3
73 2
38 0
60 3
50 0
100 4
75 2
80 6
95 4
70 1
66 1
69 1
67 4
83 1
70 2
150 2
55 0
66 1
68 6
79 3
79 2
60 0
33 0
85 2
80 4
81 18
62 9
79 2
76 2
80 2
70 1
80 3
83 2
68 2
79 1
79 2
80 8
75 0
66 0
45 2
77 3
81 4
50 2
88 5
71 2
55 4
78 2
67 2
55 3
40 2
73 0
69 1
70 4
INDICE DE HERIDOS VS VELOCIDAD
20
y = 0.033x + 0.3492

NUMERO DE HERIDOS
R = 0.0453
15

10

0
0 50 100 150 200
VELOCIDAD

b) Tipo de asociacin de las variables:

De la grfica se concluye que el valor del coeficiente de determinacin 2 que equivale a


0,04526 es muy cercano a cero, por lo tanto el modelo matemtico empleado no es
confiable ya que su grado de confiabilidad es muy bajo.

Encuentre el modelo matemtico que permite predecir el efecto de una variable sobre

la otra. Es confiable

El modelo matemtico que permite predecir el efecto de una variable sobre la otra es por
medio de la siguiente ecuacin lineal:

y= ax+b

para desarrollar dicha ecuacin se hace de la siguiente manera:

y= 0,033 + 0,3492
Para conocer si el modelo matemtico es confiable, primero se debe hallar el valor
porcentual del coeficiente de determinacin 2 desarrollando la siguiente formula:

= 2 *100%

= 0,04526 * 100%

= 4,52%

Segn el resultado porcentual obtenido del coeficiente de determinacin no es confiable, ya


que la relacin entre las dos variables de nmero de heridos y velocidad es mnima, por lo
tanto 4,52% no representa el valor entre estas dos variables.

Determine el porcentaje de explicacin del modelo y el grado de relacin de las dos

variables.

Para determinar el porcentaje de explicacin del modelo se halla, por medio de la raz

cuadrada del coeficiente de correlacin as:

r= 0,04526

r= 0.2127

Se puede ver claramente que no hay correlacin entre las variables de nmero de

heridos y velocidad.
REGRESIN Y CORRELACIN LINEAL MLTIPLE

1. Identificar una variable cuantitativa dependiente y varias variables independientes del


estudio de investigacin

INDEPENDIENTE DEPENDIENTE
VELOCIDAD NUMERO DE HERIDOS NUMERO DE MUERTOS
Y X1 X2
66 3 0
111 2 1
66 1 1
80 2 0
75 8 0
66 0 2
45 0 1
88 4 2
55 2 0
70 6 1
105 4 0
88 1 3
69 2 1
48 0 2
70 2 1
83 2 0
138 3 0
68 4 1
77 2 1
81 5 1
50 2 0
88 4 2
71 2 1
55 0 3
78 2 1
80 1 0
68 1 1
74 3 0
75 4 1
83 9 2
65 0 2
60 3 2
83 15 1
95 2 0
86 2 0
68 0 2
55 1 1
88 0 4
63 2 0
70 0 2
78 4 0
83 2 2
138 3 2
55 0 1
66 2 0
108 4 1
69 1 0
72 5 1
74 3 0
69 6 0
79 11 1
65 2 1
74 3 0
77 2 1
51 1 1
75 4 0
72 2 0
77 6 1
67 4 0
55 4 1
40 2 0
73 3 1
69 2 0
70 0 2
75 1 1
55 4 1
69 1 1
50 3 0
73 2 0
38 0 1
60 3 0
50 0 2
100 4 1
75 2 1
80 6 0
95 4 0
70 1 2
66 1 0
69 1 1
67 4 0
83 1 1
70 2 0
150 2 0
55 0 2
66 1 3
68 6 1
79 3 0
79 2 0
60 0 1
33 0 2
85 2 0
80 4 1
81 18 2
62 9 0
79 2 1
76 2 2
80 2 0
70 1 1
80 3 0
83 2 0
68 2 1
79 1 1
79 2 0
80 8 0
75 0 2
66 0 1
45 2 0
77 3 0
81 4 1
50 2 1
88 5 1
71 2 0
55 4 2
78 2 1
67 2 0
55 3 1
40 2 0
73 0 2
69 1 1
70 4 1
a) Realizar el diagrama de dispersin de dichas variables.

RELACION VELOCIDAD VS NUEMRO DE HERIDOS


160
140
y = 1.3725x + 69.034
R = 0.0453
120
VELOCIDAD

100
80
60
40
20
0
0 5 10 15 20

NUMERO DE HERIDOS

RELACION VELOCIDAD VS NUMERO DE MUERTOS


4.5
4 y = -0.0029x + 1.0671
3.5 R = 0.0035
3
VELOCIDAD

2.5
2
1.5
1
0.5
0
0 20 40 60 80 100 120 140 160
NUMERO DE MUERTOS
2. Calcular la recta de regresin y el coeficiente de correlacin para probar estadsticamente su relacin.

Resumen

Estadsticas de la regresin

Coeficiente de correlacin mltiple 0,214781962


Coeficiente de determinacin R^2 0,046131291
R^2 ajustado 0,029825843
Error tpico 17,38371916
Observaciones 120

ANLISIS DE VARIANZA

Grados de libertad Promedio de los F Valor crtico de


Suma de cuadrados cuadrados F
Regresin 2 1709,92974 854,9648698 2,829194961 0,063107827
Residuos 117 35356,66193 302,1936917
Total 119 37066,59167

Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
Intercepcin 69,63852106 2,915724409 23,88378025 8,27009E-47 63,86408165 75,41296046 63,86408165 75,41296046
Variable X 1 1,345334714 0,588447875 2,286242793 0,024039363 0,179944533 2,510724895 0,179944533 2,510724895
Variable X 2 -0,617310509 1,887065225 -0,327127277 0,744156165 -4,354544302 3,119923284 -4,354544302 3,119923284

= + +

= 69,6385 + 1,34531 0,61732


COEFICIENTE DE DETERMINACIN

= 0,0461 Por ser 0,0 el modelo matemtico obtenido no es confiable entre las variables que se
trabaj.

= 0,0461 100%

= 4,6% El modelo matemtico explica el 4,6% de que no es confiable la informacin.

COEFICIENTE DE CORRELACIN MULTIPLE

El coeficiente de correlacin mltiple se halla as:

= 2

= 0,0461

= 0,214

= 0,214 100%

= 21,4%

1.La correlacin entre las variables es mnima, ya que su valor de coeficiente es de 0,214.

2.La correlacin entre las variables es mnima ya que obtiene el 21,4% de la informacin.

RELACIN ENTRE LAS VARIABLES

Los resultados, no tienen ninguna relacin entre las variables que se trabaj como son Velocidad como
variable independiente y Nmero de Muertos y Nmero de Heridos como variable dependiente
RELACIN DE LA INFORMACIN CON EL PROBLEMA

Dichos resultados indican que las variables no estn relacionadas entre s, segn la frmula de
regresin mltiple :

y= a + b1x1 + b2x2

y= 69,6385+1,3453x1 - 0,6173x2

Segn este modelo matemtico, explica la mnima confiabilidad del 2,9% entre las variables, ya

que estas variables tienen una correlacin mnima del 0,214 con un porcentaje total del 21,4% de la

informacin
CONCLUSIONES

En este trabajo se realiz el anlisis de los datos que nos da el sistema de movilidad de

Medelln correspondiente a la accidentalidad se realiz con diferentes variables y se

trabaj regresin lineal y regresin correlacin mltiple y nos dan muy bajo el

coeficiente de correlacin en el cual la informacin no es considera verdadera.

Este trabajo nos ayuda a como calcular el coeficiente de correlacin y de determinacin.

Tambin hemos podido determinar la lnea de regresin de mnimos cuadrados.

Se adquieren destrezas para el manejo de programas de anlisis estadsticos que

permiten el ahorro de tiempo y esfuerzo para realizar clculos exactos sobre cantidades

grandes de datos.

La informacin obtenida a travs de instrumentos de recoleccin de datos es muy

tediosa para analizar, por tal razn es necesario procesar esa informacin para poderla

interpretar claramente.

Las medias de dispersin nos permiten medir datos grandes que se encuentran alejados

de la tendencia central, aquellas medidas de tendencia central no siempre proporcionan

conclusiones verdaderas frente a un conjunto serie de datos con respecto a una situacin

establecida.

El coeficiente de determinacin en el anlisis de datos, es de gran importancia ya que

este nos indica si existe algun tipo de relacin entre las variables.

Los modelos matemticos son los que no llevn a determinar si la informacin

obtenida tiene un alto o bajo grado de confiabilidad, dependiendo de dichos modelos se

podra dar solucin a cualquier problemtica.


BIBLIOGRAFA

ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERA

CONTENIDO DIDCTICO DEL CURSO: 100105 Estadstica Descriptiva.

http://conferencia2.unad.edu.co/p7ewzrvp58o/?launcher=false&fcsContent=true&p

bMode=normal

http://estadisticadescriptivaunad100105.blogspot.com.co/

Regresin y Correlacin Mltiple

https://www.youtube.com/watch?v=LgFYGbH1NJk

También podría gustarte