Está en la página 1de 25

ESTADISTICA DESCRIPTIVA - (100105A_614)

MARÍA EMMA SÁNCHEZ MEDINA

PRESENTADO A: JOSE FERNANDO VELANDIA

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA

NEIVA – HUILA

2019
INTRODUCCIÓN

Esta actividad se desarrolla como evidencia del aprendizaje de la Unidad 2: Paso


4 Descripción de la Información. Detallar y Relacionar variables del caso de
estudio utilizando variables cuantitativas a fin de obtener la regresión y
correlación lineal simple De esta manera se determina la importancia de calcular
Medidas de Dispersión, que permiten obtener resultados de dispersión de un
conjunto de datos con respecto a su media facilitando así el análisis de la
relación entre dos variables cuantitativas a partir de la regresión lineal simple, esta
actividad consta de dos fases, una en la que debe seleccionar una serie de
ejercicios a fin de desarrollar el laboratorio de regresión y correlación lineal simple
y una fase en donde identificará, calculará e interpretará las medidas bivariantes,
en función de la descripción de la problemática, a partir del trabajo realizado con
variables cuantitativas, de la base de datos denominada: Desempleo en
Colombia_2019 (16-4).
JUSTIFICACIÓN

Las técnicas estadísticas bivariantes permiten el análisis de dos características o


variables con el propósito de detectar posibles relaciones entre ellas. La
naturaleza (nominal, ordinal o numérica) de las características objeto de estudio
determinará las herramientas más adecuadas para su análisis. Esta técnica
también permite saber si una variable está en función de la otra.

OBJETIVOS
Determinar la relación entre dos o más variables a partir de la regresión lineal
simple y la regresión múltiple.

 Calcular e interpretar adecuadamente las medidas estadísticas bivariantes.

 Determinar la relación entre dos o más variables propias del problema,


asociándolas en su contexto cotidiano.

Actividades a desarrollar
Actividad 1. Mapa Mental
Resumir mediante un mapa mental las medidas estadísticas Bivariantes de
regresión y correlación.

Actividad 2. Definición de Conceptos.


Definir brevemente los conceptos básicos asociados a Regresión y Correlación
como:
 Diagrama de dispersión.
 Correlación lineal simple.
 Coeficiente de determinación R2
 Correlación positiva y correlación negativa
 ¿Qué es el coeficiente de correlación lineal y qué nos ayuda a medir?

 Diagrama de dispersión.
Un diagrama de dispersión o gráfica de dispersión o gráfico de burbujas es un
tipo de diagrama matemático que utiliza las coordenadas cartesianas para
mostrar los valores de dos variables para un conjunto de datos.
 Correlación lineal simple
La correlación, también conocida como coeficiente de correlación lineal (de
Pearson), es una medida de regresión que pretende cuantificar el grado de
variación conjunta entre dos variables.
Por tanto, es una medida estadística que cuantifica la dependencia lineal
entre dos variables, es decir, si se representan en un diagrama de dispersión
los valores que toman dos variables, el coeficiente de correlación lineal
señalará lo bien o lo mal que el conjunto de puntos representados se
aproxima a una recta.
De una forma menos coloquial, la podemos definir como el número que mide
el grado de intensidad y el sentido de la relación entre dos variables.
 Coeficiente de determinación R2
El coeficiente de determinación, se define como la proporción de la varianza
total de la variable explicada por la regresión. El coeficiente de determinación,
también llamado R cuadrado, refleja la bondad del ajuste de un modelo a la
variable que pretender explicar.
Es importante saber que el resultado del coeficiente de determinación oscila
entre 0 y 1. Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del
modelo a la variable que estamos intentando explicar. De forma inversa,
cuanto más cerca de cero, menos ajustado estará el modelo y, por tanto,
menos fiable será.
 Correlación positiva y correlación negativa

**Si r < 0 Hay correlación negativa : las dos variables se correlacionan en


sentido inverso. A valores altos de una de ellas le suelen corresponder valor
bajos de la otra y viceversa. Cuánto más próximo a -1 esté el coeficiente de
correlación más patente será esta covariación extrema. Si r= -1 hablaremos
de correlación negativa perfecta lo que supone una determinación absoluta
entre las dos variables ( en sentido inverso): Existe una relación funcional
perfecta entre ambas(una relación lineal de pendiente negativa).

** Si r > 0 Hay correlación positiva: las dos variables se correlacionan en


sentido directo. A valores altos de una le corresponden valores altos de la
otra e igualmente con los valores bajos. Cuánto más próximo a +1 esté el
coeficiente de correlación más patente será esta covariación. Si r = 1
hablaremos de correlación positiva perfecta lo que supone una
determinación absoluta entre las dos variables (en sentido directo):Existe una
relación lineal perfecta ( con pendiente positiva).

** Si r = 0 se dice que las variables están incorrelacionadas: no puede


establecerse ningún sentido de covariación.

 ¿Qué es el coeficiente de correlación lineal y qué nos ayuda a medir?


El Coeficiente de correlación es una medida que permite conocer el grado de
asociación lineal entre dos variables cuantitativas (X, Y).
En los siguientes Diagramas de dispersión se puede observar que existe una
relación lineal entre la variable X y la variable Y.
Sin embargo si trazamos una línea recta en los diagramas.

Podemos
observar que en un diagrama B los puntos se acercan más a la recta, caso
contrario en el diagrama A, los puntos están más alejados. Entonces
podemos decir que la relación lineal del diagrama A es más débil con
comparación a la relación que existe en el diagrama B.

Un diagrama dispersión no nos da certeza de que tan débil o fuerte es la


relación lineal, necesitamos una medida que nos de la fuerza de la asociación
y la dirección que toma esta relación.
Para esto sirve el coeficiente de correlación que está dado por la siguiente
formula.

¿De donde sacamos estos valores?

Recordar entonces que el coeficiente de relación lineal, mide la fuerza y el


sentido de la relación lineal entre 2 variables cuantitativas.

Luego de haber aplicado la formula, según el resultado se puede clasificar en


este rango.
Entre más cercano es a 1 es más fuerte, entre más cercano a 0 es débil
hasta llegar hacerse nula, si los valores del coeficiente de relación es -1 es
una Asociación lineal perfecta Negativa, si es 0 no existe relación y si es 1 es
una Asociación Lineal perfecta Positiva.

¿Entonces como identificamos cuan dispersos son los puntos de la línea


recta?
Con la siguiente tabla podemos clasificar nuestros resultados y responder
esta interroga
Actividad 3. Realizar el laboratorio de regresión y correlación lineal
Opción Ejercicio 1 Ejercicio 2 Ejercicio 3 Estudiante
1 1.1. Sal-Tensión 1.4. X - Y 1.9. Sobrepeso-R María Emma
Sánchez
Medina

EJERCICIOS

1.1. Sal-Tensión. Se quiere estudiar la asociación entre consumo de sal y


tensión arterial. A una serie de voluntarios se les administra distintas dosis
de sal en su dieta y se mide su tensión arterial un tiempo después.

X (sal) Y (Tensión)
1,6 98
2,3 102
3,3 109
4,2 113
4,6 115
5,0 120
a) Realice el diagrama de dispersión y determine el tipo de asociación entre las
variables
140

120  E
f(x) = 4.37 x + 94.2
100 R² = 0.98 l

80
Tension

60 Y (Tensión)
Linear (Y (Tensión) )
40

20

0
0 1 2 3 4 5 6 7
Sal

tipo de asociación del diagrama de dispersión es LINEAL.

b) Encuentre el modelo matemático que permite predecir el efecto de una variable


sobre la otra. ¿Es confiable?

El modelo matemático que permite predecir el efecto de una variable sobre la otra
es:

Y=4.371x+94.2
R² = 0.979

Se puede asegurar que la ecuación de la recta es confiable porque el R² está


cercano a 1 y tiene un grado alto de confiabilidad.

c) Determine el grado de relación de las dos variables.

El R² afirma además que el modelo explica el 97.9% de la información y el valor de


r coeficiente de correlación lineal es excelente porque el 0.979 está muy cercano
al extremo 1 positivo que es la correlación perfecta positiva.

d) Si a un paciente se le administra una dosis de sal de 5,6. ¿Cuál es la tensión


arterial esperada?
Para hallar el valor de la tensión arterial esperada para una dosis de sal de 6.5
debemos reemplazar este valor en la formula hallada.
Y =¿4.371*6.5)+94.2=122.61
Según lo anterior para dicha dosis de sal la tensión arterial esperada es de 126.6

1.2. X-Y. En un nuevo proceso artesanal de fabricación de cierto artículo que


está implantado, se ha considerado que era importante ir anotando
periódicamente el tiempo medio (medido en minutos) que se utiliza para
realizar una pieza y el número de días desde que empezó dicho proceso de
fabricación. Con ello, se pretende analizar como los operarios van
adaptándose al nuevo proceso mejorando paulatinamente su proceso de
producción.

Los siguientes datos representan dicha situación:

X 12 23 35 42 53 65 70
Y 45 30 27 25 23 21 20

a. Identifique la variable dependiente (y) y la variable independiente (x), realice el


diagrama de dispersión y determine el tipo de asociación entre las variables
50
45
45
40
35
30
30 27
25
25 23
21
X

20
20
15
10
5
0
0 10 20 30 40 50 60 70 80
Y

El tipo de asociación del diagrama de dispersión es LINEAL. Son variables


inversamente proporcionales.

b. Encuentre el modelo matemático que permite predecir el efecto de una variable


sobre la otra. ¿Es confiable?

y=-0.356x+42.56
R² = 0.796

Se puede asegurar que la ecuación de la recta tiene un grado de confianza


mediana porque el R² está un poco alejado a 1, teniendo entonces un grado
medio alto de confiabilidad.
c. Determine el grado de correlación de las dos variables.

El R² afirma además que el modelo explica el 79.6% de la información y el valor de


r coeficiente de correlación lineal es sobresaliente porque el 0.796 está un poco
alejado al extremo 1 positivo que es la correlación perfecta positiva.

d. ¿Qué tiempo deberá tardarse un empleado cuando lleven 90 días?


Para hallar el valor del tiempo de 100 días debemos reemplazar este valor en la
formula hallada.
Y = (−0.356∗100 )+ 42.56= 6.96 minutos
Según lo anterior para dicho número de días se espera realizar para una pieza el
obrero se demore 6.96 minutos.

1.3. Sobrepeso-R. Los investigadores están estudiando la correlación entre la


obesidad y la respuesta individual al dolor. La obesidad se mide como
porcentaje sobre el peso ideal (x). La respuesta al dolor se mide utilizando
el umbral de reflejo de reflexión nociceptiva (y) que es una medida de
sensación de punzada. Obsérvese que ambas, X e Y, son variables
aleatorias

%
Umbral de Reflejo.
Sobrepeso.
99 2,0
90 3,0
20 4,0
75 9,5
30 11,5
62 9,0
75 9,0
90 12,5
45 8,0
50 19,0
a.Realice el diagrama de dispersión y determine el tipo de asociación entre las
variables.

20 19

18
16
14 12.5
11.5
12
9 9.5
9
10
X

8
8
6
4
4 3
2
2
0
10 20 30 40 50 60 70 80 90 100 110
Y

De acuerdo al análisis de la gráfica y el resultado del coeficiente de correlación se


determina que la relación de las dos variables es inversa o negativa fuerte ya que
una variable aumenta y la otra disminuye, en este caso de estudio, sin embargo
teniendo en cuenta que los valores posibles de una variable aleatoria pueden
representar los posibles resultados de un experimento aún no realizado, según
este estudio a mayor porcentaje de obesidad menor umbral de reflejo.

b. Ajuste un modelo matemático que permita predecir el efecto de una variable


sobre la otra. ¿Es confiable?

y = -0,0451x + 11,615
R² = 0,0573

c. Determine el porcentaje de explicación del modelo y el grado de relación de las


dos variables.

Teniendo en cuenta los resultados obtenidos en el software se determina el


siguiente modelo matemático el cual tiene un porcentaje de confiabilidad de
0,0573%. De esta manera y teniendo en cuenta ese valor numérico el estudio y los
datos obtenidos no son confiables.

d. ¿Cuál es el umbral de reflejo de flexión nociceptiva, cuando hay un


porcentaje de sobrepeso, de 34?

y = -0,0451x + 11,615

x= 34

Solución:

y = -0,0451(34) + 11,615

Y=10,08 Umbral de Reflejo


Actividad 4. Regresión y correlación Lineal.
A partir de la base de datos suministrada: Desempleo en Colombia_2019 (16-4),
cada estudiante, deberá:
-Identificar dos variables cuantitativas de la situación estudiada que puedan estar
relacionadas e identificar la variable dependiente e independiente.
Año Tasa de desempleo (%)
2005 13,22
2005 14,23
2005 12,95
2005 12,06
2005 12,31
2005 11,52
2005 12,00
2005 11,75
2005 11,17
2005 9,96
2005 10,21
2005 10,33
2006 13,41
2006 13,00
2006 11,34
2006 12,01
2006 11,88
2006 10,61
2006 12,39
2006 12,79
2006 12,89
2006 11,35
2006 10,94
2006 11,78
2007 13,90
2007 12,83
2007 11,93
2007 10,90
2007 11,53
2007 11,16
2007 11,16
2007 10,73
2007 10,84
2007 10,05
2007 9,42
2007 9,89
2008 13,08
2008 11,99
2008 11,22
2008 11,13
2008 10,84
2008 11,17
2008 12,06
2008 11,22
2008 10,95
2008 10,12
2008 10,80
2008 10,61
2009 14,25
2009 12,49
2009 11,99
2009 12,14
2009 11,66
2009 11,34
2009 12,63
2009 11,74
2009 12,16
2009 11,55
2009 11,08
2009 11,31
2010 14,62
2010 12,59
2010 11,81
2010 12,24
2010 12,04
2010 11,64
2010 12,68
2010 11,16
2010 10,57
2010 10,15
2010 10,79
2010 11,12
2011 13,56
2011 12,86
2011 10,87
2011 11,19
2011 11,24
2011 10,91
2011 11,54
2011 10,08
2011 9,74
2011 9,00
2011 9,22
2011 9,82
2012 12,48
2012 11,87
2012 10,36
2012 10,86
2012 10,71
2012 10,03
2012 10,86
2012 9,75
2012 9,94
2012 8,85
2012 9,25
2012 9,55
2013 12,07
2013 11,79
2013 10,21
2013 10,17
2013 9,42
2013 9,24
2013 9,88
2013 9,27
2013 8,98
2013 7,79
2013 8,48
2013 8,44
2014 11,10
2014 10,68
2014 9,73
2014 8,97
2014 8,80
2014 9,19
2014 9,29
2014 8,90
2014 8,35
2014 7,86
2014 7,71
2014 8,72
2015 10,79
2015 9,86
2015 8,86
2015 9,50
2015 8,93
2015 8,25
2015 8,84
2015 9,09
2015 8,98
2015 8,19
2015 7,27
2015 8,59
2016 11,91
2016 10,00
2016 10,14
2016 9,02
2016 8,85
2016 8,88
2016 9,85
2016 8,99
2016 8,51
2016 8,29
2016 7,51
2016 8,74
16.00

14.00

12.00
Tasa de desempleo %

10.00

8.00

6.00

4.00

2.00

0.00
2004 2006 2008 2010 2012 2014 2016 2018
Años

Indica que este tipo de relación es directa, entre más años menos es el aumento
en la tasa de desempleo.
- Encuentre el modelo matemático que permite predecir el efecto de una variable
sobre la otra. ¿Es confiable?

y = -0,3925x + 800,08 R² = 0,67 No es tan confiable, tiene apenas un porcentaje


de 67% de confiabilidad.

- Determine el grado de correlación de las dos variables.

R² = 0,67
R= √0.67
R= 0.8185
Por lo tanto existe una correlación aceptable.

La relación obtenida en el problema es que a mayor cantidad de años o


Sea en la actualidad desde el 2005 el porcentaje de tasa de empleo a
disminuido por lo que es algo positivo para el país, es decir existen ahora
menos personas sin empleo.
Estos valores se analizaron desde el 2005 hasta el año 2016, haciendo un
control del mismo y verificando cual es el problema existente, esta
información es útil para el paisa ya que permite verificar si estamos
mejorando o no en la tasa de desempleo.

Conclusiones
Las medias de dispersión nos permiten medir esos datos extremos que se
encuentran alejados de la tendencia central, esto es muy interesante ya que las
medidas de tendencia central no siempre proporcionan conclusiones contundentes
frente a un conjunto de datos. Igualmente se aprendió a calcular la varianza de un
dato a la media, también comparar las series de los datos a través del coeficiente
variación y así se puede determinar cuál serie tiene mayor o menor variabilidad
relativa.

Bibliografía
 Churchill, G. (2009). "Análisis de Regresión Múltiple.". Mexico City:
Recuperado de http://go.galegroup.com/ps/i.do?id=GALE
%7CCX4058900234&v=2.1&u=unad
&it=r&p=GVRL&sw=w&asid=49575112db86a0eb46dae86bbaf74cb9.
 García, M. (2004). Introducción a la estadística económica y empresarial.
Recuperado de http://go.galegroup.com/ps/i.do?id=GALE
%7CCX4052900012&v=2.1&u=unad
&it=r&p=GVRL&sw=w&asid=4a9b0a469e755a4327207c94b4c0d549.
 Montero, J. (2007). Regresión y Correlación Múltiple. Madrid.
 Ortegón Pava, M. (2017). Ova_Medidas_Univariantes. Recuperado de:
http://hdl.handle.net/10596/11579.