Está en la página 1de 24

TRABAJO COLABORATIVO UNIDAD No.

2








CARLOS ARTURO PACHON 80439789
EDWIN MANUEL SÁNCHEZ LARA 80432962
OSCAR JULIO SUÁREZ MILLÁN


















UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
ESCUELA DE CIENCIAS BÁSICAS
ESTADÍSTICA DESCRIPTIVA
09 DE NOVIEMBRE DE 2012
Introducción

Este trabajo tiene como propósito ejemplificar métodos para medir e interpretar el
comportamiento de un conjunto de datos dados. Los datos extremos pueden estar bastante
alejados de una tendencia central. Medir esa variación respecto a los promedios es un cálculo
importante en el tratamiento estadístico de datos, medidas a las que se les denomina de
dispersión o de variación.
La varianza se define como la media aritmética de los cuadrados de las desviaciones respecto a
la media aritmética. Se simboliza s2 para la varianza muestral y σ2 para la varianza poblacional.
La desviación típica, se obtiene extrayendo la raíz cuadrada de la varianza, tomando siempre el
valor positivo. Se simboliza por s en la muestra y σ en la población. Para efectuar
comparaciones entre series de observaciones distintas, en estadística se usa el coeficiente de
variación y así se puede determinar cuál serie tiene mayor o menor variabilidad relativa.
En las distribuciones asimétricas la media se corre en el sentido del alargamiento o sesgo por
efecto de las frecuencias y de los valores extremos de la variable; con el fin de determinar si
existe alguna relación entre las variables, que bien pudieran ser ambas discretas o continuas, o
también una de ellas discreta y la otra continua, se utilizan las medidas estadísticas
bivariantes. Un diagrama de dispersión es un plano cartesiano, ubicando en el eje horizontal o
abscisa los valores de la primera variable denominada X y en el eje vertical u ordenada, los
valores de la segunda variable, Y. De manera pues que se grafican tantas parejas ordenadas
como observaciones hayan de las variables. La regresión examina la relación entre dos
variables restringiendo una de ellas respecto a la otra, con el objeto de estudiar las variaciones
de la primera cuando la otra permanece constante.
El error estándar del estimado consiste en medir el grado de confiabilidad de la ecuación de la
recta estimada. Regresión múltiple consiste en el mismo procedimiento de una regresión lineal
simple: describir la ecuación de regresión, determinar el error de estimación y analizar la
correlación entre las variables.
Los números índice son cifras relativas expresadas en términos porcentuales, que sirven para
indicar las variaciones que sufre una serie de valores respecto a una de ellas, tomada como
punto de referencia y a la cual se le denomina base.





Objetivos


a) Desarrollar un taller de ejercicios sobre los contenidos de la Unidad 2 del curso
de Estadística Descriptiva, los cuales les permitirán profundizar en los temas
tratados.

b) Analizar algunos de los datos obtenidos en el CENSO 2005 realizado por el
DEPARTAMENTO ADMINISTRATIVO NACIONAL DE ESTADISTICA, DANE.



























TRABAJO COLABORATIVO UNIDAD No. 2


1. MENTEFACTO CONCEPTUAL

























MENTEFACTO DE MEDIDAS DE DISPERSION
Trata de la diferencia entre el
límite superior y el límite
inferior de un conjunto de
datos
MEDIDAS ESTADISTICAS
Compara las medidas de
dispersión
Medidas de
Longitud de Arco
MEDIDAS DE DISPERSION
Manejar los conceptos de
dispersión
Curva normal o campana
de Gauss
Curvas asimétricas
MEDIDAS DE
ASIMETRIA Y
APUNTAMIENTO
RANGO O VARIANZA Y DESVIACION COEFICIENTE DE VARIACION PUNTAJE TIPICO
RECORRIDO ESTANDAR Y DESVIACION MEDIA O ESTANDARIZADO

2. Las estaturas en centímetros de los socios de un club juvenil de Bogotá, son las siguientes:

153 123 129 132 147 138 137 134 131 147
138 128 134 148 125 139 146 145 148 135
152 128 146 143 138 138 122 146 137 151
145 124 132 138 144 141 137 146 138 146
152 156 160 159 157 168 178 142 113 130

Realizar una tabla de distribución de frecuencias para datos agrupados dado que la
variable es estatura (cuantitativa continua), Calcular varianza, desviación estándar y
coeficiente de variación. Interprete los resultados.

1 113
2 122
3 123
4 124
5 125
6 128
7 128
8 129
9 130
10 131
11 132
12 132
13 134
14 134
15 135
16 137
17 137
18 137
19 138
20 138
21 138
22 138
23 138
24 138
25 139
26 141
27 142
28 143
29 144
30 145
31
145
32 146
33 146
34 146
35 146
36 146
37 147
38 147
39 148
40 148
41 151
42 152
43 152
44 153
45 156
46 157
47 159
48 160
49 168
50 178

Rango 178 - 113 = 65
Número de clases. Aplicando la Regla de Sturges:





K = 1 + 3,322 Log 50 = 11,29 ---- 12
Amplitud de los intervalos de clase.



A = 65

= 5,417 --- 6


12
Como se ha redondeado, debe hallarse el nuevo rango:



R = 6 * 12 = 72
Existe exceso de 1, [66 – 65 = 1]. Este exceso debe distribuirse
sumado 1 al superior por agruparse mas los datos







178 + 1 = 179


113 = 113
Intervalos de clase. Se agrega A-1= 6-1= 5 al límite inferior de cada clase,
Iniciando por el límite inferior del rango. Así:





A - 1 = 6 - 1 = 5



113 + 5 = 118


119 + 5 = 124




125 + 5 = 130




131 + 5 = 136




137 + 5 = 142




143 + 5 = 148




149 + 5 = 154




155 + 5 = 160




161 + 5 = 166




167 + 5 = 172




173 + 5 = 178




179 + 5 = 184



Limites reales


112 + 113 = 225 = 112,5


2

2







118 + 119 = 237 = 118,5


2

2







124 + 125 = 249 = 124,5


2

2







130 + 131 = 261 = 130,5


2

2







136 + 137 = 273 = 136,5


2

2







142 + 143 = 285 = 142,5


2

2







148 + 149 = 297 = 148,5


2

2







154 + 155 = 309 = 154,5


2

2







160 + 161 = 321 = 160,5


2

2







166 + 167 = 333 = 166,5


2

2







172 + 173 = 345 = 172,5


2

2







178 + 179 = 357 = 178,5


2

2





Tabla de frecuencias

INTERVALOS DE CLASE FRECUENCIA
Estatura en Cm
No de
personas
112,5 - 118,5 1
118,5 - 124,5 3
124,5 - 130,5 5
130,5 - 136,5 6
136,5 - 142,5 12
142,5 - 148,5 13
148,5 - 154,5 4
154,5 - 160,5 4
160,5 - 166,5 0
166,5

172,5 1
172,5 178,5 1
TOTAL 50




a) Varianza



Para datos
agrupados:

INTERVALOS DE CLASE FRECUENCIA Punto Medio Fx * X
0

Estatura en Cm
No de
personas X Fx x
112,5 - 118,5 1 115,5 115,5 665,64
118,5 - 124,5 3 121,5 364,5 1.176,12
124,5 - 130,5 5 127,5 637,5 952,20
130,5 - 136,5 6 133,5 801 365,04
136,5 - 142,5 12 139,5 1674 38,88
142,5 - 148,5 13 145,5 1891,5 229,32
148,5 - 154,5 4 151,5 606 416,16
154,5 - 160,5 4 157,5 630 1.049,76
160,5 - 166,5 0 163,5 0 -
166,5 - 172,5 1 169,5 169,5 795,24
172,5 - 178,5 1 175,5 175,5 1.169,64
total

50,00 1.600,50 7.065,00 6.858,00

X =

1.600,50



50,00




-

x = 141,3













varianza 6.858,00


50,00








varianza 137,16




INTERVALOS DE CLASE FRECUENCIA
Punto
Medio

Ʃfx
2

Estatura en Cm No de personas X Fx
113 - 119 1 115,5 115,5

13.340,25
119 - 125 3 121,5 364,5

44.286,75
125 - 131 5 127,5 637,5

81.281,25
131 - 137 6 133,5 801 106.933,50
137 - 143 12 139,5 1674 233.523,00
143 - 149 13 145,5 1891,5 275.213,25
149 - 155 4 151,5 606

91.809,00
155 - 161 4 157,5 630

99.225,00
161 - 167 0 163,5 0 -
167 - 173 1 169,5 169,5

28.730,25
173 - 179 1 175,5 175,5

30.800,25
TOTAL 50 7065 1.005.142,50

b) Desviación Estándar












(Ʃfx)
2



S =

Ʃfx
2
- n


n - 1















6.858,0


S =

49


















S =

139,96








S =

11,83




c) Coeficiente de variación




CV= s x 100





x






CV= 11,83 x

100
141,3





CV= 8,37%





3. Un empleado de la empresa de Acueducto de la ciudad de Cartagena, realiza un estudio
sobre los reclamos realizados en los 2 últimos años, para ello elige una muestra de 60
Personas, con los siguientes resultados:

No.
reclamaciones
0 1 2 3 4 5 6 7
No. usuarios 26 10 8 6 4 3 2 1





promedio 2,14

Varianza


S
2
= Ʃfx
2

-
x

2

n



S
2
= 906
-
4,59
28



S
2
= 27,77

Promedio






No de
Reclamaciones
No de Usuarios




x
2

0 26 676,00
1 10 100,00
2 8 64,00
3 6 36,00
4 4 16,00
5 3 9,00
6 2 4,00
7 1 1,00
28 60 906

Desviación Típica





S = Ѵ27,77



S = 5,27

Coeficiente de Variación





CV = S X 100
x

CV= 5,27 x
2,14





CV= 245,90%


Se concluye que los datos son heterogéneos, hay diferencias significativas entre ellos, así es
que el promedio es poco representativo, hay una variación notable en las reclamaciones por
usuario, ya que varían gradualmente respecto a la media en: 27.77 hubo mayor estabilidad en
las reclamaciones alrededor de su media: 2.14. Hay una variación relativa entre las
reclamaciones y el número de usuarios.

4. En un examen final de Estadística la puntuación media de un grupo de 150 estudiantes fue
de 78 y la varianza 64. En álgebra, sin embargo, la media final del grupo fue de 73 y la
desviación tipica7,6. En que asignatura hubo mayor:

a. Dispersión absoluta
b. Dispersión relativa
c. Si el estudiante consiguió 75 en estadística y 71 en álgebra. ¿En qué asignatura fue su
puntuación relativa superior?


Media Varianza Desviación típica
Estadística 7,8 6,4
Algebra 7,3 7,6

a. Dispersión absoluta



Estadística S
2
= 64
S= Ѵ 64 = 8



Desviación típica:



Estadística 8,0


Algebra 7,6





Por lo tanto en estadística hubo mayor dispersión absoluta, que en algebra, ya que 8>7,6.






b. Dispersión relativa



Estadística


CV = 8,0
X 100
78



CV = 10,2%





Algebra


CV = 7,6
X 100

73



CV = 10,4%




Hay Mayor Dispersión Relativa en Algebra, ya que 10,4>10,2.




c. Si el estudiante consiguió 75 en estadística y 71 en álgebra. ¿En qué asignatura fue su
puntuación relativa superior?



Estadística 7,5


Algebra 7,1





Estadística


Z= -
=
7,5 - 7,8
=
-0,0375
S 8,0





Algebra


Z= -
=
7,1 - 7,3
=
-0,026
S 7,6








Dado que Algebra con -0,026, esta más cerca de cero, entonces la puntuación relativa es superior que la
de estadística.



5. Ingresar al blog de Estadística Descriptiva que se encuentra en la página principal del curso
en el TOPICO DE CONTENIDOS, posteriormente buscar el LABORATORIO (RERESIÓN Y
CORRELACIÓN LINEAL –EXCELL) y realizar el ejercicio número 1 que se encuentra al final del
laboratorio

Ejercicio 1. Se quiere estudiar la asociación entre consumo de sal y tensión arterial. A una serie
de voluntarios se le administra distintas dosis de sal en su dieta y se mide su tensión arterial un
tiempo después
x (sal) y ( Presión)
1,8 100
2,2 98
3,5 105
4 110
4,3 112
5 120

a) Realice el diagrama de dispersión y determine el tipo de asociación entre las variables.

x (sal) y ( Presión) xy x^2
1,8 100 180 3,24
2,2 98 215,6 4,84
3,5 105 367,5 12,25
4 110 440 16
4,3 112 481,6 18,49
5 120 600 25
20,8 645 2284,7 79,82



Para conocer el tipo de relación que puede existir entre estas dos variables, el primer paso es
determinar es si el diagrama de dispersión efectivamente insinúa una tendencia lineal, como
se observa en la grafica anterior, se procede ahora a determinar la ecuación de la recta que
más se ajusta. Para ello se hace uso del método de los mínimos cuadrados.

Ŷ = a + bX

Donde
b =
nƩxy - ƩxƩy
nƩx2 - (Ʃx)2






b =

6

*
2.284,7 - 20,8

* 645,0


6

*
79,8 - 432,6



b =
13.708,2 - 13.416,0


478,9 - 432,6



b =
292,2


46,3






b =
6,31





Donde
a =
Ʃy -bƩx
n


y = 6.3137x + 85.612
R² = 0.9165
0
20
40
60
80
100
120
140
0 1 2 3 4 5 6
T
e
n
s
i
o
n

A
r
t
e
r
i
a
l

Dosis de Sal
Diagrama de Dispersion




a =
645,0 -

6,31 * 20,8


6






a =
645,0 - 131,3





6



a =
513,7


6






a =
85,61


b) Encuentre el modelo matemático que permita predecir el efecto de una variable sobre la
otra. ¿Es Confiable?

La ecuación de la recta ajustada está dada por:

Ŷ = 6,31 x +
85,61


c) Determine el porcentaje de explicación del modelo y el grado de relación de las dos
variables
Grado de relación
Error
estándar





Ʃy2 - a Ʃy - b Ʃxy


Se = n -2













Se = 69.673 - (85,61 *

645,0) - 6,31 * 2.284,70


6 - 2






Se =

69.673 - 55.218,5 -

14.425,01





4










Se =


29,54





4












Se =


7,386








Se =


2,72





Ahora, se calcula así, el coeficiente de determinación y el coeficiente de correlación lineal, para
elle se determina la varianza de la variable dependiente Y.




S2Y




S
2
Y
=
ƩY2 - Y2


n





S
2
Y
=
69.673,0 - 11.556,3


6,0








S
2
Y
=
55,92



R
2
=

1,0 - Se
2


S
2
Y






R
2
=

1,0 - 7,39

55,92



R
2
=

1,0 - 0,13


R
2
=
0,87

86,8%



r
=
R
2









r = 0,87





r = 0,93

93,2%




d) Si a un paciente se le administra una dosis de sal de 6,5. ¿Cuál es la tensión arterial
esperada?

De modo que la ecuación de la recta ajustada está dada por:



Ŷ

= 6,31 x + 85,61





Ŷ

= 6,31 * 6,5 + 85,6
Ŷ

= 41,0 + 85,6





Ŷ

= 126,7 ---- 127
De tensión
esperada




6 - A continuación Se presentan las ventas nacionales de móviles nuevos de 1992 a 2004 en la
siguiente tabla. Obtenga un índice simple para las ventas nacionales utilizando una base
variable.

AÑO Ventas (millones $)
1992 8,8
1993 9,7
1994 7,3
1995 6,7
1996 8,5
1997 9,2
1998 9,2
1999 8,4
2000 6,4
2001 6,2
2002 5,0
2003 6,7
2004 7,6




I
1992
9,7 X 100 = 110,23%

1993
8,8




I
1993
7,3
X 100 = 75,26%


1994
9,7




I
1994
6,7
X 100 = 91,78%


1995
7,3




I
1995
8,5
X 100 = 126,87%


1996
6,7




I
1996
9,2
X 100 = 108,24%


1997
8,5




I
1997
9,2
X 100 = 100,00%


1998
9,2




I
1998
8,4
X 100 = 91,30%


1999
9,2




I
1999
6,4
X 100 = 76,19%


2000
8,4




I
2000
6,2
X 100 = 96,88%


2001
6,4




I
2001
5,0
X 100 = 80,65%


2002
6,2




I
2002
6,7
X 100 = 134,00%


2003
5,0




I
2003
7,6
X 100 = 113,43%


2004
6,7





II-ACTIVIDAD DE INVESTIGACIÓN

Realizar un recorrido a través de los resultados del Censo General 2005, ingresando a la página
Web del DANE:
http://www.dane.gov.co
ACTIVIDAD A REALIZAR:

En este segundo trabajo colaborativo, deberán escoger previo acuerdo entre los integrantes
del grupo, una tabla de distribución de frecuencias que presente una variable cuantitativa para
la cuales se pide calcular:
-Media o Promedio aritmético.
-Medidas de dispersión

2.- Interpretar los resultados obtenidos

Varianza

Para datos agrupados:

edad 2011 Punto Medio Fx * X
0

X Fx x
5 - 11 5.902 8 47.216 - 5,49

177.678
12 - 15 3.257 13,5 43.970 0,01

1
16 - 17 1.397 16,5 23.051 3,01

12.684
18 - 25 1.793 21,5 38.550 8,01

115.131
26 y 30
939
28 26.292 14,51

197.785
-
total 13.288 87,50

179.078 20,07

503.279,36
X = 87,50


13.288,00




-
x = 13,48













varianza 503.279,36


13.288,00








varianza

37,87


Coeficiente de variación





CV= s x 100





x






CV= 141,88 x


13,48





CV= 1053%




edad 2011 Punto Medio
X Fx
5 - 11 5.902 8 47216

377.728,00
12 - 15 3.257 13,5 43969,5

593.588,25
16 - 17 1.397 16,5 23050,5

380.333,25
18 - 25 1.793 21,5 38549,5

828.814,25
26

y 30

939 28 26292

736.176,00



TOTAL 13288 87,5 179077,5 2.916.639,75

Desviación estándar







(Ʃfx)
2



S =

Ʃfx
2
- n


n - 1













503.278,0


S =

25
















S =

20131,12








S =

141,88


Rango

30 - 5 = 25
Número de clases. Aplicando la Regla de Sturges:





K = 1 + 3,322 Log 25 = 6,64 ---- 7

Conclusiones

a) Con la realización de estos ejercicios, se aprendió de manera mas profunda los temas
vistos en la unidad dos.
b) Se aprendió que el comportamiento de un conjunto de datos puede variar de forma
significativa con respecto al promedio.
c) Se realizó un análisis teórico acerca de las medidas estadísticas, comprendiendo así la
importancia de conceptos que no estaban familiarizados.
d) Se adquirió conocimiento con respecto a los temas tratados en un campo real como lo
es el DANE, en cuanto a la calidad de vida en Colombia en el transcurso del año 2011.




















Referencias Bibliográficas
Material didáctico contenido para descargar, curso estadística descriptiva.