Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadstica descriptiva, que trata del recuento, ordenacin y clasificacin de los datos
obtenidos por las observaciones. Se construyen tablas y grficos, se calculan medidas
estadsticas que caracterizan la distribucin de los datos, etc.
Estadstica inferencial, que permite obtener conclusiones sobre una poblacin a partir de
los resultados obtenidos de una muestra. Se apoya fuertemente en el clculo de
probabilidades.
A los datos que conforman una muestra se los puede clasificar en:
Cualitativos, referidos
a Atributos o a
Variables Categricas
Pueden ser:
Ordinales: Aquellos que sugieren una ordenacin, por ejemplo la graduacin militar, el nivel
mximo de estudios, etc.
Nominales: Aquellos que no admiten una ordenacin natural, por ejemplo el color de pelo,
sexo, estado civil, etc.
Cuantitativos, referidos
a Variables Numricas
Pueden ser:
Discretos. Son valores enteros, es decir, aquellos que por su naturaleza no admiten un
fraccionamiento de la unidad, por ejemplo nmero de hermanos, pginas de un libro, etc.
Continuos: no son valores enteros, es decir, aquellos que por su naturaleza admiten que
entre dos valores cualesquiera sea posible medir cualquier valor intermedio, por ejemplo
peso, tiempo. etc.
Poblacin conceptual: Esta asociada a una variable numrica particular y es el conjunto de
todos los valores que puede tomar la variable de referencia del dato considerado.
Ejercicio 1
Una empresa de telfonos decide realizar una encuesta telefnica entre los abonados de una
ciudad (nicamente casas de fla.), para indagar sobre diversos aspectos del servicio. A
continuacin se listan los datos solicitados a los encuestados, indique en cada caso qu tipo de
dato es:
Cantidad de aparatos telefnicos en la casa.
Modelo del aparato telefnico.(da varias opciones)
Facturacin del ltimo mes.
Ocupacin del sostn econmico de la familia.
Nmero de integrantes del grupo familiar.
Barrio en que esta ubicada la vivienda.
Totales
f = n =
Fri
fi = 1
852
852
859
860
868
870
876
893
899
905
909
911
922
924
926
926
938
939
943
946
954
971
972
977
984
1005
1014
1016
1041
1052
1080
1093
Punto
medio
xmi
700
[650;750[
800
[750;850[
900
[850;950[
[950;1050[ 1000
[1050,1150[ 1100
Totales
fi
Fi
f =n=
fri
Fri
fi = 1
Observemos que el primer extremo de cada intervalo pertenece al mismo y que el segundo
extremo no pertenece.
Se incluye una columna que contiene el punto medio de cada intervalo.
La primera tarea a realizar para este tratamiento, que se ahorra en este ejercicio, es ordenar los
mismos con repeticin si esta ocurre.
i
donde i es la ubicacin del dato luego del ordenamiento y n la cantidad de datos.
n+1
Notar que la frecuencia relativa acumulada calculada de esta manera no alcanza nunca el valor
cero, ni el valor uno. Esto resulta apropiado en el caso de las variables aleatorias continuas.
Los siguientes datos corresponden al punto de ebullicin, en grados Celsius, de un compuesto de silicio.
166 - 141 - 136 - 153 - 170 - 162 - 155 - 146 183 - 157 - 148 - 132 - 160 - 175 - 150
Como la variable en estudio es continua, y son pocos los valores de la muestra, la Tabla de
Distribucin de Frecuencias es:
xi
132
136
141
146
148
150
153
155
157
160
162
166
170
175
183
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Fri
0.0625
0.125
0.1825
0.25
0.3125
0.375
0.4375
0.5
0.5625
0.625
0.6875
0.75
0.8125
0.875
0.9375
Grficos Estadsticos
Gran parte de la utilidad que tiene la Estadstica Descriptiva es la de proporcionar un medio para
informar basado en los datos recopilados. La eficacia con que se pueda realizar tal proceso de
informacin depender de la presentacin de los datos, siendo la forma grfica uno de los ms
fi
15
3
20
3
fri
0.3659
0.0732
0.4878
0.0732
fi =n=41 fi = 1
fpi
36.59%
7.32%
48.78%
7.32%
fpi =100
Ejercicio 5
El siguiente grfico de sectores surge de una encuesta de opinin realizada a 200 personas, que
presenciaron un espectculo artstico, sobre el grado de satisfaccin obtenido en el mismo:
no contesta 2%
no satisfechos 16%
Conteste las siguientes preguntas que indican un posible anlisis de este tipo de grfico:
a) Cuntas personas se declararon muy satisfechas?
b) Cuntas personas expresaron estar medianamente satisfechas?
c) Qu porcentaje corresponde a las personas que obtuvieron algn grado de satisfaccin?
frecuencia relativa
0,6
0,5
0,4
0,3
0,2
0,1
0
700
800
900
1
1000 1100
140
150
160
170
180
190
1 n
xi
n i=1
Teniendo en cuenta que n es el nmero total de observaciones, xi los valores que toma la
variable en cada una de las observaciones (atencin: se consignan repeticiones o frecuencias
absolutas).
La mediana es una medida de posicin que aparece en el centro de una sucesin ordenada de
valores de la variable. Es decir es el valor de la variable tal que la mitad de las observaciones
son menores o iguales que ella. Se simboliza Me.
Si los datos se trabajan como serie simple, se calcula de la siguiente manera:
Si el nmero de datos es par, se toma el punto medio de los valores centrales, luego
de haberlos ordenado.
Si el nmero de datos es impar, se toma el valor del centro.
10
A partir del concepto de cuartiles, surge otro tipo de grfico: Diagrama de Caja o Box Plot. Este
diagrama permite resumir gran parte de la informacin contenida en los datos, mostrando la
forma de la distribucin (sesgos) y datos extraos, en caso de existir.
Se construye una caja (horizontal o vertical) como en el siguiente ejemplo:
Sean los siguientes datos ya ordenados: 2, 5, 6, 7, 11, 18, 28.
Estos pueden posicionarse mediante la asociacin X1, X2, X3, X4, X5, X6, X7. Entonces: n = 7 y:
11
q1 =
(7+1)
=2 , la posicin es 2 (entero) y el dato de posicin 2 en la muestra es
4
x q1 = x 2 = 5.
2(7+1)
= 4 , la posicin es 4 y el dato que ocupa la posicin 4 es x q = x 4 = 7.
2
4
3(7+1)
= 6 , la posicin es 6 y el dato que ocupa la posicin 6 es x q = x 6 = 18.
q3 =
3
4
q2 =
q3
10
15
20
25
30
Las lneas que se extienden a partir de las aristas laterales del rectngulo se denominan
bigotes.
Las observaciones que estn entre 1,5 y 3 veces el rango intercuartlico, a partir de la arista del
rectngulo ms cercana, se consideran valores atpicos. Es decir existen datos atpicos cuando
el largo de uno o de los dos bigotes es mayor a 1,5 veces el rango intercuartlico.
En el caso del ejemplo el rango intercuartlico es 13, el largo del bigote inferior es 5 2 = 3 y el
largo del bigote superior es 28 18 = 10, como el largo de ninguno de los dos bigotes supera a
1,5.13 = 19,5, no existen datos atpicos. Aqu serian atpicos los datos ubicados a una distancia
mayor a 19,5 a partir de x q1 y x q3
El diagrama de Caja para el ejemplo de Grados Celsius, construido con un software es el
siguiente:
190
185
180
175
170
165
160
155
150
145
140
135
130
125
120
N=
15
Grados
12
Mquina I
fi
Mquina I
xi.fi
0
-3 . 0 = 0
12
-2 . 12 = -24
18
-1 .18 = -18
22
0 . 22 = 0
16
1 . 16 = 16
10
2 . 10 = 20
2
3.2=6
0
4.0=0
fi =n=80 xifi = 0
13
Mquina II
fi
Mquina II
xi.fi
8
-3 . 8 = -24
12
-2 . 12 = -24
14
-1 . 14 = -14
16
0 . 16 = 0
12
1 . 12 = 12
8
2 . 8 = 16
6
3 .6 = 18
4
4 .4 = 16
fi =n=80 xifi = 0
1 n
(x i x)2
n i=1
14
S2 =
1 n
(x i x)2
n 1 i=1
s
( cociente entre s y x , es un nmero sin unidad )
x
Se utiliza para analizar la homogeneidad de una muestra o de una poblacin. Mientras menor
sea el coeficiente de variacin (muy prximo a cero menor a 0,3), habr mayor homogeneidad en
los datos, encontrndose stos ms concentrados en torno a la media aritmtica.
Tambin se utiliza cuando se desea comparar la dispersin de dos o ms distribuciones que
tienen medias diferentes entre s o bien que se expresan en distinta unidad de medida. En estos
casos las desviaciones estndar resultan imposibles de comparar y se debe recurrir a esta
medida de variacin relativa.
s
Si se calcula CV =
100 % se obtiene el porcentaje de la media que representa al desvo.
X
As, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de
69,6 kg. y su desviacin tpica s = 10,44 y la Tensin Arterial de los mismos (150, 170, 135, 180
y 195 mmHg) cuya media es de 166 mmHg y su desviacin tpica de 21,3. La pregunta sera:
qu distribucin es ms dispersa, el peso o la tensin arterial? Si comparamos las desviaciones
tpicas observamos que la de la tensin arterial es mucho mayor; sin embargo, no podemos
comparar dos variables que tienen escalas de medidas diferentes, por lo que calculamos los
coeficientes de variacin:
El Coeficiente de Variacin del peso es:
CV =
10.44
= 15 %
69.6
21.30
= 12.8 %
166
A partir de stos resultados observamos que la variable peso tiene mayor dispersin.
Medidas de Forma
Las medidas de forma proporcionan informacin sobre las caractersticas de la grfica de la
funcin de distribucin de la variable.
15
1 n
3
n (xi x)
Ca = i=1 3
s
El coeficiente Ca tiene signo e indica lo siguiente:
Ca > 0 la asimetra es positiva, la grfica tiene sesgo a la derecha.
Ca = 0 la asimetra es cero por tanto la grfica es simtrica no tiene sesgo.
Ca < 0 la asimetra es negativa, la grfica tiene sesgo a la izquierda.
En la prctica para calcular Ca se usa una frmula de trabajo que es la siguiente:
Ca =
3(x Me )
s
Tambin en el mbito de la prctica el rango de Ca es el siguiente: 2,5 < Ca < 3 y si ocurre que
0,5 < Ca < 0,5 se considera que la asimetra es cero.
Ca > 0
Ca 0
Ca < 0
1 n
4
n (xi x )
Ck = i=1 4
s
16
17
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
10
15
18
20
25
24.3
10. 5
1.5
Tiempo
Conclusin: como la media es mayor a la mediana y el coeficiente de asimetra es positivo, se
puede decir que la distribucin de datos es sesgada a derecha. Esto puede observarse en el
diagrama de caja, donde la lnea que representa la mediana est ms cerca del primer cuartil
que del tercero, indicando mayor concentracin de datos para los valores menores.
El coeficiente de curtosis es positivo (en el software resta 3 al coeficiente definido
anteriormente), es decir el "empuntamiento" es mayor que la Normal.
Adems la Ojiva crece ms rpido al principio y luego crece ms lentamente.
19