Está en la página 1de 24

Apuntes de Estadística

Cátedra: Estadística

Unidad I. Estadística Descriptiva

Estadística. Su historia. Subdivisiones de la estadística.


Estadística Descriptiva. Conceptos fundamentales: Población y Muestra. Variables. Distribución de frecuencias. Representaciones gráficas. Medidas de
posición o de tendencia central: media aritmética, la Mediana y la Moda. Medidas de posición no centrales. Medidas de dispersión absolutas: Desviaciones
medias. La varianza y la desviación típica. Medidas de dispersión relativas. Medidas de asimetría y curtosis.

UNIDAD 1: ESTADISTICA

Estadística. Su historia.

De dónde viene el término estadística?


…….
Por mucho tiempo, la palabra estadística se refería a información numérica sobre los estados o territorios políticos. La palabra viene del latín “statisticus” que
significa “del estado”. Se uso por primera vez en el siglo XVIII pero mucho antes la gente utilizaba herramientas estadísticas y registraba datos

Hacer línea del tiempo

1) Censos. Babilonia, Egipto y Roma existen registros detallados sobre la población y sus recursos.
2) Carlomagno (762 DC), pidió la descripción detallada de las propiedades de la Iglesia
3) Siglo IX se solicitó la enumeración estadística de los siervos que había en los feudos
4) 1532. Enrique VII se comenzaron a registrar los muertos por la peste
5) En la misma época, en Francia se registraban bautismos, defunciones y matrimonios
6) 1806. Guillermo el Conquistador ordenó que se construyera un registro de la propiedad, extensión y valor de las tierras de Inglaterra.
Hasta aquí sólo eran registros de datos
7) 1662. John Graunt utilizó 30 años de listados para hacer predicciones sobre por ejemplo el N° de personas que morirían a causa de una determinada
enfermedad. Este fue uno de los primeros análisis estadísticos

1
Apuntes de Estadística

Que significa estadística para Ud.?


Qué términos podemos asociar a la Estadística?
…………………..

Azar – muestra – porcentajes- experimentos – probabilidad-……..

Definición: La estadística se puede definir como la ciencia que recopila, organiza, analiza e interpreta la información cuantitativa o cualitativa, mejor conocida
como datos, de manera que pueda llevar a conclusiones válidas.

Si usted no puede controlar algo, usted debe aprender cómo medirlo y analizarlo, para predecirlo con eficacia.

Subdivisiones de la Estadística

Estadística Descriptiva: es una parte de la estadística que se dedica a analizar y representar los datos.

Teoría de la Probabilidad: Probar. Origen en los juegos de azar. Trata de los fenómenos del azar en los que se desea saber la probabilidad de un resultado en
una prueba experimental

Estadística Inferencial: Es el conjunto de métodos estadísticos que sirven para realizar generalizaciones sobre una población a partir de los datos tomados de
una muestra.

Estadística Descriptiva. Conceptos fundamentales: Población y Muestra.


Variables y escalas.

 Población: conjunto de total de elementos en discusión y sobre los cuales se quiere tener información.

 Muestra: es un subconjunto de lo población.

La muestra deber cumplir ciertas condiciones: representatividad, aleatoriedad e independencia.


- Representatividad: la muestra debe revelar las características de la población de la cual proviene lo mas aproximado posible.

2
Apuntes de Estadística

- Aleatoriedad: cada elemento de la población debe tener la misma posibilidad de ser elegido. Solo si satisface este requisito los métodos estadísticos
serán razonables.
- Independencia: la probabilidad de que cualquier miembro de la población aparezca en la muestra, no depende de la aparición de los otros miembros de
la población en la muestra.

 Dato: es una información cuantitativa, numérica. Estos números son datos estadísticos siempre que puedan ser comparados, analizados e interpretados
Un dato estadístico tiene una estructura tripartita compuesta de: unidades de análisis, variables y valores.
- unidad de análisis: son los elementos sobre los cuales se focaliza el estudio, es decir, es el objeto de estudios. Por ejemplo: personas, instituciones,
hogares, etc.
- Variables: son las características que sintetizan o abrevian conceptualmente lo que se desea conocer acerca de las unidades de análisis. Ejemplo:
edad, genero, estudios cursados, estatura, etc.
- Valores: son modalidades o valores numéricos que alcanzan las variables que se han elegido para decir algo sobre las unidades de análisis. Lo que
medimos no es la unidad de análisis sino una característica de la misma.

 Variable: Cualquier característica que varía de una unidad experimental a otra en la población o en la muestra.

Variable cualitativa o categórica: se obtiene al observar una característica de un individuo u objeto de estudio, no es numérica.
Por lo general, nos interesa el número o el porcentaje de observaciones de una característica.

Variable cuantitativa, numérica o paramétrica: se obtiene al medir y por lo tanto se expresa con un N° y una unidad de medida.
Hay dos tipos de variables cuantitativas y estas se clasifican en discretas y continuas.
- Discretas: son números enteros, se pueden contar. Ejemplo: cantidad de hijos, etc.
- Continuas: son números reales, pueden tomar cualquier valor dentro de un intervalo específico. Ejemplo: estatura, peso de una persona, etc.

 Teniendo presente la clasificación, clasifica las siguientes variables:

1. Afiliación política de los habitantes de la Capital de Chile.


2. Cantidad de ganado vacuno en las provincias de la Río Bueno y La Unión.
3. Religión de los padres de familia de la comunidad educativa Santa Cruz.
4. Ingresos de los obreros.

3
Apuntes de Estadística

5. Cantidad de alumnos de las diferentes carreras de la UMAZA.


6. Genero de los alumnos de una escuela.
7. Estado civil de los habitantes de la ciudad de Río Bueno.
8. Cantidad de películas nacionales estrenadas durante un año.
9. Color de cabellos de los alumnos de un curso.
10. Puntaje obtenido por los alumnos que ingresan a la carrera de Enología.

 Escalas de medición: son instrumentos de medición

Escala Nominal: describe una característica expresada en nombre y no puede ordenarse de una forma significativa. Lugar de nacimiento, sexo, religión.

Escala Ordinal: expresa categorías ordenadas por rango. Nivel de formación, nivel socioeconómico.

Escala de intervalo: asigna una medición de distancia entre los valores de una variable. No tiene un cero absoluto sino establecido por convención. No indica
ausencia sino que es una referencia. Coeficiente intelectual, temperatura.

Escala de razón: ídem pero el cero es absoluto Implica ausencia total del aspecto que se está valorando. Peso, estatura, distancia.

Distribución de Frecuencias. Representaciones gráficas

Como recolectar y organizar los datos?

Aplicar un instrumento o utilizar registros documentales


Se debe construir un libro de códigos que indique:
 El nombre de cada variable
 El tipo y escala de medida
 Rango y valores de la variable
Se construye una tabla de frecuencias
Se efectúan representaciones gráficas.

4
Apuntes de Estadística

Gráficos: la recopilación de datos y la tabulación pueden traducirse gráficamente mediante representaciones convenientemente elegidas: barras, sectores
circulares, mapas curvas, etc.
Los gráficos permiten visualizar e interpretar el fenómeno que se estudia, en forma más clara.
Características de todos los gráficos:

Título
Nombre y referencias en los ejes
Ordenados de mayor a menor o viceversa
Referencias al costado claras y precisas
Variables Cualitativas: barras verticales, circulares
Variables Cuantitativas: líneas (x es el tiempo), histogramas (intervalos)

Tipos gráficos:

Gráficos de Barras Verticales: ordenar los datos

X: variable cualitativa
Y: frecuencia

Gráficos de Barras Horizontales: ordenar los datos

Y: variable cualitativa
X: frecuencia relativa o porcentaje

Gráficos Circular: para pocos datos, frecuencias relativas o porcentajes. El círculo completo es 360º equivalente al 100%

Gráficos de Líneas:

X: variable tiempo
Y: frecuencia absoluta

5
Apuntes de Estadística

Histograma:

X: variable cuantitativa por intervalos


Y: frecuencia

Las barras se utilizan generalmente para representar variables cualitativos o cuantitativos discreto. La longitud es igual a la frecuencia de cada observación.
Pueden ser barras simples o múltiples, según se trate de representar uno o más atributos.
Las barras pueden ser horizontales o verticales.

Gráf. de barras: Evaluación del


gobierno X

neutra
negativa
positiva

0 20 40 60

6
Apuntes de Estadística

Gráfico de barras compuesto: Remuneraciones medias (año Z)

600

500

400 Industrial
Bancario
300
Adm. Pública
200 Educativo
Comercio
100

0
Enero Febrero Marzo

Los gráficos circulares o gráficos de torta son útiles para comparar datos pues, en general, trabajan con porcentuales. El área de cada sector representa el
porcentaje que corresponde a la frecuencia de un cierto valor de la variable. Esta representación es conveniente cuando el número de sectores es pequeño y
sus áreas están bien diferenciadas.
Evaluación del gobierno X

positiva positiva

negativa negativa

neutra neutra

7
Apuntes de Estadística

El histograma se utiliza para representar una tabla de frecuencias de intervalos de clase.


Sobre el eje horizontal se representan los intervalos de clase y sobre el eje vertical, las frecuencias de los intervalos.
El gráfico consiste en un conjunto de rectángulos adyacentes cuya base representa un intervalo de clase y cuya altura representa la frecuencia del intervalo.
El polígono de frecuencias se construye uniendo los puntos medios de los lados opuestos de las bases de cada rectángulo. Si se quiere cerrar el rectángulo,
se agregan dos intervalos: uno anterior y otro posterior al último y se prolonga el polígono hasta los puntos medios de estos intervalos.

Las curvas se utilizan generalmente para representar la variación de una variable a través del tiempo (años, meses, horas, etc.). Sobre el eje horizontal figuran
los períodos de tiempo.

Variación del valor de las importaciones y exportaciones de la Argentina en millones de dólares

1800
1600
1400 importación
1200 de la
1000 Argentina
800 exportación
600 de la
400 Argentina
200
0
65

66

67

68

69
19

19

19

19

19

Estas son sólo algunas de las formas posibles de graficación y las que encontrarás con más frecuencia.

Tabla de Distribución de Frecuencias:

8
Apuntes de Estadística

Variable Discreta: si los valores que asume se pueden contar. Ejemplos: Cantidad de hijos en una familia. Número de alumnos.

Variable Continua: que pueden asumir cualquier valor dentro de un intervalo, por lo cual tiene un número infinito de valores posibles.

Frecuencia Absoluta (fi): Número de veces que se repite un determinado valor de la variable. La suma de todas las frecuencias absolutas de la tabla da como
resultado el tamaño de la muestra o población.

Frecuencia Relativa (fr): Es el cociente entre la frecuencia absoluta y el tamaño de la muestra o población. fr= fi/N

Frecuencia Relativa Porcentual: fr x 100

Frecuencia Absoluta Acumulada (F): es el número de observaciones menores o iguales que un determinado valor de la variable.
Frecuencia Relativa Acumulada (Fr): es la frecuencia relativa acumulada que representa la frecuencia acumulada respecto al total de la población.
DATOS AGRUPADOS:

Amplitud o Recorrido de la Variable: Es la diferencia entre el valor mayor y el valor menor de la variable: R = Xmax – Xmin

Intervalos de clase: Cuando hay muchos datos se subdivide el recorrido en intervalos iguales. Se conviene en definir de 5 a 15 intervalos. Formula: 1 + 3,332 .
log N = K.
Las condiciones son:
 Todos los intervalos sean de igual amplitud
 Ningún intervalo quede vacío

Amplitud de intervalos de clase. a = R/Ki ,

Marca de clase (xi): punto medio del intervalo

EJEMPLO:

Muestra: alumnos de 4° año de la facultad de Enología.

9
Apuntes de Estadística

Tabla de frecuencias
Variable peso y variable Edad

Variable: peso
Límite Superior: 96
Límite Inferior: 48
Amplitud o Recorrido: 96-48= 48
K = 1 + 3,332 . log N = 1 + 3,332 log 38 = 6,26=6
Amplitud de cada intervalo de clase: 48/6= 8

Marca de Frecuencia Frecuencia Frecuencia relativa Frecuencia Acumulada Frecuencia Acumulada


Intervalos de clase
clase Absoluta Relativa Porcentual Ascendente(sumo) Descendente (resto)

48-56 52 4 0,10526316 10,5263158 4 38


56-64 60 6 0,15789474 15,7894737 10 34
64-72 68 12 0,31578947 31,5789474 22 28
72-80 76 8 0,21052632 21,0526316 30 16
80-88 84 5 0,13157895 13,1578947 35 8
88-106 92 3 0,07894737 7,89473684 38 3
38
Variable: Estatura
Límite Superior: 1,99
Límite Inferior: 1,45
Amplitud o Recorrido: 1,99-1,45= 0,54
K = 1 + 3,332 . log N = 1 + 3,332 log 38 = 6,26=6
Amplitud de cada intervalo de clase: 0,54 /6=0,09

Marca de Frecuencia Frecuencia Frecuencia relativa Frecuencia Acumulada Frecuencia Acumulada


Intervalos de clase
clase Absoluta Relativa Porcentual Ascendente(sumo) Descendente (resto)

1,45-1,54 1,495 5 0,13157895 13,1578947 5 38


1,54-1,63 1,585 8 0,21052632 21,0526316 13 33

10
Apuntes de Estadística

1,63-1,72 1,675 15 0,39473684 39,4736842 28 25


1,72-1,81 1,765 5 0,13157895 13,1578947 33 10
1,81-1.9 1,855 3 0,07894737 7,89473684 36 5
1,9-1,99 1,945 2 0,05263158 5,26315789 38 2
38

11
Apuntes de Estadística

Ejercicio:

1. Se muestran los datos recabados en una investigación:

Sujeto género Edad Est Coef. Sujeto géner edad Est Coef.
Civil Intel o Civil Intel
1 1 22 2 100 11 1 23 1 100
2 1 20 1 102 12 1 34 1 87
3 1 19 2 79 13 1 45 2 98
4 2 35 2 89 14 2 28 2 99
5 2 47 4 95 15 2 19 3 101
6 2 32 3 102 16 2 27 4 111
7 2 43 2 104 17 1 39 1 109
8 1 34 1 112 18 1 25 2 140
9 2 25 1 135 19 1 27 1 97
10 1 23 1 100 20 1 21 2 99

Referencias:

Género: 1: hombre
2: mujer
Estado Civil: 1: soltero
2: casado
3: separado
4: divorciado
5: viudo

Teniendo en cuenta los datos mostrados en la tabla:

Completa la tabla según corresponda:

F Fr
Género f fr

2. El gobierno desea averiguar si el número medio de hijos por familia ha descendido respecto de la
década anterior. Para ello ha encuestado a 50 familias respecto al número de hijos, y ha obtenido los
siguientes datos:

2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4
3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1

Se pide:

________________________________________________________________________________________________ 12
Apuntes de Estadística

a) ¿Cuál es la población objeto de estudio?


b) ¿Qué variable estamos estudiando?
c) ¿Qué tipo de variable es?
d) Construir la tabla de frecuencias correspondiente.
a) ¿Cuál es el número de familias que tiene como máximo 2 hijos?
b) ¿Cuántas familias tienen más de 1 hijo, pero como máximo 3?
c) ¿Qué porcentaje de familias tiene más de 3 hijos?
d) Realiza un gráfico conveniente para la situación planteada.

3. En un curso de 40 alumnos, se desea estudiar el comportamiento de la variable estatura, registrándose los


siguientes valores:

1,52 1,64 1,54 1,64 1,73 1,55 1,56 1,57 1,58 1,58
1,59 1,53 1,60 1,60 1,61 1,61 1,65 1,63 1,79 1,63
1,62 1,60 1,64 1,54 1,65 1,62 1,66 1,76 1,70 1,69
1,71 1,72 1,72 1,55 1,73 1,73 1,75 1,67 1,78 1,63

a) Armar la tabla con los intervalos correspondientes, completar con las marcas de clase y las frecuencias
correspondientes.
b) Realizar un grafico adecuado para este tipo de variable.

Medidas de posición o de tendencia central: media aritmética, la mediana y la moda. Medidas de posición
no centrales

Al describir grupos de observaciones, con frecuencia se desea describir el grupo con un solo número. Para tal fin,
desde luego, no se usará el valor más elevado ni el valor más pequeño como único representante, ya que solo
representan los extremos más bien que valores típicos. Entonces sería más adecuado buscar un valor central.

Las medidas de tendencia central son aquellas que nos proporcionan información a cerca de la ubicación del
conjunto de datos y son:

Media Aritmética

Es la suma de los valores de un conjunto de observaciones dividido por el número total de observaciones. Puede
ser afectada por valores extremos. Se la llama centro de gravedad de la distribución.

n
Media para serie de datos simples
 Xi
X  i 1

________________________________________________________________________________________________ 13
Apuntes de Estadística

n
Media para datos agrupados por  Xi * fi
frecuencia
X  i 1
n

 fi
i 1

Propiedades de la media aritmética

1. Puede ser calculada en distribuciones con escala de razón e intervalar.

2. Todos los valores son incluidos en el cómputo de la media.

3. Una serie de datos solo tiene una media.

4. Es una medida muy útil para comparar dos o más poblaciones.

5. Es la única medida de tendencia central donde la suma de las desviaciones de cada valor respecto a la media
es igual a cero. Por lo tanto podemos considerar a la media como el punto de balance de una serie de datos.

Desventajas de la media aritmética

1. Si alguno de los valores es extremadamente grande o extremadamente pequeño, la media no es el promedio


apropiado para representar la serie de datos.

2. No se puede determinar si en una distribución de frecuencias hay intervalos de clase abiertos.

Mediana: Md (o Me)

Es un valor de la variable que divide a un conjunto de observaciones (ordenado de menor a mayor o viceversa)
en dos subconjuntos que contienen la misma cantidad de datos. El valor de la mediana deja por debajo de si al
50% de las observaciones. Es el valor central. Los valores extremos no afectan su valor.

Propiedades de la mediana

1. Hay solo una mediana en una serie de datos.

2. No es afectada por los valores extremos (altos o bajos)

3. Puede ser calculada en distribuciones con escala de razón, intervalar y ordinal.

 Datos no agrupados

n impar. La mediana es el valor central después de haber ordenado los datos

Ejemplo: para una serie 1,2,3,4,5,6,7 la Me = 4

________________________________________________________________________________________________ 14
Apuntes de Estadística

n par. La mediana es el cociente de los dos valores centrales dividido 2.

Ejemplo: para una serie 2,3,5,10,11,14 la Me = (5 +10)/2 = 7.5


 Datos Agrupados:
Cuando los datos se encuentran agrupados en una distribución de frecuencia no conocemos los datos originales,
por lo tanto es necesario estimar la mediana mediante los siguientes pasos:
1. Calcular:

Orden de la mediana: °Me = n/2


2. Localizar el intervalo de clase donde se encuentra la mediana (intervalo mediano). Esto se hace encontrando el
primer intervalo de clase donde la frecuencia acumulada es igual o mayor que n / 2.
3. Aplicando la siguiente fórmula con los valores del intervalo mediano:
n
 Fant
Me  Li 2 *a
fMe
Li: es el límite inferior de la clase mediana
Fant: frecuencia acumulada anterior a la clase mediana
fMe: frecuencia de la clase mediana.
a: amplitud del intervalo
Modo o Moda (Mo)
Es aquel o aquellos valor de la variable x que ocurren con mayor frecuencia en el conjunto. Es el valor que más
se repite.
La moda es la medida de tendencia central especialmente útil para describir mediciones de tipo ordinal y
nominal.

Propiedades de la moda
1. La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, intervalar, y de razón).
2. La moda tiene la ventaja de no ser afectada por valores extremos.
3. Al igual que la mediana, puede ser calculada en distribuciones con intervalos abiertos.

Desventajas de la moda
En muchas series de datos no hay moda porque ningún valor aparece más de una vez.
En algunas series de datos hay más de una moda, en este caso uno podría preguntarse ¿cuál es el valor
representativo de la serie de datos?

Para datos agrupados en una distribución de frecuencia, la moda puede ser estimada por la marca de clase del
intervalo que contenga la frecuencia de clase más grande. Si hay dos intervalos contiguos con frecuencia máxima
la moda será la media aritmética de las dos marcas de clase. Si hay dos o más intervalos no contiguos con
frecuencia de clase máxima habrá dos o más modas que serás las marcas de clase de dichos intervalos.
 d1 
Mo  Li  * a
d1  d2 
________________________________________________________________________________________________ 15
Apuntes de Estadística

Li: es el límite inferior de la clase modal


d1: diferencia entre fi de la clase modal y la fi anterior a esta
d2: diferencia entre fi de la clase modal y la fi posterior a esta
a: amplitud del intervalo

Comparación entre medidas de tendencia central

Si no hay ningún argumento de peso en contra, se preferirá siempre la media. Hay dos razones para apoyar esta
norma general. La primera es que en ella se basan otros estadísticos y la segunda es que es mejor estimador de
su parámetro que la mediana y la moda.
Hay al menos 3 situaciones en las que se preferirá la mediana a la media:
1. Cuando la variable esté medida en escala ordinal
2. Cuando haya valores extremos que distorsionen la interpretación de la media
3. Cuando haya intervalos abiertos, situaciones en las que el intervalo superior carece de límite superior, el
intervalo inferior carece de límite inferior o ambos.
La media es extremadamente sensible a las puntuaciones y un cambio en sólo una de ellas supone un cambio en
la media aritmética, mientras que la mediana sólo se vería alterada por cambios en los valores centrales.
La mediana será la segunda candidata para representar la tendencia central y se preferirá la mediana a la moda,
a menos de que:
1. Se trate de una variable medida en escala nominal
2. Haya intervalos abiertos y la mediana pertenezca a uno de ellos.
Representación gráfica de las Medidas de Tendencia Central
Para saber cuándo una distribución es simétrica o asimétrica debemos graficarla. Los gráficos más utilizados son:
histogramas, polígono de frecuencias.

Si los datos son homogéneos las distribuciones son simétricas y la media es igual a la mediana y la moda.
En la distribución asimétrica a derecha o positiva el orden es: MO – ME – MEDIA
En la distribución asimétrica a izquierda o negativa el orden es: MEDIA – ME – MO
La mediana gráficamente es el valor de x que corresponde a la recta vertical que divide un histograma en dos
partes de igual área.
Ejercicios:
 Los sueldos de cinco empleados de una empresa son: $ 400000, $500000, $450000, $600000 y $3500000.
Calcula el sueldo medio, la moda, si es que existe, y la mediana e indica cuál representa mejor a los datos.
 Calcular las medidas de tendencia central para los ejercicios 2 y 3 anteriores.

________________________________________________________________________________________________ 16
Apuntes de Estadística

MEDIDAS DE POSICIÓN NO CENTRALES: CUANTILES

CUARTILES, DECILES Y PERCENTILES

Son medidas de localización similares a las anteriores. Se las denomina CUANTILES. Su función es informar del
valor de la variable que ocupará la posición (en tanto por cien) que nos interese respecto de todo el conjunto de
variables.

Podemos decir que los Cuantiles son unas medidas de posición que dividen a la distribución en un cierto número
de partes de manera que en cada una de ellas hay el mismo número de valores de la variable.

Las más importantes son:

CUARTILES, dividen a la distribución en cuatro partes iguales (tres divisiones). Q1,Q2,Q3, correspondientes a
25%, 50%,75%.

DECILES, dividen a la distribución en 10 partes iguales (9 divisiones).D1,...,D9, correspondientes a 10%,...,90%

PERCENTILES, cuando dividen a la distribución en 100 partes (99 divisiones).P 1,...,P99, correspondientes a
1%,...,99%.

Existe un valor en cual coinciden los cuartiles, los deciles y percentiles es cuando son iguales a la Mediana y así
veremos: Q2 = D5 =P50 = Me

 Para datos Agrupados

Orden del cuartil: ºQi = (i . n)/4 siendo i: 1, 2, 3

i.n
4
 Fa
Qi  li  *a
fQi

Orden del Decil: ºDi= (i. n)/10

________________________________________________________________________________________________ 17
Apuntes de Estadística

i.n
10
 Fa
Di  li  *a
fDi

Orden del percentil: ºDi = (i.n)/100

i.n
100
 Fa
Pi  li  *a
fPi

Ejercicio:

Sabiendo que en una empresa los salarios de los empleados oscilan entre $1200 y $4000.También se sabe que
ni= 5, 9, 12, 7, 6 y 3 es el número de empleados según categorías de sueldos construir la tabla de frecuencias.
Calcular la media, la mediana y la moda de la distribución. Cuál es la medida más representativa del salario
medio.
Graficar. Describa la distribución
Calcular cuántos empleados ganan más de $2000
Cuántos ganan menos de $1500
Hasta qué sueldo gana el 70% de los empleados

Medidas de Dispersión absolutas: Desviaciones medias. La varianza y la desviación típica. Medidas de


dispersión relativas.
El conocimiento de la forma de la distribución y del respectivo promedio de una colección de valores de una
variable, puede servir para tener una idea bastante clara de la conformación, pero no de la homogeneidad de
cada una de los valores con respecto a la medida de tendencia central aplicada.
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo Las
medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la distribución
respecto al valor central. Distinguimos entre medidas de dispersión absolutas, que no son comparables entre
diferentes muestras y las relativas que nos permitirán comparar varias muestras.
Se trata de un coeficiente para variables cuantitativas y dan la idea de la variabilidad de los datos respecto de la
media aritmética

Ejemplo:

(1) 1,72; 1,73; 1,74; la 


= 1,73

(2) 1,65; 1,73; 1,81; la 


= 1,73

________________________________________________________________________________________________ 18
Apuntes de Estadística

Sin embargo en el ejemplo (2) se dice que los datos están más dispersos, porque hay mayor distancia entre cada
valor y la 
. Es decir hay mayor variabilidad de los datos.

Recuerde, calidad en la información y variación están relacionadas inversamente. Cuanto más grande es
la variación en los datos, más baja es la calidad de los datos (información): el Diablo está en las
Desviaciones.

¿Cuáles son las medidas de dispersión más usadas?


El rango, la varianza, la desviación estándar y el coeficiente de variación.

Rango o Alcance
Es la diferencia entre el valor mayor y el valor menor. Sirve como medida de dispersión sólo si hay pocas
observaciones. No más de 10 valores. No sirve cuando hay valores atípicos. Se usa mucho para estudios de
control de calidad.

R1= 1,74-1,72= 0,02


R2= 1,81-1,65= 0,16

El segundo conjunto tiene mayor rango por lo tanto los valores están más dispersos respecto de la 

Varianza

La varianza es una medida de que tan cerca, o que tan lejos están los diferentes valores de su propia media
aritmética. Cuando más lejos están las Xi de su propia media aritmética, mayor es la varianza; cuando más cerca
estén las Xi a su media menos es la varianza.

Es la media aritmética de los cuadrados de las desviaciones. Se define y expresa matemáticamente de la


siguiente manera:

Para muestras con n ≥ 30 Para muestras con n < 30

 x  x 
n

 x  x 
2 n
2
Para datos no i
i
agrupados:
  2 i 1
s 
2 i 1
n n 1

 x  x   f  x  x   f
k k
2 2
Para datos
agrupados: i i i i
  2 i 1
s 
2 i 1
n n 1
(fi: frecuencia absoluta del intervalo)

Desviación Estándar

________________________________________________________________________________________________ 19
Apuntes de Estadística

Es la raíz cuadrada de la varianza. La unidad de medida de la varianza está alterada por eso se calcula la
desviación estándar o desviación típica.

Para muestras con n ≥ 30 Para muestras con n < 30

 x  x 
n

 x  x 
2 n
Para datos no 2

agrupados: i i

 i 1 s i 1

n 1
n

 x  x   f  x  x   f
k k
2
Para datos 2
agrupados: i i i i
 i 1
s i 1
n n 1
Coeficiente de Variación de Pearson

Es una medida relativa de dispersión porque permite comparar dos o más muestras entre sí. No tiene unidad de
medida, su resultado es un porcentaje. Diremos que comparando dos muestras posee menor dispersión aquella
cuyo coeficiente de variación sea menor.

Su fórmula es la siguiente:
s
CV  100%
x
Ejemplo: qué grado de variabilidad existe en el curso respecto a la variable Peso y a la variable altura. ¿Respecto
a qué variable los datos son más homogéneos?

Ejemplos

- El entrenador de un equipo de natación debe elegir a uno de sus integrantes para la próxima
competencia de estilo libre. Según los tiempos en segundos que obtuvieron los postulantes de las cinco
últimas carreras de 100 m de estilo libre, ¿qué nadador le conviene elegir?

Diego 61,7 61,7 62,3 62,9 63,1


Tomás 61,5 62,9 62,9 63,7 63,7
Sergio 60,7 62,4 62,7 62,7 63,2

Para poder decidir, calcula las medidas de posición de cada uno.

________________________________________________________________________________________________ 20
Apuntes de Estadística

promedio moda mediana


Diego 62,34 61,7 62,3
Tomás
Sergio

En promedio, los nadadores más rápidos son ................................ y ................................., pero esto no significa
que hayan tenido el mismo rendimiento; por eso necesitamos las otras medidas de posición: de ellos dos, tanto la
moda como la mediana indican que ................................ fue más veloz. Sin embargo, para elegir el nadador
adecuado, no basta con considerar las medidas de posición, ya que también es necesario que su rendimiento sea
parejo, es decir, que los tiempos de sus 100 m libres no tengan mucha dispersión.

- La tabla a continuación indica los salarios básicos por hora (en unidades monetarias) en abril 2001 para
ciertas categorías ocupacionales de obreros sindicalizados en cierto sector de la construcción.
Salarios básicos por hora, según tipo de trabajo y lugares encuestados

Ocupación A B C D

Albañiles 6.290 7.375 5.750 7.500

Carpinteros 5.900 7.020 5.370 6.660

Electricistas 7.500 7.600 6.700 7.335

Pintores 7.170 6.735 4.750 6.110

Determine cuál es la ocupación en la que existe la mayor variación en los salarios básicos y cuál es la que
muestra la menor variación. Para hacer estas comparaciones deberá utilizar el coeficiente de variación (CV).

Parámetros y estimadores:

Parámetros de una Población:


Media aritmética: μ
Desviación Estándar: σ

Estimadores de la Muestra:
Media Aritmética: 
Desviación Estándar: S

Ejercicios

1) Los siguientes datos numéricos corresponden a la cantidad de veces que cada alumno de un grupo ha ido a un
recital o concierto.

________________________________________________________________________________________________ 21
Apuntes de Estadística

2–4–3–2–1–1–6–3–0–3–2–4–6–9–3–2–1–6

Calcula, sin tabular, Media, moda, mediana, desviación, n, rango.

2) En un diagnostico de educación física se pidió a los alumnos de los cuartos medios que hicieran abdominales
durante 3 minutos. Se obtuvieron los siguientes resultados:

4º A: 45 38 43 29 34 60 54 27 32 33 23 34 34 28 56 62 56 57 45 47 48 54
33 45 44 41 34 36 34 54
4º B: 43 45 44 38 34 46 43 42 43 45 57 44 38 38 37 43 61 38 37 45 28 42
41 49 40 37 34 44 41 43

¿Cuál de los dos cursos tiene el rendimiento más parejo? ¿Qué distribución estadístico permite comparar la
distribución de este tipo de datos?

3) A continuación se presentan los resultados de ambos cursos en la prueba de diagnóstico de salto largo.

4º A : 3.2 3.5 4.9 5.0 3.1 4.1 2.9 2.8 3.8 4.5 4.3 4.5 4.1 5.8 3.9 3.6 4.2 4.6 1.9
2.8 2.9 3.3 3.9 4.2 4.1 4.3 4.6 4.4 3.8 3.6

4º B : 3.5 2.9 1.3 1.7 3.6 5.6 2.8 5.2 5.3 4.1 4.1 4.4 1.6 5.1 4.3 5.0 5.3 3.2 2.8
2.6 5.5 5.4 4.8 4.9 4.3 2.9 3.9 5.4 5.3 4.2

a) Calcula el promedio de ambos cursos.


b) Construye una tabla de frecuencias para cada curso
c) Cuál de los dos cursos tuvo un rendimiento más parejo?

4) Se han medido 75 alumnos, en centímetros, obteniéndose los siguientes datos:

175 156 172 159 161 185 186 192 179 163 164 170 164 167 168 174 172 168 176 166
167 169 182 170 169 167 170 162 172 171 174 171 155 171 171 170 157 170 173 173
174 168 166 172 172 158 159 163 163 168 174 175 150 154 175 160 175 177 178 180
169 165 180 166 184 183 174 173 162 185 189 169 173 171 173

Agrupa estos resultados en 8 intervalos y confecciona una tabla de frecuencias y calcula las medidas de
tendencia central y de dispersión. Además, grafica esta tabla.

5) A los mismos alumnos anteriores se les aplico una prueba de inteligencia, estos han sido:

87 105 88 103 114 125 108 107 118 114 129 100 106 113 105 111 94 115 89 82
141 92 132 112 97 135 101 104 130 99 114 91 145 95 101 115 104 87 108 115
103 132 110 113 102 109 124 98 140 107 93 108 122 117 114 141 116 108 102 101
118 138 99 105 112 94 96 132 118 123 108 131 127 100 91

Agrupa los datos en intervalos de amplitud 8. y haz lo mismo que en problema anterior.

________________________________________________________________________________________________ 22
Apuntes de Estadística

Medidas de asimetría y curtosis.

Comparan la forma que tiene la representación gráfica, bien sea el histograma o el diagrama de barras de la
distribución, con la distribución normal.

MEDIDA DE ASIMETRÍA

Diremos que una distribución es simétrica cuando su mediana, su moda y su media aritmética coinciden.

Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas) descienden más
lentamente por la derecha que por la izquierda.

Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que la distribución es
asimétrica a la izquierda.

Existen varias medidas de la asimetría de una distribución de frecuencias. Una de ellas es el Coeficiente de
Asimetría de Pearson:

Su valor es cero cuando la distribución es simétrica, positivo cuando existe asimetría a la derecha y negativo
cuando existe asimetría a la izquierda.

MEDIDA DE APUNTAMIENTO O CURTOSIS

Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos de
distribuciones según su grado de curtosis:

Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la
variable (el mismo que presenta una distribución normal). Distribución leptocúrtica: presenta un elevado grado

________________________________________________________________________________________________ 23
Apuntes de Estadística

de concentración alrededor de los valores centrales de la variable. Distribución platicúrtica: presenta un


reducido grado de concentración alrededor de los valores centrales de la variable.

Las medidas de forma de una distribución se pueden clasificar en dos grandes grupos o bloques: medidas de
asimetría y medidas de curtosis.

Cuando al trazar una vertical, en el diagrama de barras o histograma, de una variable, según sea esta discreta o
continua, por el valor de la media, esta vertical, se transforma en eje de simetría, decimos que la distribución es
simétrica. Diremos pues, que es simétrica, cuando a ambos lados de la media aritmética haya el mismo nº de
valores de la variable, equidistantes de dicha media dos a dos, y tales que cada par de valores equidistantes tiene
la misma frecuencia absoluta. En caso contrario, dicha distribución será asimétrica o diremos que presenta
asimetría.

Resumiendo: estadística descriptiva

________________________________________________________________________________________________ 24

También podría gustarte