Está en la página 1de 30

Unidad I:

Medidas de Posición y dispersión


Simetría y Valores alejados

Aprovechen y cualquier duda, consulten!


MEDIDAS DE POSICIÓN Y DISPERSIÓN

MEDIDAS DE POSICIÓN:

Resumen la información referida de la posición de la muestra. Las


medidas de posición más utilizadas son: Media, Mediana, Moda y
Cuartiles, las tres primeras, media, mediana y moda son medidas de
tendencia central.

Supongamos que los datos observados son: x1, x2, …, xn.

n es la cantidad de datos
x1  x2  ...  xn
Media: es el promedio de los datos x
n
Ejemplo 1: Las notas de un alumno son: 10, 8, 7, 9, 10, 7, 6.

10  8  7  9  10  7  6
Nota promedio x  8.14
7

La media es un buen representante del rendimiento académico del


alumno. (Es por eso que en todos lados se usa el promedio para esto!)
¿Por qué en este caso si?, ¿Cuándo no?
Existen casos en donde la media NO es un buen representante del conjunto
de datos.

Ejemplo 2: Una empresa tiene 5 empleados, sus sueldos en pesos son:


20.000, 20.000, 20.000, 20.000, 220.000.

Entonces la media es : x  60.000


El dueño de la empresa diría orgulloso ¡El sueldo promedio de mi empresa es
de $ 60.000 al mes!!

Pero claramente, en este caso la media no es un buen representante de este


conjunto de datos, dado que hay 4 empleados que ganan 20.000. En general
cuando la muestra tenga valores alejados o presente asimetría, la media no
será un buen representante del conjunto de datos.

ES DECIR: ¡LA MEDIA SE VE AFECTADA POR ASIMETRÍA O


VALORES ALEJADOS! RECUERDEN!!
¿Qué pasa si los datos están
agrupados en clases?
Ejemplo 3:Se desea estudiar el peso de los recién nacidos en Tucumán
en el año 2013. Se toma una muestra al azar de 80 recién nacidos y se
registra su peso al nacer.

Tabla 1: Pesos de los recién nacidos en Tucumán en el 2013

3300 3220 3060 2600 3150 3400 3200 2830


3200 3450 3150 2250 4600 3300 3000 3200
2975 3500 3480 3700 3000 3150 2600 3400
2650 4170 3650 2780 3665 4000 3550 3050
2800 3100 3140 2800 3800 2900 2900 2300
3900 3000 2900 3100 2500 3800 2270 3400
2570 3250 2570 3300 3000 2650 3440 3950
2900 3800 3200 1390 1920 3150 3100 3800
3900 3410 3300 2415 3800 3550 2900 3670
3900 3250 3500 3400 3420 2750 3400 3450
 Supongamos que por alguna razón, en
lugar de tener los datos originales, están
los datos presentados en una tabla.
(en la tabla, (distribución de frecuencias), si bien es más fácil ver los
datos, estós son solo aproximados, ya que sé, por ejemplo, que hay 5
datos entre 2.100 y 2.500 pero no se cuales son los valores
exactos).

Si tuviéramos SOLO la tabla y queremos calcular


a partir de allí la media se hace lo siguiente:
Tabla 2: Pesos de los recién nacidos en Tucumán en el año 2013

Clase Frecuencias Centro (xi)


[900, 1300) 0 1100
[1300, 1700) 1 1500
[1700, 2100) 1 1900
[2100, 2500) 5 2300
[2500, 2900) 16 2700
[2900, 3300) 26 3100
[3300, 3700) 19 3500
[3700, 4100) 10 3900
[4100, 4500) 1 4300
[4500, 4900) 1 4700
Total 80

 Llamemos xi al centro de cada intervalo y k a la cantidad de clases


k fr(xi) es la frecuencia relativa de la clase cuyo centro es el xi, es
x  x f (x )
i r i decir es su frecuencia (la cantidad de veces que aparece) sobre la
i 1 cantidad total de datos.
 Si disponemos de los datos originales, conviene utilizarlos para calcular la
media, ya que la fórmula para la media para datos en clases es aproximada.
Otra medida de posición es la Mediana.

La Mediana: Es el valor central de la muestra ordenada.


(¡LEAN BIEN LA DEFINICIÓN QUE LO DICE TODO!)

 Si la cantidad de datos es impar, la mediana es el valor central de la


muestra ordenada

 Si la cantidad de datos es par, la mediana es el promedio de los dos


datos centrales de la muestra ordenada
Procedimiento para encontrar la mediana

Ordenar de menor a mayor, a la muestra ordenada se la denota con x(i).

Si llamamos n al total de datos entonces


n 1
pos ~
x
2
Si n  2k  1  pos ~
x  k 1  ~
x  x ( k 1)

~ 2k  1 ~ x ( k )  x ( k 1)
Si n  2k  pos x  x
2 2

Tengan cuidado de no confundirse la posición de la mediana (que solo


me dice donde encontrarla) con su VALOR.
Ejemplo 4
Para n impar.
Notas de un alumno A: 10, 8, 7, 9, 10, 7, 6.
Datos ordenados: 6, 7, 7, 8, 9, 10, 10.
La mediana de las notas es 8. Notación: ~
x 8

Para n par
Notas de un alumno B: 10, 8, 7, 9, 10, 7, 6, 9.
Datos ordenados: 6, 7, 7, 8, 9, 9, 10, 10.

~ 89
La mediana de las notas es: x  8,5
2
En el ejemplo de la empresa con 5 empleados la mediana sería
igual a $ 20.000, por lo tanto sería un mejor representante del
conjunto de datos.
LA MEDIANA NO SE VE AFECTADA POR VALORES ALEJADOS
NI POR ASIMETRÍAS. RECUERDEN ESTO!!!

Sugerencia:
Realiza los cálculos para los ejemplos anteriores
Cuartiles: Q1 y Q3 En cierta forma, dividen el lote de datos
ordenado en cuatro partes iguales.
Para calcular los cuartiles, se toma la primera mitad de la muestra
ordenada y se calcula la mediana de este conjunto que será el
primer cuartil, para el tercer cuartil se trabaja igual con los datos de
la segunda mitad.
~
La posición del primer cuartil está dada por: pos Q  [pos x ]  1
1
2

donde [pos ~
x ] es la parte entera de la posición de la mediana.
Para encontrar el tercer cuartil, se utiliza la posición del primer
cuartil, pero contando desde el final de la muestra.
(Cual será Q2?)
Ejemplo
En el ejemplo de las notas
 Para n impar
Datos ordenados: 6, 7, 7, 8, 9, 10, 10.

Primer cuartil: Q1 = 7 Tercer cuartil: Q3 = 9,5

 Para n par
Datos ordenados: 6, 7, 7, 8, 9, 9, 10, 10.

Primer cuartil: Q1 = 7 Tercer cuartil: Q3 = 9,5


Moda: Es el dato más frecuente (si es que este existe)

 En las notas de los alumnos:

6, 7, 7, 8, 9, 9, 10, 10, 10, 10 la Moda es 10.

En los salarios de 5 empleados:

$20.000, $20.000, $20.000, $20.000, $220.000. La Moda es $20.000,


podría ser un buen representante del conjunto de datos.

En las notas de los alumnos:

6, 7, 7, 8, 9, 9, 10, 10 La Moda es 7, 9 y10. En este caso


no es importante como medida de posición, pues hay 8 datos en total.
Observaciones
 La media y la mediana coinciden
aproximadamente si la muestra es simétrica.
 En caso de tener una muestra que sea
asimétrica positiva, la media será mayor que
la mediana, si tiene asimetría positiva al
revés.
MEDIDAS DE DISPERSIÓN

Ejemplo :
Notas del alumno Juan: 6, 6, 8, 10, 10.
Notas del alumno Pedro: 8, 8, 8, 8, 8.
La nota promedio de los dos alumnos es 8, sin embargo claramente su
desempeño no es igual ¿Cómo los comparo? ¿Cuál es la diferencia?

Una medida de dispersión es una medida de cuan alejados están los


datos del centro de la distribución, ya sea que se tome como centro a la
media o a la mediana de los datos
Varianza muestral:
La varianza es el promedio de los desvíos al cuadrado, es decir, se mide
la distancia de cada dato a la media, se la eleva al cuadrado y se las
promedia.
( x1  x ) 2  ( x2  x ) 2    ( xn  x ) 2
Varianza  ˆ 
2

n
Es la media de los desvíos respecto de la media al cuadrado. (¿Con
que medida de posición estará asociada?)
Desviación Estándar: es la raíz cuadrada positiva de la varianza.
Desviación Estándar  ̂  Varianza

( x1  x ) 2  ( x2  x ) 2    ( xn  x ) 2
ˆ 
n
Observen que estas medidas toman como centro la media, por lo tanto,
están asociadas a la ella!!
Otra forma de las desviación
estándar
La desviación estándar también se puede calcular de esta manera

( x1  x ) 2  ( x2  x ) 2    ( xn  x ) 2
s
n 1

• Así calculada, tiene propiedades que veremos más


adelante.
• Noten que cuando n es suficientemente grande no hay
diferencia numérica con la fórmula anterior.
• ¿En qué unidades se lee la desviación estándar s o ˆ ?
Ejemplo:

Notas del alumno Juan: 6, 6, 8, 10, 10.

La media es 8 por lo tanto los desvíos son: -2, -2, 0, 2, 2, los desvíos al
cuadrado son: 4, 4, 0, 4, 4.
16
 La varianza será: ˆ 2   3.2
5

Desviación : Estándar

ˆ  3.2  1.79

Para el alumno Pedro naturalmente la varianza y la desviación estándar


serán iguales a cero.
¿Qué pasa si los datos están
agrupados en clases?
Tabla 2: Pesos de los recién nacidos en Tucumán en el año 2013

Clase Frecuencias Centro (xi)


[900, 1300) 0 1100
[1300, 1700) 1 1500
[1700, 2100) 1 1900
[2100, 2500) 5 2300
[2500, 2900) 16 2700
[2900, 3300) 26 3100
[3300, 3700) 19 3500
[3700, 4100) 10 3900
[4100, 4500) 1 4300
[4500, 4900) 1 4700
Total 80

 Llamemos xi al centro de cada intervalo y k a la cantidad de clases


 k fr(xi) es la frecuencia relativa de la clase cuyo centro es el xi,
   ( x i  x )f r ( x i )
i 1 x es la media muestral
¿Cómo interpreto la desviación
estándar?
 Se puede probar que en el intervalo
( x  2ˆ , x  2ˆ )
se encuentra como mínimo el 75% de
los datos
 Si se encuentra toda la muestra en el
intervalo, los datos están muy
concentrados.
 O bien puedo utilizar el coeficiente de
variación.
Coeficiente de variación

El coeficiente de variación es una medida de la magnitud de la


dispersión en relación a la media.

Desviación Estándar
Coeficient e de Variación  CV 
Media
 El CV pequeño (<0.1) se dice que los datos están concentrados o
pocos dipersos respecto de la media.

 Estas tres medidas, σ2, s y el CV, toman como centro a la MEDIA


por lo tanto están asociadas a ella.
 Si el lote de datos es simétrico y no tiene valores alejados, se
utiliza a la media y la desviación estándar o s para describir el
lote de datos.
Una medida de dispersión asociada a la mediana es el Rango
Intercuartil.

El Rango intercuartil es simplemente la diferencia entre el primer


y el tercer cuartil: RI = Q3 – Q1

¿Cómo se interpreta el RI?


• En el intervalo (Q1 , Q3 ) se espera el 50% de los datos.
• Si toda la muestra está en el intervalo, decimos que los datos
están concentrados o poco dispersos.
Otra medida de dispersión asociada a la
mediana
La meda:
Se define como la mediana de los valores absolutos de
los desvíos respecto de la mediana de los datos.
Meda  mediana {| x i  ~
x |}

Procedimiento:
 Calcular los desvíos absolutos respecto de la mediana
 Ordenar y calcular la mediana de estos valores
¿Cómo interpreto la meda?
 Se puede probar que en el intervalo
~ ~
( x  meda, x  meda)
se encuentra el 50% de los datos
 Si se encuentra toda la muestra en el
intervalo, los datos están muy
concentrados.
 Si el lote de datos es simétrico y no tiene
valores alejados, se utiliza a la media y la
desviación estándar o s para describir el lote de
datos
¿Cómo analizo simetría?
 Gráficamente
 Coeficiente de asimetría: x~ x
100%
ˆ

Si este valor es <10% la muestra es simétrica


Si es >20% la muestra es asimétrica.
Si está entre 10% y 20% utilizo el gráfico para decidir

Figura 1: Ejemplo de una distribución asimétrica positiva

80

70

60
50
Frecuencias

40
30

20

10

0
0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

11000

12000
Valores alejados: Estos son valores observados que se apartan
demasiado del resto de la muestra. Para detectarlos se puede
utilizar la siguiente regla:

 Si un valor xi de la muestra es menor que Q1 – 1.5(Q3 – Q1) ,


entonces xi es alejado por defecto.

 Si un valor xi de la muestra es mayor que Q3 + 1.5(Q3 – Q1) ,


entonces xi es alejado por exceso.

No significa que haya que descartar ese dato, significa que hay
que estudiar ese caso y usar medidas que no se vean afectadas
por valores alejados.
Recomendaciones finales!!!
 Si el conjunto de datos es simétrico y no tiene
valores alejados se recomienda utilizar a la media
como medida de posición con la desviación
estándar como medida de dispersión.

 Si el conjunto de datos es asimétrico o tiene valores


alejados se recomienda utilizar a la mediana como
medida de posición con el rango intercuartil como
medida de dispersión.

También podría gustarte