Está en la página 1de 20

Descripción de un

conjunto de datos:
Métodos numéricos

Estadística Descriptiva

Tablas y Gráficos Medidas Descriptivas


de Frecuencias

1
Estadísticos
 Tendencia central
 Indican valores con respecto a los que los datos parecen
agruparse.
 Media, mediana, moda
 Dispersión
 Indican la mayor o menor concentración de los datos con
respecto a las medidas de tendencia central.
 Varianza, Desvío estándar, coeficiente de variación, rango intercuartílico
 Posición
 Dividen un conjunto ordenado de datos en grupos con la
misma cantidad de individuos.
 Cuartiles, deciles, percentiles
 Forma
 Indican como se distribuyen los datos 3
 Ceficiente de asimetría y Coeficiente de curtosis

Relacionando gráficos de distribución de


frecuencias con estadísticos

2
Estadísticos de tendencia central
Son medidas que buscan posiciones (valores) con respecto
a los cuales los datos muestran tendencia a agruparse.

150 151 152 154 155 155 155 157 157 160 162
Media
Son valores numéricos que Mediana
tienden a localizar la parte central Modo
de un conjunto de datos.

Media Mediana Modo

 Media o promedio aritmético:


Es la suma de los valores de una
variable dividido por el total de datos.
 Media de 2,2,3,7 es
2 23 7
x 
4
n

x i
x i 1
n

 Centro de gravedad de los datos


6

3
Media – Propiedades

 La suma algebraica de los desvíos de cada observación, respecto de la media,


considerando los signos, es cero.
∑ x - x   0 i

 La suma de los desvíos cuadráticos de cada observación respecto de su


media, es un mínimo.
∑ x i - x 2  Mínimo

 Es un valor típico o representativo porque su valor puede utilizarse para estimar


la suma total en la muestra.
Suma Total = n * x

 Dado que todos los valores entran en el cálculo de la media, ésta se ve


afectada por valores extremos.

Media aritmética
En tablas de datos sin En tablas de datos
agrupar agrupados
x f x mc f
3 1 2a4 3 2
n

x . fa
i
6
9
8
15
4a6 5 9

x  i1 6a8 7 10
n 12 4 8 a 10 9 1
total 28 total 22

3.1 6.8  9.1512.4 mc. f 3.25.97.109.1


x  8.35 x  i1  5.90
28 n 22

4
Media

0 1 2 3 4 5 6 7 8 9 10

0 1 2 3 4 5 6 7 8 9 10

 Conveniente cuando los datos se concentran


simétricamente con respecto a ese valor. Muy sensible
a valores extremos.

 MEDIA PONDERADA 
La media ponderada nos
permite calcular un promedio
que toma en cuenta la
importancia de cada valor con
respecto al total.

10

5
Mediana
 Es un valor que divide a las observaciones ordenadas en
dos grupos con el mismo número de individuos
 Mediana de 1,2,4,5,6,6,8 es
 Mediana de 1,2,4,5,6,6,8,9 es
 Es conveniente cuando los datos son asimétricos. No
es sensible a valores extremos.

Altura mediana

Número par de datos: promedio de los Número impar de datos: valor que
valores centrales de la serie ordenada está justo en el centro de la serie
ordenada

150 152 154 155 155 157 157 157 157 160 150 151 152 154 155 155 157 157 157 157 160

Me0 = 5,5 Me0 = 6

Me = ( 155 +157 ) / 2 = 156 gr. Me = 155 gr.

Propiedad
 Su valor está afectado por el número de observaciones, pero no por los valores
que adopta la variable.

6
Mediana
 Datos sin agrupar 
 Número de observaciones
impar: la mediana
corresponde al valor central
2, 3, 5, 5, 7
Mn=5
 Número de observacionales
par: la mediana corresponde
al promedio de los dos
valores centrales
2, 3, 5, 7 X f F
Mn=(3+5)/2=4 2-8 6 6
8-14 10 16
14-20 15 31
20-26 9 40
26-32 8 48

Moda
 Es el valor de la variable que más se
repite
 Moda de 1,2,4,5,6,6,8 es
 Moda de 1,2,2,5,6,6,8 es
 Moda de 1,2,4,5,6,7,8,9 es
 Es el único estadístico calculable en
variables cualitativas
 En variables continuas, es el/los
valor/es donde la distribución de
frecuencia alcanza un máximo, relativo
o absoluto.

7
Moda

X f
0-5 1
5-10 13
10-15 17
15-20 21
20-25 12
25-30 7

La elección de la Medida de Tendencia Central


depende....

Del tipo de variable Del tipo de distribución


cuantitativa o cualitativa simétrica o asimétrica

En general:
Variables cuantitativas
 Si la distribución es simétrica, puede elegirse la Media, Mediana o el Modo; se
recomienda la Media por que posee propiedades útiles, como estimador en
Inferencia Estadística.
 Si la distribución es asimétrica, se recomienda el uso de la Mediana.
Variables Cualitativas
 Nominales, solo es factible calcular el Modo.
 Ordinales, se recomienda el Modo o la Mediana.

8
Estadísticos de posición
 Se define el fractil de orden k como un valor de la variable
por debajo del cual se encuentra una frecuencia acumulada k.

 Casos particulares son los cuartiles, deciles, percentiles,...

Estadísticos de posición
 Cuartiles: Dividen a la muestra en 4 grupos con la
misma cantidad de datos.
 Q1 = Valor de la variable correspondiente a la (n+1)/4
observación ordenada.
Deja por debajo el 25% de los datos
 Q2 = Valor de la variable correspondiente a la 2(n+1)/4
observación ordenada.
Deja por debajo el 50% de los datos = mediana
 Q3 = Valor de la variable correspondiente a la 3(n+1)/4
observación ordenada.
Deja por debajo el 75% de los datos

9
Estadísticos de posición
 Deciles: Dividen a la muestra en 10 grupos con la
misma cantidad de datos
 El D1 deja por debajo al 10% de las observaciones. Por encima
queda el 90%

 Percentiles: Dividen a la muestra en 100 grupos con la


misma cantidad de datos
 La mediana es el percentil 50
 El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%

Estadísticos de posición
 Cuartiles: dividen a la muestra en cuatro grupos con la misma cantidad de
datos K .n
 FA
QK  li  4 .h K=1, 2, 3
fa

 Deciles: dividen a la muestra en diez grupos con la misma cantidad de


datos
K .n
 FA K=1, ….., 9
DK  li  10 .h
fa
 Percentiles: dividen a la muestra en cien grupos con la misma cantidad
de datos
Kn
 FA K=1, ….., 99
PK  li  100 .h
fa

20

10
Ejemplo

 ¿Qué peso no llega a alcanzar el 25% de


los individuos?
 Primer cuartil = percentil 25 = 60 Kg.

 ¿Qué peso es superado por el 25% de los


individuos?
– Tercer cuartil= percentil 75= 80 kg.
50%
 ¿Entre qué valores se encuentra el 50% de
los individuos con un peso “más normal”?
– Entre el primer y tercer cuartil = entre 60
y 80 kg.

Gráfico de caja (Box Plot)


 Ordenar los datos de menor a mayor Dato atípico
20
 Hallar los 5 números resumen: mín, Q1,
mediana, Q3 y máx
 Los dos cuartiles determinan los bordes de 15
la caja y la mediana, la línea que la
atraviesa Q3
variable

 Calcular el RIQ = Q3 – Q1
RIQ

10
Med
 Calcular los límites inferior y superior
Q1
como min y max, respectivamente
5
 Prolongar la línea hasta el valor menor y
mayor, respectivamente, dentro de los
límites
0

11
Un experto en estándares de trabajo
observa el tiempo que se requiere para
preparar una muestra de 10 cartas de
negocios, en una oficina y obtiene los
siguientes resultados:
7 14 5 9 15 16 5 18 15
Calcula las medidas de posición

23

Diagrama de Caja y Sesgo


(Box and Whisker Plot)
Un resumen de cinco números ....
Xmin Q1 Q2 Q3 Xmax
17 X m
X m aax x
1 5

13

11
H ora s

9 Q 3

7
M e d ia

5
M
M ee ddi ai a
nna a

Q 1
3 X m i ni n
X m

 La longitud de la caja representa el Rango o Amplitud intercuartil (Q3 – Q1). El 50%


de las observaciones (ordenadas por su magnitud) se encuentran dentro de la caja.
 El box plot incluye y representa valores extremos (alejados o outliers).

12
¿Cómo podemos interpretar nuestros datos
a partir del diagrama de caja ?
Ubicación de la mediana en la caja
 No esta en el centro de la caja entonces la distribución presenta asimetría.
• Si se localiza cerca del extremo inferior (Q1), distribución asimétrica positiva, con
una cola (sesgo) alargado a la derecha.

• Si se localiza cerca del extremo superior (Q3), distribución asimétrica negativa, con
una cola (sesgo) alargado a la izquierda.

 Esta en el centro de la caja entonces la distribución es simétrica ( o


aproximadamente simétrica).

Preguntas, dudas, cuestiones......

 Las Medidas de Tendencia Central son suficientes para caracterizar un


conjunto de datos???

 Puedo comparar dos o mas conjuntos de datos solo con el Promedio???

 Cuando dos conjuntos de datos, tienen un mismo valor promedio

Podemos suponer que los datos Podemos suponer que los datos
de ambos son iguales??? son distintos???

13
Medidas de Dispersión

La dispersión de un conjunto de observaciones, se refiere a la magnitud de


la variabilidad que presentan las mismas.

Grupo 1 Grupo 2 Grupo 3


 Rango
Xmin 150 148 140
 Amplitud intercuartil 152 152 148
154 154 150
 Variancia 155 155 155
155 155 155
 Desvío Estándar 157 157 158
 Coeficiente de Variación 157 157 160
157 157 162
157 157 162
Xmax 160 162 164
Media 155,4 gr 155,4 gr 155,4 gr
Rango 10 gr 14 gr 24 gr

Estadísticos de dispersión
Miden el grado de dispersión (variabilidad) de los
datos, independientemente de su causa.

 Amplitud o Rango:
La diferencia entre las observaciónes extremas.
 2,1,4,3,8,4. El rango es
 Es muy sensible a los valores extremos.
 Su uso sólo es válido para conjuntos de datos pequeños

 Rango intercuartílico (RIQ):


 Es la distancia entre el primer y tercer cuartil.
 Rango intercuartílico = Q3 - Q1 = P75 - P25
 Parecida al rango, pero eliminando las observaciones más extremas
inferiores y superiores.
 No es tan sensible a valores extremos.

28

14
 Varianza

 x     
n n n

 
2 2 2
i x fa x i  x fa mc  x
Varianza  i 1
 i 1
 i 1
n -1 n -1 n -1

 Es el promedio de las desviaciones (al cuadrado) de cada dato


con respecto a la media
 A mayor variabilidad, mayor varianza
 Es sensible a valores extremos
 Sus unidades son las de la variable pero al cuadrado!

29

 Desvío estándar o típico

 x 
n
2
i x
Desvío estándar  var ianza  i 1

 Tiene las mismas unidades que la variable


 A mayor variabilidad, mayor desvío estándar
 No confundir con error estándar o típico

30

15
Variancia y Desvío Estándar

La Variancia y el Desvío Estándar miden la dispersión de los valores


observados, con respecto a su media.

Variancia Desvío Estándar

∑ (x i- x )2 2
S2=
(n - 1)
S = S

Grupo 1 Grupo 2 Grupo 3

Media 155,4 155,4 155,4


D.E. 2,9 3,7 7,5
Var(n-1) 8,3 13,6 56,7

Unidades
S2 = 8,3 (gr)2 S =2,9 gr

 Un experto en estándares de trabajo


observa el tiempo que se requiere para
preparar una muestra de 9 cartas de
negocios, en una oficina y obtiene los
siguientes resultados:
7 14 5 9 15 16 5 18 15
Calcula las medidas de dispersión

32

16
•Dada la siguiente distribución de salarios, en pesos,
observada en una jurisdicción provincial:
1)Calcula el sueldo promedio, moda y mediana.
2)Calcula la desviación estándar

S 12500- 12600– 12700- 12800- 12900- 13000- 13100-

12600 12700 12800 12900 13000 13100 13200

f 6 9 16 12 9 5 3

33

 Coeficiente de variación

s
CV   100
x

 No tiene unidades
 Es una medida de variabilidad relativa: Mide que proporción de
la media representa el desvío estándar
 Se utiliza para comparar variabilidad

34

17
Coeficiente de Variación

Medida relativa de variabilidad. Es adimensional y permite comparar


conjuntos de datos medidos en diferentes unidades

S
C .V . = * 100
x

A modo de ejemplo para la variable altura de dos grupos de niños.......


Grupo 1: Media = 48 pulgadas D. Estándar = 6 pulgadas C.V. = 12.5%
Grupo 2: Media = 120 cm D. Estándar = 15 cm C.V. = 12.5%

 Un señor desea invertir en la bolsa y tiene los siguientes


datos:
Acción A: media = $ 5120 y desviación estándar = $ 330
Acción B: media = $ 5300 y desviación estándar = $ 450
Sabiendo que para los negocios siempre adopta una posición
muy conservadora (no asume riesgos) ¿Podrías ayudarlo a
tomar una decisión respecto a dónde debe invertir?

36

18
Asimetría
 Una distribución es simétrica si
la mitad izquierda de su
distribución es la imagen
especular de su mitad derecha.
 En las distribuciones simétricas
media y mediana coinciden. Si
sólo hay una moda también
coincide
 La asimetría es positiva o
negativa en función de a qué
lado se encuentra la cola de la
distribución.
 La media tiende a desplazarse
hacia las valores extremos
(colas).
 Las discrepancias entre las
medidas de tendencia central
son indicación de asimetría.
37

Asimetría
 Propiedad de los datos que tiene en cuenta la forma
de distribución de los mismos
 Posición de la media con respecto a la mediada
 Media > Mediana Asimétrica positiva
 Media = Mediana Simétrica
 Media < Mediana Asimétrica negativa
 Coeficiente Pearsoniano
3( Media  Mediana)
S KP 
Desvío
 Valores negativos: asimetría negativa
 Valores positivos: asimetría positiva
 Valores aproximados a cero: simétrica 38

19
 Coeficiente de curtosis
1 (Q3  Q1 )
K 2
P90  P10
 K=0 platicurtica
 K=0.26 mesocurtica
 K=0.5 leptocurtica

39

Estadísticos y gráficos recomendados


según el tipo de variable
Tipo de Tipo de Medida de tend. Medida de
variable gráfico central dispersión
Cualitativa  Circular modo -
Nominal  De barras

Cualitativa  De barras modo -


ordinal
Cuantitativa De barras modo -
Discreta Box Plot media desvío std
mediana RIQ
Cuantitativa Histograma modo -
Continua Box Plot media desvío std
mediana RIQ

20

También podría gustarte