Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADÍSTICA DESCRIPTIVA
Estadística Descriptiva:
Es la rama de la estadística que se dedica a la organización, síntesis y descripción
de un conjunto de datos. También se puede decir que consiste en la recopilación,
ordenación, resumen, tabulación, manipulación, representación gráfica, análisis... de
la muestra para extraer la información primaria sobre la variable contenida en la
misma. Sus conclusiones se quedan en el ámbito de los propios elementos con los
que experimenta, es decir la muestra.
Estadística Inferencial:
La rama que se ocupa de utilizar datos de muestra para inferir algo acerca de una
población. En este caso se esta en presencia de una población hipotética
(desconocida) y estaremos en la necesidad de diseñar una muestra y a partir del
estadístico encontrado hacer una inferencia del parámetro .
θ
Universo
Población
Objetivo
Muestra
Variable
63 65 63 69 67 53 58 60 61
65 64 72 68 66 55 57 60 62
65 64 71 68 66 56 59 61 62
65 63 70 67 66 57 59 61 62
fi Fa Fa
hi H a
H a
n n n
EJEMPLO
Tabla 2. Salarios semanales de 110 trabajadores no calificados
Proporc. % Proporc. %
240-259 239.50-259.50 7 0.06 6 0.06 6
260-279 259.50-279.50 20 0.18 18 0.24 24
280-299 279.50-299.50 33 0.30 30 0.54 54
300-319 299.50-319.50 25 0.23 23 0.77 77
320-339 319.50-339.50 15 0.14 14 0.91 91
340-359 339.50-359.50 10 0.09 9 1 100%
110 1 10
0%
REPRESENTACIÓN DE DATOS PEQUEÑOS
Se debe indicar el cero siempre que sea posible; en caso de que no lo sea, y
si tal omisión pudiera provocar alguna conclusión errónea, es aconsejable
advertirlo de algún modo (por lo general, con un corte en el eje)
REPRESENTACIÓN DE DATOS
La distribución de frecuencias por intervalos, datos grandes o muy
variables, se representa gráficamente por medio de un
HISTOGRAMA, o de un polígono de frecuencias. A partir del polígono
de frecuencias se puede trazar la curva de frecuencias.
Tipos de polígonos:
• Polígonos de frecuencia absoluta.
•Polígonos de frecuencia relativa.
•Polígono porcentual.
REPRESENTACIÓN DE DATOS
Ventajas:
• Una de las ventajas del uso de polígonos es que permite hacer
comparación entre dos o más conjuntos de datos.
• Representa realmente el tipo de población de la que vienen los
datos.
• Describe características de la población tales como: simetría,
asimetría, tipos como: Binomial, Normal, Uniforme.
MEDIDAS DE MEDIDAS DE
MEDIDAS DE
TENDENCIA TENDENCIA NO MEDIDAS DE VARIABILIDAD
DISTRIBUCIÓN
CENTRAL CENTRAL
•MEDIA •DECIL •RANGO O AMPLITUD •CURTOSIS
•MEDIANA •QUARTIL •RANGO INTERCUARTIL •ASIMETRÍA
•MODA •PERCENTIL •VARIANZA
•DESVIACIÓN ESTÁNDAR
Medidas de Tendencia Central
o de posición
Los datos organizados en una distribución de frecuencias destacan sus
características más esenciales, sin embargo los indicadores que describen a
los datos en forma más precisa, deben calcularse. Estos indicadores
resumen los datos en medidas descriptivas que se refieren a la
centralización o posición, a la dispersión o variación, a la asimetría, y a la
curtosis de los datos.
1. Media aritmética: X
EJEMPLO:
Calcular la mediana para los siguientes datos:
120, 3, 14, 1, 99, 7, 30, 2000, 16.
30, 77, 3, 300, 36, 11, 1000, 29.
Medidas de Tendencia
Central o de posición
Propiedades de la Mediana:
Ejemplo 5.
31 17 27 20 28 10 34 25 4 24
15 39 18 30 41 26 12 46 18 23
36 19 29 37 33 27 27 24 26 31
25 28 33 28 22 23 31 29 35 21
Definición 1.
Percentil:
R X max X min
Es una medida fácil de calcular, pero muy inestable ya que depende de los
valores extremos. Su valor puede cambiar grandemente si se añade o elimina
un solo dato. Muchas veces no da una verdadera idea de la dispersión de los
datos.
Medidas de Variabilidad o Dispersión
Definición 2.
Rango Intercuartil:
El RI en un conjunto de datos, es la diferencia entre los cuartiles
tercero y primero.
RI Q 3 Q 1
Es una medida que excluye el 25% más alto y el 25% más bajo,
dando un rango dentro del cual se encuentra el 50% central de los datos y a
diferencia del rango total no se encuentra afectada por valores extremos.
Si RI es pequeño describe alta uniformidad o poca variabilidad en los
datos respecto a los valores centrales.
Medidas de Variabilidad o Dispersión
Desviación estándar (s):
s
2
Es la raíz cuadrada positiva de la varianza s . Es el
índice de dispersión o variabilidad más común y de mayor confianza.
Cálculo de la varianza:
1. Varianza para datos no tabulados:
n n N N
x x x
2 2
2 2
i
x i
x
i i
i 1 i 1 i 1 i 1
2 2
s x
2 2
n 1 n N N
xi x
2
2
fi fi xi
s x
2 i 1 i 1 2
n 1 n
Medidas de Variabilidad o
Dispersión
3. Varianza de datos por intervalos de clases:
K K
fi xm i x
2 2
fi xm i
s x
2 i 1 i 1 2
n 1 n
Medidas de variabilidad o
dispersión
Definición 5.
Coeficiente de variación:
Es una medida de dispersión relativa (libre de unidades de
medidas), que se define como la desviación estándar dividido por la
media aritmética.
s
C .V ó en %
x
El C.V se utiliza para comparar la variabilidad de dos o más datos
que tengan medias iguales o diferentes o que tengan unidades de
medidas iguales o diferentes.
Medidas de Asimetría o de Sesgo
Una distribución de datos puede ser simétrica, asimétrica o sesgada. Es simétrica
cuando queda dividida en dos partes iguales a ambos extremos de la media
aritmética.
3 X Me
1. Formula de Pearson:
As
s
Medidas de Asimetría o de Sesgo
El coeficiente o índice de asimetría se puede calcular de la siguiente forma:
X P 2X p X p
As
90 50 10
XP X p
90 10
Interpretación:
Si As = 0 la distribución de los datos es simétrica.
Si As > 0 la distribución es asimétrica positiva o sesgada a la derecha.
Si As < 0 la distribución es asimétrica negativa o sesgada a la izquierda.
1. Cuando la distribución tiene mayor punta en el centro que una curva normal
se denomina Leptocúrtica.
2. Cuando la distribución sea más aplastada que la normal se denomina
Platicúrtica.
3. Cuando la distribución de los datos tenga la misma forma que la normal, se
denomina Mesocúrtica.
Curtosis
La curtosis se puede calcular de la siguiente forma:
2 XP X p
90 10
Esta medida sólo puede usarse cuando la distribución de los datos es
simétrica, si existe asimetría en los datos su uso carece de sentido.
Interpretación:
Si Cu < 0.263 la distribución es Leptocúrtica.
Si Cu > 0.263 la distribución es Platicúrtica.
Si Cu = 0.263 la distribución es Mesocúrtica.
BOXPLOT – DIAGRAMA DE CAJA
Es un gráfico representativo de las distribuciones de un conjunto de
datos en cuya construcción se usan cinco medidas descriptivas de
los mismos, a saber: mediana, primer cuartil, tercer cuartil, valor
máximo y valor mínimo.
2.-Tercer cuartil (Q3): Por debajo de este valor se encentran como máximo
el 75% de las opiniones de los estudiantes.
4.-Primer cuartil (Q1): Por debajo de este valor se encuentra como máximo
el 25% de las opiniones de los estudiantes