Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2 Estadistica Descriptiva
2 Estadistica Descriptiva
TEMA II
ESTADÍSTICA DESCRIPTIVA
1
Estadística I
Prof. Javier Martínez
7.- Distribución de Frecuencias para Datos Agrupados: es una tabla resumen en la cual
los datos se encuentran divididos en grupos ordenados numéricamente. A estos grupos
se les denominan clases o categorías. Esta tabla se emplea cuando la variable es
continua o se obtiene un gran número de datos. Para la elaboración de estas tablas en
conveniente seguir los siguientes pasos:
4.1.- Selección del número de clases (𝑘): el número de clases que se utilizan
depende primordialmente de la cantidad de datos que se tengan, es una decisión
2
Estadística I
Prof. Javier Martínez
3
Estadística I
Prof. Javier Martínez
Peso (Kg) 𝒙̇ 𝒇𝒊 𝒉𝒊 𝑭𝒊 𝑯𝒊
[𝟓𝟓, 𝟔𝟎) 57,5 5 0,3125 5 0,3125
Total 16
4
Estadística I
Prof. Javier Martínez
Ejemplo 2.4:
Un prestamista local tiene en la actualidad 120 cuentas, su contable le comunica que de
las 25 cuentas comprendidas entre 0 y 4999 dólares; 10 vencen ahora, 5 vencieron hace
tiempo y el resto son morosas; lo que implica para el deudor el peligro de ver ejecutada
la deuda por el prestamista.
De las 37 cuentas situadas en el intervalo de 5000 a 9999 dólares; 15 vencen ahora, 10
han vencido hace tiempo y el resto son morosas.
Hay 39 cuentas en el intervalo de 10000 a 14999 dólares que indican que 11 vencen
ahora, 10 vencieron hace tiempo y el resto son morosas. Del resto de las cuentas, en el
intervalo de 15000 o más; 5 vencen ahora, 7 han vencido y el resto son morosas.
El prestamista quiere ver una tabla de contingencia de estas cuentas, para lo cual le pide
a su contable que la elabore:
Cuentas
0 - 4999 5000 - 9999 10000-14999 15000 o más Totales
Condición
Vencen ahora 10 15 11 5 41
Vencieron hace 5 10 10 7 32
tiempo
Morosas 10 12 18 7 47
Totales 25 37 39 19 120
5
Estadística I
Prof. Javier Martínez
19%
[70, 75] 31%
[55, 60)
31%
[65, 70)
19%
[60, 65)
Planean ir o Planea ir a la
quizás vayan a universidad
una escuela 43%
vocacional.
11%
Quizás vayan
a la
universidad.
27%
Pictogramas: Son representaciones graficas que se hacen por medio de dibujos, que en
la mayoría de los casos son semejantes al fenómeno que se quiere representar. Por
ejemplo, si estudiamos el número de botellas recogidas el pictograma correspondiente
seria:
6
Estadística I
Prof. Javier Martínez
Gráficos de Barras: Es una gráfica que muestra datos utilizando barras horizontales o
verticales cuyas longitudes son proporcionales a las cantidades que representan. Se
puede utilizar para datos cuantitativos y cualitativos. Por tanto, para el Ejemplo 2.2 y
Ejemplo 2.3.
7
Estadística I
Prof. Javier Martínez
través de él se pueden visualizar las tres características de los datos: forma, acumulación
o tendencia posicional y la dispersión o variabilidad.
Polígonos de Frecuencia: Son gráficos de línea trazados sobre las marcas de clase de
cada intervalo, puede obtenerse uniendo los puntos medios de los techos de los
rectángulos del histograma y tomando en cuenta que se deben extender ambos extremos
del polígono hasta el eje horizontal en aquellos puntos que serían las marcas de clase
adyacentes a cada extremo.
8
Estadística I
Prof. Javier Martínez
Ojivas:
Es la gráfica de una distribución de frecuencias acumuladas, los intervalos de las clases
se ubican en el eje horizontal.
Media Aritmética
La medida de localización más importante es la media, o valor promedio, de una
variable.
9
Estadística I
Prof. Javier Martínez
Si tenemos una variable aleatoria X tal que la primera, segunda y i-ésima observación es
representada por 𝑥1 , 𝑥2 𝑦 𝑥𝑖 respectivamente. La Media Muestra es definida como:
a) Para la Tabla de Datos No Agrupados,
𝑛
1
𝑥̅ = ∑ 𝑥𝑖
𝑛
𝑖=1
Moda
Es el valor de los datos que se presenta con más frecuencia, por lo que representa el
punto más alto en la curva de distribución de un conjunto de datos.
a) Para la Tabla de Datos No Agrupados,
Consiste en visualizar cuál valor o elemento presenta mayor frecuencia.
b) Para la Tabla de Datos Agrupados,
Si 𝑙𝑖 ,𝑓𝑎 , 𝑓𝑠 , 𝑓𝑚𝑜𝑑 y a representan el límite inferior de la i-ésima clase, la
frecuencia absoluta anterior, la frecuencia absoluta siguiente, la frecuencia de la
clase con mayor frecuencia y la amplitud o longitud de la clase, respectivamente,
se tiene que:
𝑓𝑚𝑜𝑑 − 𝑓𝑎
𝑚𝑜𝑑𝑎 = 𝑙𝑖 + 𝑎
(𝑓𝑚𝑜𝑑 − 𝑓𝑎 ) + (𝑓𝑚𝑜𝑑 − 𝑓𝑠 )
10
Estadística I
Prof. Javier Martínez
Mediana
La Mediana es otra medida de localización central. Es el valor central en los datos
ordenados de menor a mayor (en forma ascendente).
Medidas de Posición
Percentiles
Un Percentil aporta información acerca de la dispersión de los datos en el intervalo que
va del menor al mayor valor de los datos. Dicho de otra forma, el percentil son aquellos
valores que dividen a un conjunto de datos ordenados en cien partes iguales. 𝑝𝑖
representa al i-ésimo percentil. Así por ejemplo, 𝑝1 es el valor donde se sitúa a la sumo
el 1% de los datos.
a) Para la Tabla de Datos No Agrupados,
Primeramente, se ordenen los datos de manera ascendente, luego, se calcula
𝑖
(100) 𝑛 (n es el número de datos). Si este valor es entero, el i-ésimo percentil es el
𝑖 𝑖
promedio de los valores de los datos ubicados en los lugares (100) 𝑛 y (100) 𝑛+1.
𝑖
Si por el contrario, este valor no es entero, el valor entero inmediato a (100) 𝑛
11
Estadística I
Prof. Javier Martínez
𝑎 𝑛𝑗
𝑝𝑗 = 𝑙𝑖 + ( − 𝐹𝑎 )
𝑓𝑗 100
Cuartiles
Son aquellos valores que dividen en cuatro partes iguales a un conjunto de datos
ordenados. Se representan por 𝑞𝑖 con 𝑖 = 1, 2, 3. Para el cálculo de los mismos, se parte
de la idea que 𝑞1 = 𝑝25 , 𝑞2 = 𝑝50, 𝑞3 = 𝑝75.
Deciles
Son aquellos valores que dividen en diez partes iguales a un conjunto de datos
ordenados. Se representan por 𝑑𝑖 con 𝑖 = 1, 2, … 9. Para calcular los deciles
consideramos que 𝑑1 = 𝑝10 , 𝑑2 = 𝑝20 , 𝑑3 = 𝑝30 , 𝑑4 = 𝑝40 , 𝑑5 = 𝑝50 , …, 𝑑𝑖 =
𝑝(10)𝑖 , con 𝑖 = 1, 2, … ,9.
Medidas de Dispersión
Mientras que los estadísticos de tendencia central nos indican los valores alrededor de
los cuales se sitúa un grupo de observaciones, los estadísticos de variabilidad o
dispersión muestran si los valores de las observaciones están próximos entre sí o están
muy separados.
La dispersión, es definida como el grado en que los datos numéricos tienden a
extenderse alrededor de un valor medio. La dispersión de la distribución suministra
información completa que permite juzgar la confiabilidad de nuestra medida de
tendencia central. Si los datos están ampliamente dispersos, la localización central será
menos representativa de los datos en su conjunto de lo que sería en el caso de datos que
se acumulasen más alrededor de la media.
Rango
El Rango (R), es definido como la diferencia entre el valor más alto y más bajo
observado. Es decir:
𝑅 = 𝑋𝑚á𝑥 − 𝑋𝑚í𝑛
Un rango pequeño indica poca variación, mientras que uno grande gran variabilidad.
También, es importante tener en consideración que el rango o es muy útil ya que solo
toma en cuenta el valor máximo y mínimo de una distribución por lo que no da una
12
Estadística I
Prof. Javier Martínez
Rango Intercuartil
El Rango Intercuartil (RI) Es la diferencia entre los valores del primer y tercer cuartil.
Esto permite reflejar la variabilidad de las observaciones del 50% intermedio de los
datos y tiene la venta de no verse influenciado por valores extremos.
𝑅𝐼 = 𝑞3 − 𝑞1
Es relevante mencionar que al hacer referencia al Rango Semi-Intercuartil (RSI) nos
referimos a;
𝑞3 − 𝑞1 𝑅𝐼
𝑅𝑆𝐼 = =
2 2
2
∑𝑘𝑖=1(𝑥𝑖̇ − 𝜇)2 𝑓𝑖
𝜎 =
𝑛
2
∑𝑘𝑖=1(𝑥𝑖̇ − 𝑥̅ )2 𝑓𝑖
𝑆 =
𝑛−1
13
Estadística I
Prof. Javier Martínez
3.- Nos permite determinar con mayor grado de precisión dónde se sitúan los valores de
una distribución de frecuencia en relación con la media.
4.- Las unidades de la desviación típica se expresan en las mismas unidades de los
datos.
5.- Puede sufrir un cambio desproporcionado por la existencia de valores extremos en el
conjunto.
Coeficiente de Variación
El Coeficiente de Variación (CV) mide el grado de dispersión de un conjunto de datos
en relación a su media.
𝑆
𝐶𝑉 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 = ( ) 100%
𝑥̅
𝜎
𝐶𝑉 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 = ( ) 100%
𝜇
Es importante resaltar que, el CV es un estadístico útil para comparar la dispersión de
conjuntos de datos que tienen distintas desviaciones estándar y distintos promedios. Al
igual que, el CV pierde su utilidad cuando la media se aproxima a cero. También, se
tiene que cuando |𝐶𝑉| ≤ 10% la distribución de los datos es homogénea, es decir,
existe poca dispersión en los datos, por lo que se puede concluir que la media es
significativa.
14
Estadística I
Prof. Javier Martínez
(𝑥̅ − 𝑀𝑒𝑑𝑖𝑎𝑛𝑎)
𝑆𝐾 = 3
𝑆
Medidas de Curtosis
La Curtosis hace referencia a la concentración de datos en la región central. Es el grado
de pico o apuntamiento que presenta una distribución. El patrón de referencia es la
distribución normal.
Para su cálculo,
15
Estadística I
Prof. Javier Martínez
Curva platicúrtica: es aquella que presenta un pico ligero, es achatada. En este caso
𝛾2 < 0.
16
Estadística I
Prof. Javier Martínez
17
Estadística I
Prof. Javier Martínez
18