Desarrollo de Los Estadísticos Trabajados en Clase

1.
ESTADÍSTICO DE CENTRALIZACIÓN
Las medidas de centralización son herramientas estadísticas que proporcionan

información sobre la ubicación o tendencia central de un conjunto de datos. Estas
medidas resumen la distribución de los datos en torno a un valor central, lo que
ayuda a comprender la "típica" o "central" posición de los datos en un conjunto.
1.1 MEDIA
La media (𝑥𝑥) se calcula a partir de la suma de todos los datos (𝜎𝜎) dividida entre la
cantidad de datos existentes (n). Esta permite establecer el valor al que los datos
más se acercan. En este caso la media de acuerdo con los datos manejados en el
archivo anterior quedaría de la siguiente manera:
𝑛𝑛 = 40
𝜕𝜕 = 12 + 36 + 50 + 17 + 36 + 29 + 23 + 50 + 17 + 46 + 34 + 22 + 40 + 31 + 38
+ 15 + 11 + 37 + 39 + 27 + 12 + 34 + 43 + 20 + 39 + 29 + 40 + 14
+ 25 + 29 + 24 + 25 + 23 + 43 + 26 + 20 + 17 + 48 + 22 + 34
𝜕𝜕 1177
𝑥𝑥 = = = 29.4250
𝑛𝑛 40
1.2 MEDIANA
La mediana es el valor que divide el conjunto de datos en dos partes iguales

cuando estos están ordenados. En este caso la mediana del conjunto ordenado de
datos es 29:
11 12 12 14 15 17 17 17 20 20 22 22 23 23 24 25 25 26 27 29 29 29 31 34
34 34 36 36 37 38 39 39 40 40 43 43 46 48 50 50
29 + 29
𝑥𝑥� = = 29
2
1.3 MODA
La moda es el valor que aparece con mayor frecuencia en un conjunto de datos.
En el conjunto de datos proporcionado, las modas son 17, 29 y 34, ya que
aparecen tres veces, más que cualquier otro valor:
11 12 12 14 15 17 17 17 20 20 22 22 23 23 24 25 25 26 27 29 29 29 31 34
34 34 36 36 37 38 39 39 40 40 43 43 46 48 50 50
1.4. APLICACIÓN EN CÓDIGO:
A partir de la librería statistics de Python es posible sacar la media, mediana y

moda del conjunto de datos dispuesto con los métodos mean(), median() y
multimode():
Estos datos también se pueden ver reflejados en el histograma realizado en la

práctica anterior con la adición de una línea vertical que indique donde están
ubicados los datos:
2. ESTADÍSTICO DE FORMA
La disposición de los datos en un histograma puede brindar información valiosa

acerca de cómo se comporta el conjunto de datos y por eso es importante realizar
un análisis con respecto a estos gráficos.
2.1 ASIMETRÍA O SESGO
A partir de gráfica de distribución desplegada en el informe anterior es posible

observar que la asimetría que poseen los datos a partir de la frecuencia
acumulada es positiva:
Asim. Positiva
Cola
Sin embargo, esta asimetría es bastante pequeña ya que las discrepancias entre
las medidas de tendecia central son mínimas, lo que se ve reflejado en la gráfica,
puesto que la mediana y la media solo estan un poco desplazadas a la izquierda.
2.2 APUNTAMIENTO O CURTOSIS
La gráfica anterior es platicúrtica debido a su grado de aplastamiento con respecto

a la distribución normal o gaussiana por lo que su índice de curtosis es menor a 0.
Esto se puede apreciar mejor con la siguiente imagen, en la cual se comparan dos
conjuntos de datos de la misma naturaleza pero con curtosis distinta:
A partir de la librería Numpy y la transformación de los datos a un Dataframe es

posible calcular dos coeficientes para la curtosis y asimetría. El coeficiente de
asimetría es positivo en el caso de tener la cola a la derecha y negativo en caso
contrario.
Además es posible visualizar el coeficiente de asimetría con un gráfico de caja,

con el siguiente código:
3. ESTADÍSTICO DE DISPERSIÓN
En estadística, los estadísticos de dispersión son medidas que indican cuán

dispersos o agrupados están los datos en torno a una medida central. Aquí, vamos
a calcular la desviación estándar, el coeficiente de variación, el rango y la varianza
para los datos del informe anterior.
3.1. VARIANZA
La varianza mide qué tan dispersos están los datos respecto a la media. Su
fórmula es la siguiente:
∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
𝛼𝛼 =
𝑛𝑛
Donde:
- 𝛼𝛼 es la varianza.
- 𝑥𝑥𝑖𝑖 son los datos individuales.
- 𝑥𝑥̅ es la media de los datos.
- n es el número de datos.
Con los datos del problema queda de la siguiente forma:
(11 − 29.4)2 + (12 − 29.4)2 + ⋯ + (50 − 29.4)2 + (50 − 29.4)2

𝛼𝛼 = = 124
40
3.2. DESVIACIÓN ESTÁNDAR
La desviación estándar es una medida que indica cuánto varían, en promedio, los
valores de un conjunto de datos con respecto a la media. Su fórmula es
equivalente a la raíz cuadrada de la varianza:
𝜎𝜎 = √𝛼𝛼
Quedando de la siguiente forma:
𝜎𝜎 = √124 ≈ 11.1356
3.3. COEFICIENTE DE VARIACIÓN
El coeficiente de variación mide la proporción de la desviación estándar con

respecto a la media, expresado como un porcentaje:
𝜎𝜎
𝐶𝐶𝑉𝑉 = ∗ 100
𝑥𝑥̅
Donde:
- 𝐶𝐶𝑉𝑉 es el coeficiente de varianza
- 𝜎𝜎 la desviación estándar
- 𝑥𝑥̅ es la media de los datos.
Por lo tanto la desviación estándar de los datos es la siguiente:
11.1356
𝐶𝐶𝑉𝑉 = ∗ 100 = 38.3984
29.425
3.4. ERROR ESTÁNDAR
El error estándar es una medida estadística que indica la precisión de una
estimación o la dispersión de un conjunto de datos. Este se calcula a partir de la
desviación estándar y el número de clases de la siguiente manera:
𝜎𝜎
𝑆𝑆𝑆𝑆𝑆𝑆 =
√𝑛𝑛
Donde:
- 𝜎𝜎 la desviación estándar
- √𝑛𝑛 es el número de clases.
El error estándar de los datos elegidos es:
11.1356
𝑆𝑆𝑆𝑆𝑆𝑆 = = 1.7607
√40
El cuál es un error pequeño, lo que indica que hay una dispersión muy pequeña
entre los datos.
A partir de la librería statistics de Python también es posible calcular la varianza y

la desviación estándar, pero el coeficiente de variación y el error estándar deben
ser calculados de forma manual:
El error estándar puede ser visualizado en todos los datos a partir del siguiente
código usando Matplotlib:
4. ESTADÍSTICO DE POSICIÓN
4.1. PERCENTILES
Los percentiles dividen un conjunto de datos en 100 partes iguales. El percentil P

indica que P por ciento de los datos son iguales o menores que ese valor. Los
distintos percentiles con datos agrupados pueden ser calculados con la siguiente
fórmula:
𝐴𝐴 𝑘𝑘 ∗ 𝑛𝑛
𝑃𝑃𝑘𝑘 = 𝐿𝐿𝑖𝑖 + ( − 𝐹𝐹𝐴𝐴−1 )
𝐹𝐹𝑖𝑖 100
Donde:
- 𝐿𝐿𝑖𝑖 es el límite inferior de la clase del percentil
- 𝐹𝐹𝑖𝑖 es la frecuencia absoluta de la clase del percentil
- A es la amplitud de clase
- k es el percentil
- n el número de datos
- 𝐹𝐹𝐴𝐴−1 es la frecuencia absoluta acumulada de la clase anterior al percentil
Por ejemplo, si se quisiera calcular el percentil 60 de los datos quedaría de la

siguiente manera:
𝑘𝑘 ∗ 𝑛𝑛 60 ∗ 40
= = 24
100 100
Intervalos Frecuencia Frecuencia absoluta

absoluta acumulada
(11, 17) 5 5
(17, 23) 7 12
(23, 29) 7 19
(29, 35) 7 26
(35, 41) 8 34
(41, 47) 3 37
(47, 50) 3 40
Tabla 1. Tabla de frecuencias absolutas de las notas de Ciencias Naturales
De acuerdo con el cálculo anterior, el percentil 60 se encuentra en el intervalo

(29,35), ya que se obtuvo una frecuencia absoluta de 24. Con esta información ya
es posible encontrar todos los demás datos: 𝐿𝐿𝑖𝑖 = 29 , 𝐹𝐹𝑖𝑖 = 7, 𝐴𝐴 = 6, 𝐹𝐹𝐴𝐴−1 = 19
6
𝑃𝑃60 = 29 + (24 − 19) ≈ 33.2857
7
4.2. CUARTILES, QUINTILES Y DECILES
Además de los percentiles es posible obtener grupos de división distintos como los
cuartiles que agrupan el 25% de los datos, los quintiles que agrupan el 20% de los
datos y los deciles que agrupan el 10% de los datos todos se rigen por la formula
𝑘𝑘∗𝑛𝑛
anterior con un ligero cambio en la misma en , que será reemplazado por la
100
siguiente fórmula:
𝑘𝑘 ∗ 𝑛𝑛
𝐼𝐼𝐼𝐼𝐼𝐼é𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 =
𝑟𝑟
Donde:
- 𝑘𝑘 es el cuartil, quintil o decil
- 𝑛𝑛 el número de datos
- 𝑟𝑟 el número de grupos que se formaran con los datos. Para el cuartil 4, para
el quintil 5 y para el decil 10.
Siguiendo los procedimientos anteriores es posible, por ejemplo calcular el decil 2

de los datos de la siguiente manera:
2 ∗ 40
𝐼𝐼𝐼𝐼𝐼𝐼é𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 = =8
10
Con la información de la tabla de frecuencias absolutas, se sabe que el decil 2 se

encuentra en el intervalo (17,23) obteniendo los datos para completar la fórmula: :
𝐿𝐿𝑖𝑖 = 17 , 𝐹𝐹𝑖𝑖 = 7, 𝐴𝐴 = 6, 𝐹𝐹𝐴𝐴−1 = 5
6
𝐷𝐷2 = 17 + (8 − 5) ≈ 19.5714
7

A partir de la creación de una distribución normal con la media y desviación
estándar obtenidas anteriormente y con la librería de statistics, es posible usar la
función quantiles() con el cuál se pueden realizar las divisiones pertinentes de los
datos. Esta función recibe un argumento equivalente al porcentaje en elñ que se
dividirán los datos (por ejemplo para los cuartiles el número seria 25):

Desarrollo de Los Estadísticos Trabajados en Clase

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Desarrollo de Los Estadísticos Trabajados en Clase

Cargado por

Copyright:

Formatos disponibles

1.

Las medidas de centralización son herramientas estadísticas que proporcionan

La mediana es el valor que divide el conjunto de datos en dos partes iguales

A partir de la librería statistics de Python es posible sacar la media, mediana y

Estos datos también se pueden ver reflejados en el histograma realizado en la

La disposición de los datos en un histograma puede brindar información valiosa

2.1 ASIMETRÍA O SESGO

A partir de gráfica de distribución desplegada en el informe anterior es posible

2.2 APUNTAMIENTO O CURTOSIS

La gráfica anterior es platicúrtica debido a su grado de aplastamiento con respecto

2.3. APLICACIÓN EN CÓDIGO:

A partir de la librería Numpy y la transformación de los datos a un Dataframe es

Además es posible visualizar el coeficiente de asimetría con un gráfico de caja,

En estadística, los estadísticos de dispersión son medidas que indican cuán

Con los datos del problema queda de la siguiente forma:

(11 − 29.4)2 + (12 − 29.4)2 + ⋯ + (50 − 29.4)2 + (50 − 29.4)2

3.2. DESVIACIÓN ESTÁNDAR

Quedando de la siguiente forma:

3.3. COEFICIENTE DE VARIACIÓN

El coeficiente de variación mide la proporción de la desviación estándar con

Por lo tanto la desviación estándar de los datos es la siguiente:

El error estándar de los datos elegidos es:

3.5. APLICACIÓN EN CÓDIGO:

A partir de la librería statistics de Python también es posible calcular la varianza y

Los percentiles dividen un conjunto de datos en 100 partes iguales. El percentil P

Por ejemplo, si se quisiera calcular el percentil 60 de los datos quedaría de la

Intervalos Frecuencia Frecuencia absoluta

De acuerdo con el cálculo anterior, el percentil 60 se encuentra en el intervalo

4.2. CUARTILES, QUINTILES Y DECILES

Siguiendo los procedimientos anteriores es posible, por ejemplo calcular el decil 2

Con la información de la tabla de frecuencias absolutas, se sabe que el decil 2 se

4.3. APLICACIÓN EN CÓDIGO:

También podría gustarte