Está en la página 1de 9

1.

ESTADÍSTICO DE CENTRALIZACIÓN

Las medidas de centralización son herramientas estadísticas que proporcionan


información sobre la ubicación o tendencia central de un conjunto de datos. Estas
medidas resumen la distribución de los datos en torno a un valor central, lo que
ayuda a comprender la "típica" o "central" posición de los datos en un conjunto.

1.1 MEDIA

La media (𝑥𝑥) se calcula a partir de la suma de todos los datos (𝜎𝜎) dividida entre la
cantidad de datos existentes (n). Esta permite establecer el valor al que los datos
más se acercan. En este caso la media de acuerdo con los datos manejados en el
archivo anterior quedaría de la siguiente manera:

𝑛𝑛 = 40

𝜕𝜕 = 12 + 36 + 50 + 17 + 36 + 29 + 23 + 50 + 17 + 46 + 34 + 22 + 40 + 31 + 38
+ 15 + 11 + 37 + 39 + 27 + 12 + 34 + 43 + 20 + 39 + 29 + 40 + 14
+ 25 + 29 + 24 + 25 + 23 + 43 + 26 + 20 + 17 + 48 + 22 + 34

𝜕𝜕 1177
𝑥𝑥 = = = 29.4250
𝑛𝑛 40
1.2 MEDIANA

La mediana es el valor que divide el conjunto de datos en dos partes iguales


cuando estos están ordenados. En este caso la mediana del conjunto ordenado de
datos es 29:

11 12 12 14 15 17 17 17 20 20 22 22 23 23 24 25 25 26 27 29 29 29 31 34
34 34 36 36 37 38 39 39 40 40 43 43 46 48 50 50

29 + 29
𝑥𝑥� = = 29
2

1.3 MODA
La moda es el valor que aparece con mayor frecuencia en un conjunto de datos.
En el conjunto de datos proporcionado, las modas son 17, 29 y 34, ya que
aparecen tres veces, más que cualquier otro valor:

11 12 12 14 15 17 17 17 20 20 22 22 23 23 24 25 25 26 27 29 29 29 31 34
34 34 36 36 37 38 39 39 40 40 43 43 46 48 50 50
1.4. APLICACIÓN EN CÓDIGO:

A partir de la librería statistics de Python es posible sacar la media, mediana y


moda del conjunto de datos dispuesto con los métodos mean(), median() y
multimode():

Estos datos también se pueden ver reflejados en el histograma realizado en la


práctica anterior con la adición de una línea vertical que indique donde están
ubicados los datos:

2. ESTADÍSTICO DE FORMA

La disposición de los datos en un histograma puede brindar información valiosa


acerca de cómo se comporta el conjunto de datos y por eso es importante realizar
un análisis con respecto a estos gráficos.

2.1 ASIMETRÍA O SESGO

A partir de gráfica de distribución desplegada en el informe anterior es posible


observar que la asimetría que poseen los datos a partir de la frecuencia
acumulada es positiva:
Asim. Positiva
Cola

Sin embargo, esta asimetría es bastante pequeña ya que las discrepancias entre
las medidas de tendecia central son mínimas, lo que se ve reflejado en la gráfica,
puesto que la mediana y la media solo estan un poco desplazadas a la izquierda.

2.2 APUNTAMIENTO O CURTOSIS

La gráfica anterior es platicúrtica debido a su grado de aplastamiento con respecto


a la distribución normal o gaussiana por lo que su índice de curtosis es menor a 0.
Esto se puede apreciar mejor con la siguiente imagen, en la cual se comparan dos
conjuntos de datos de la misma naturaleza pero con curtosis distinta:

2.3. APLICACIÓN EN CÓDIGO:

A partir de la librería Numpy y la transformación de los datos a un Dataframe es


posible calcular dos coeficientes para la curtosis y asimetría. El coeficiente de
asimetría es positivo en el caso de tener la cola a la derecha y negativo en caso
contrario.

Además es posible visualizar el coeficiente de asimetría con un gráfico de caja,


con el siguiente código:

3. ESTADÍSTICO DE DISPERSIÓN

En estadística, los estadísticos de dispersión son medidas que indican cuán


dispersos o agrupados están los datos en torno a una medida central. Aquí, vamos
a calcular la desviación estándar, el coeficiente de variación, el rango y la varianza
para los datos del informe anterior.

3.1. VARIANZA

La varianza mide qué tan dispersos están los datos respecto a la media. Su
fórmula es la siguiente:
∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
𝛼𝛼 =
𝑛𝑛
Donde:
- 𝛼𝛼 es la varianza.
- 𝑥𝑥𝑖𝑖 son los datos individuales.
- 𝑥𝑥̅ es la media de los datos.
- n es el número de datos.

Con los datos del problema queda de la siguiente forma:

(11 − 29.4)2 + (12 − 29.4)2 + ⋯ + (50 − 29.4)2 + (50 − 29.4)2


𝛼𝛼 = = 124
40

3.2. DESVIACIÓN ESTÁNDAR

La desviación estándar es una medida que indica cuánto varían, en promedio, los
valores de un conjunto de datos con respecto a la media. Su fórmula es
equivalente a la raíz cuadrada de la varianza:

𝜎𝜎 = √𝛼𝛼

Quedando de la siguiente forma:

𝜎𝜎 = √124 ≈ 11.1356

3.3. COEFICIENTE DE VARIACIÓN

El coeficiente de variación mide la proporción de la desviación estándar con


respecto a la media, expresado como un porcentaje:

𝜎𝜎
𝐶𝐶𝑉𝑉 = ∗ 100
𝑥𝑥̅
Donde:
- 𝐶𝐶𝑉𝑉 es el coeficiente de varianza
- 𝜎𝜎 la desviación estándar
- 𝑥𝑥̅ es la media de los datos.

Por lo tanto la desviación estándar de los datos es la siguiente:

11.1356
𝐶𝐶𝑉𝑉 = ∗ 100 = 38.3984
29.425
3.4. ERROR ESTÁNDAR
El error estándar es una medida estadística que indica la precisión de una
estimación o la dispersión de un conjunto de datos. Este se calcula a partir de la
desviación estándar y el número de clases de la siguiente manera:

𝜎𝜎
𝑆𝑆𝑆𝑆𝑆𝑆 =
√𝑛𝑛
Donde:
- 𝜎𝜎 la desviación estándar
- √𝑛𝑛 es el número de clases.

El error estándar de los datos elegidos es:

11.1356
𝑆𝑆𝑆𝑆𝑆𝑆 = = 1.7607
√40

El cuál es un error pequeño, lo que indica que hay una dispersión muy pequeña
entre los datos.

3.5. APLICACIÓN EN CÓDIGO:

A partir de la librería statistics de Python también es posible calcular la varianza y


la desviación estándar, pero el coeficiente de variación y el error estándar deben
ser calculados de forma manual:

El error estándar puede ser visualizado en todos los datos a partir del siguiente
código usando Matplotlib:
4. ESTADÍSTICO DE POSICIÓN

4.1. PERCENTILES

Los percentiles dividen un conjunto de datos en 100 partes iguales. El percentil P


indica que P por ciento de los datos son iguales o menores que ese valor. Los
distintos percentiles con datos agrupados pueden ser calculados con la siguiente
fórmula:

𝐴𝐴 𝑘𝑘 ∗ 𝑛𝑛
𝑃𝑃𝑘𝑘 = 𝐿𝐿𝑖𝑖 + ( − 𝐹𝐹𝐴𝐴−1 )
𝐹𝐹𝑖𝑖 100
Donde:
- 𝐿𝐿𝑖𝑖 es el límite inferior de la clase del percentil
- 𝐹𝐹𝑖𝑖 es la frecuencia absoluta de la clase del percentil
- A es la amplitud de clase
- k es el percentil
- n el número de datos
- 𝐹𝐹𝐴𝐴−1 es la frecuencia absoluta acumulada de la clase anterior al percentil

Por ejemplo, si se quisiera calcular el percentil 60 de los datos quedaría de la


siguiente manera:

𝑘𝑘 ∗ 𝑛𝑛 60 ∗ 40
= = 24
100 100

Intervalos Frecuencia Frecuencia absoluta


absoluta acumulada
(11, 17) 5 5
(17, 23) 7 12
(23, 29) 7 19
(29, 35) 7 26
(35, 41) 8 34
(41, 47) 3 37
(47, 50) 3 40
Tabla 1. Tabla de frecuencias absolutas de las notas de Ciencias Naturales

De acuerdo con el cálculo anterior, el percentil 60 se encuentra en el intervalo


(29,35), ya que se obtuvo una frecuencia absoluta de 24. Con esta información ya
es posible encontrar todos los demás datos: 𝐿𝐿𝑖𝑖 = 29 , 𝐹𝐹𝑖𝑖 = 7, 𝐴𝐴 = 6, 𝐹𝐹𝐴𝐴−1 = 19

6
𝑃𝑃60 = 29 + (24 − 19) ≈ 33.2857
7

4.2. CUARTILES, QUINTILES Y DECILES

Además de los percentiles es posible obtener grupos de división distintos como los
cuartiles que agrupan el 25% de los datos, los quintiles que agrupan el 20% de los
datos y los deciles que agrupan el 10% de los datos todos se rigen por la formula
𝑘𝑘∗𝑛𝑛
anterior con un ligero cambio en la misma en , que será reemplazado por la
100
siguiente fórmula:

𝑘𝑘 ∗ 𝑛𝑛
𝐼𝐼𝐼𝐼𝐼𝐼é𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 =
𝑟𝑟
Donde:
- 𝑘𝑘 es el cuartil, quintil o decil
- 𝑛𝑛 el número de datos
- 𝑟𝑟 el número de grupos que se formaran con los datos. Para el cuartil 4, para
el quintil 5 y para el decil 10.

Siguiendo los procedimientos anteriores es posible, por ejemplo calcular el decil 2


de los datos de la siguiente manera:

2 ∗ 40
𝐼𝐼𝐼𝐼𝐼𝐼é𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 = =8
10

Con la información de la tabla de frecuencias absolutas, se sabe que el decil 2 se


encuentra en el intervalo (17,23) obteniendo los datos para completar la fórmula: :
𝐿𝐿𝑖𝑖 = 17 , 𝐹𝐹𝑖𝑖 = 7, 𝐴𝐴 = 6, 𝐹𝐹𝐴𝐴−1 = 5

6
𝐷𝐷2 = 17 + (8 − 5) ≈ 19.5714
7

4.3. APLICACIÓN EN CÓDIGO:


A partir de la creación de una distribución normal con la media y desviación
estándar obtenidas anteriormente y con la librería de statistics, es posible usar la
función quantiles() con el cuál se pueden realizar las divisiones pertinentes de los
datos. Esta función recibe un argumento equivalente al porcentaje en elñ que se
dividirán los datos (por ejemplo para los cuartiles el número seria 25):

También podría gustarte