Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis de Datos
Alumno:
Prof: Douglas Leal Valentina López
C.I 26.729.803
Medidas estadísticas
Las medidas estadísticas o parámetros estadísticos son valores representativos de una colección de
datos y que resumen en unos pocos valores la información del total de datos. Estas medidas
estadísticas nos darán información sobre la situación, dispersión y otros patrones de
comportamiento de los datos, de manera que sea posible captar rápidamente la estructura de los
mismos y también la comparación entre distintos conjuntos de datos. Las más importantes son: las
de tendencia central o centralización, que indican el valor medio de los datos, las de dispersión que
miden la variabilidad de los datos respecto a los parámetros de centralización y las de forma:
simetría y apuntamiento, que nos indican la forma de distribución de los datos. Estas medidas
serán más significativas cuanto más homogéneos sean los datos y pueden ser engañosas cuando
mezclamos poblaciones distintas.
Medidas de centralización
Nos dan los valores centrales de los datos obtenidos. Las más usuales son: la media, la moda y la
mediana.
Media
Es la media aritmética de los valores de una variable. Suma de los valores dividido por el tamaño
muestral. La media es la medida más usada para encontrar el promedio. De hecho, la gente
siempre utiliza la palabra "promedio" para referirse a la "media." Encontrarla es simple: solo suma
todos los números en los datos y divídelos por la cantidad de números.
1. Considere los siguientes datos: 3, 8, 4, 10, 6, 2 y calcule los siguientes incisos:
1. Calcular su media.
Si los todos los datos anteriores los multiplicamos por 3 ¿Cuál será la nueva media?
Observamos que si todos los valores de la variable se multiplican por 3 la media aritmética queda
multiplicada por 3.
2. A un conjunto de 5 números cuya medida es 7.31 se le añaden los números 4.47 y 10.15.
¿Cuál es la media del nuevo conjunto de números?
Ahora bien, calculemos la media del conjunto de siete números y desarrollemos de la siguiente
manera.
Significa que la media de los siete números se pudo calcular conociendo a la media de los cinco
primeros.
4. Hallar la media de la distribución estadística que viene dada por la siguiente tabla:
Primero que todo, observemos que ahora los datos no vienen representados de la misma manera
que antes, tenemos intervalos de valores. En este caso lo que se realiza es calcular algo llamado
marca de clase (MC), consiste en sacar la media entre los dos valores que definen el intervalo, por
ejemplo:
Comenzamos calculando la MC
Y aquí observamos que NO se puede calcular la media, porque no se puede hallar la marca de
clase del último intervalo.
Moda
La moda es otra medida de tendencia central, que es muy útil para describir conjuntos de
datos nominales y ordinales y su determinación es sencilla, toda vez que queda fijada por la
ubicación del elemento que mayor frecuencia tiene, es decir, el que más veces aparece en
el estudio. En definitiva la moda puede determinarse para cualquier conjunto de datos y al
igual que la mediana no se ve afectada por la presencia de valores extremos y puede ser
determinada para categorías con intervalos abiertos. Sin embargo la moda tiene una
desventaja, la cual hace que no sea muy utilizada, principalmente para datos numéricos y
es que muchos estudios no poseen moda no hay elementos con mayor frecuencia o puedan
tener varias modas (cuando dos o más elementos tienen la misma mayor frecuencia), dando
lugar en este último caso a que los estudios sean bimodales o plurimodales.
Ejemplo
Para los siguientes datos, determinar la moda: 12, 10, 13, 9, 12, 11, 14, 13, 12, 15, 8, 12, 14.
Al ordenar los datos obtenemos: 8, 9, 10, 11, 12, 12, 12, 12, 13, 13, 14, 14,
15,podemosobservarqueelelementoquemayorfrecuencia tiene es el valor 12 el cual se repite 4
veces, por lo tanto es la moda de este conjunto de datos.
32, 30, 28, 29, 31, 33, 35, 36. Igualmente ordenado los datos se obtiene: 28, 29, 30, 31, 32, 33, 35,
36 y podemos observar que no existe ningún elemento que tenga mayor frecuencia, todos tienen
frecuencia 1, por lo tanto este conjunto de datos no posee moda.
Ejercicios
Solución:
2. Un pediatra obtuvo la siguiente tabla, sobre los meses de edad de 50 niños de su consulta en
el momento de andar por primera vez:
Calcular la moda.
Solución:
Calcular la moda de una distribución estadística que viene dada por la siguiente tabla:
3. Calcular la moda de una distribución estadística que viene dada por la siguiente tabla:
Solución:
En primer lugar buscamos el intervalo donde se encuentra la moda, que será el intervalo
que tenga la mayor frecuencia absoluta (f¡), la cual es 42. Entonces:
Aplicaremos la fórmula para el cálculo de la moda para datos agrupados, extrayendo los
siguientes datos:
Límite inferior = 66
Fórmula de la moda:
Sustitución de valores:
4. Calcular la moda de una distribución estadística que viene dada por la siguiente
tabla:
Solución:
Aplicaremos la fórmula para el cálculo de la moda para datos agrupados, extrayendo los
siguientes datos:
Límite inferior = 20
Fórmula de la moda:
Sustitución de valores:
Solución:
Aplicaremos la fórmula para el cálculo de la moda para datos agrupados, extrayendo los siguientes
datos:
Límite inferior = 15
Fórmula de la moda:
Por lo tanto, la moda es:
Mediana
Es un valor que divide a las observaciones en dos grupos con el mismo número de
individuos (percentil 50). Si le número de datos es par, se elige la media de los dos datos
centrales.
Ejemplo:
Determinar la mediana del siguiente conjunto de datos: 8, 10, 18, 14, 15, 13, 11, 16,17.
Ordenamos los datos: 8, 10, 11, 13, 14, 15, 16, 17, 18. Como el número de elementos es impar (n = 9),
ubicamos al elemento central (9 +1)/2=5. De tal manera que debemos escoger el quinto elemento del
ordenamiento de los datos, para el caso presente este quinto elemento es el 14 (mediana). Se verifica que
este valor de acuerdo al concepto de la mediana, deja por igual el mismo número de elementos por debajo y
por encima de él, en el presente Ejemplo, cuatro.
Ejercicios:
Como la serie tiene un número impar de medidas la mediana es la puntuación central de la misma
Para calcular la mediana dividimos N = 20 entre 2 y vemos que la casilla de las F¡ donde se
encuentra 10 corresponde a 5
3. Hallar la mediana de la distribución estadística que viene dada por la siguiente tabla:
En primer lugar añadimos otra columna en la tabla con la frecuencia acumulada (F¡)
Buscamos el intervalo donde se encuentra la mediana, para ello dividimos la N por 2 porque la
mediana es el valor central
Clase de la mediana:
Aplicaremos la fórmula para el cálculo de la mediana para datos agrupados, extrayendo los
siguientes datos:
4. Calcular la mediana de las alturas de los jugadores de un equipo de baloncesto, que vienen
dadas por la tabla:
En primer lugar añadimos otra columna en la tabla con la frecuencia acumulada (F¡)
Buscamos el intervalo donde se encuentra la mediana, para ello dividimos la N = 23 por 2 porque
la mediana es el valor central
Buscamos en la columna de las frecuencias acumuladas (F¡) el intervalo que contiene a 11.5
Clase de la mediana:
Aplicaremos la fórmula para el cálculo de la mediana para datos agrupados, extrayendo los
siguientes datos:
La Varianza
La varianza o variancia es una medida de la dispersión de una variable aleatoria (valores que
se obtienen de manera aleatoria). Es ampliamente utilizada en el área de estadística
expresando, a través de un número, la variabilidad de dicha dispersión.
Ronald Fisher, un matemático, físico, biólogo y estadístico inglés, en 1918 fue el primero en
introducir el termino varianza, en uno de sus estudios publicado sobre biometría. A su vez
introdujo los estudios sobre el análisis de varianza.
De manera muy general se puede decir que la varianza es la desviación estándar elevada al
cuadrado.
En las áreas de economía y finanzas, la varianza se interpreta como el riesgo de que el rendimiento
realizado en algún procedimiento sea distinto al rendimiento esperado. Por lo general cuando se
espera un mayor rendimiento, el riesgo a su vez es mayor.
Fórmula de la Varianza
La varianza de una muestra presenta la siguiente fórmula:
S2 =
Donde, representa la sumatoria de la resta entre cada uno de los valores muestreados () y la media
(), elevado al cuadrado.
A su vez, representa el número total de observaciones o datos muestreados. Para valores muy
grandes de la varianza es mínima o incluso despreciable.
σ2 =
Es por esto que se suele utilizar los estadísticos para estimar los parámetros de una población. De
acuerdo a la manera en que se encuentra escrita esta fórmula, las unidades de la varianza presenta
las mismas unidades de la variable, pero elevada al cuadrado.
También, vemos que la varianza no puede ser negativa, por lo que el mínimo valor que se puede
obtener en esta es cero.
Ejemplo de Varianza
Para calcular la varianza, primero se debe calcular la media o el promedio de los datos usados. Por
otro lado, si se tiene la desviación estándar, simplemente se eleva al cuadrado ese resultado y así
se obtiene la varianza.
A continuación, se muestra un ejemplo para entender cómo se calcula la varianza y cuál podría ser
su interpretación.
Supongamos que se tienen los ingresos anuales de cinco empresas distintas, pertenecientes a un
mismo empresario, los cuales son:
Empresa A: 2.500 $
Empresa B: 1.800 $
Empresa C: 2.300 $
Empresa D: 3.000 $
Empresa E: 2.700 $
Entonces calculamos la media de los ingresos, simplemente sumando cada cifra y dividiéndolo
entre el número total de empresas, lo cual da como resultado: 2.460$.
Al sacar la raíz cuadrada a este resultado obtenemos la desviación estándar, siendo ésta 403 $ de
diferencia entre los ingresos de las cinco empresas.