Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Aplica conocimientos de estadística descriptiva para calcular medidas de dispersión según el tipo
de variable que se está considerando.
MEDIDAS DE FORMA
Son aplicada en función a la representación gráfica de los datos. Comparan la forma gráfica con
la distribución normal y se determina una clasificación.
a) Simetría
Se establece que la distribución es simétrica cuando los datos de una población se distribuyen
con igual frecuencia y alejamiento por debajo y por encima de la media aritmética. En estas
distribuciones el valor de las medidas de tendencia central –media, moda y mediana- es el
mismo.
b) Asimetría
Se clasifica como asimétrica la distribución donde los datos por debajo de la media son más
frecuentes que aquellos por encima de la media, o viceversa.
Distribución asimétrica a la izquierda: los datos por debajo de la media son menos frecuentes,
hay menos datos por debajo del promedio
Distribución asimétrica a la derecha: los datos por encima de la media son menos frecuentes,
hay menos datos por encima del promedio.
SIMETRÍA
Cuando los datos de una población se distribuyen con igual frecuencia y alejamiento por debajo
y por encima de la media aritmética, se dice que la distribución es simétrica; pero, si los datos
por debajo de la media son más frecuentes que aquellos por encima de la media, o viceversa, se
dice que la distribución es asimétrica.
Asimetría a la derecha
MEDIDAS DE DISPERSIÓN
Esta medida de dispersión será grande si las observaciones están distantes de la media y
pequeña si están cerca.
Medidas de dispersión
Varianza (V - 2 -s2)
Desviación Estándar ( - s)
La que menos información nos ofrece sobre la agrupación de las variables en torno a las medidas
de tendencia central, nos dice cual es el largo de nuestros datos entre el valor máximo y el valor
mínimo.
LA VARIANZA
Es una medida de dispersión que cuantifica la variabilidad de los datos con respecto a la Media
Aritmética.
Ver que tan lejos está cada uno de los datos del promedio, cuanto
más grande es la varianza es que más lejos están los datos.
Junto con la desviación estándar, es la medida de dispersión que mejor expresa la variabilidad
del fenómeno.
Si tenemos N datos X1, X2, X3, ..., XN. La varianza de estos datos se define como:
En el caso de manejar datos agrupados, en una tabla de frecuencias, para hallar la varianza se
necesitan la marca de clase (Xi) y la frecuencia absoluta simple (fi).
La fórmula es la siguiente:
Para facilitar el cálculo, se recomienda agregar a la tabla de frecuencias 2 columnas:
V=94424- (1648)2/30/29
V=134.2712645
DESVIACIÓN ESTÁNDAR
Es la medida de dispersión más común para definir datos médicos y del área de la salud. Analiza
la dispersión del 100% de los datos.
Desviación estándar ( o s)
Es la medida de dispersión más común para definir datos médicos y del área de la salud.
Cuanto menor sea la desviación estándar, menor será la dispersión (más homogénea) y cuando
mayor sea la desviación típica, mayor dispersión (menos homogéneas).
DESVIACIÓN CUARTIL
Medida de dispersión respecto a la mediana, que analiza la dispersión de los datos del 50%
central de observaciones.
Excluye el 25% más alto y el 2% más bajo dando un rango del 50% de los datos.
Recordar:
Encima del tercer cuartil (Q3) hay también 25% de los datos.
Rango de 6 hijos
COEFICIENTE DE VARIACIÓN
Es una medida relativa de variabilidad de los datos entre la media y la desviación estándar de
una población o muestra. Permite comparar la variabilidad de dos o más conjuntos de datos
expresados en unidades diferentes.
Por ejemplo:
Asimetría a la izquierda
Asimetría a la izquierda
Asimetría a la derecha
El rango es una medida apropiada para datos numéricos cuando el propósito es enfatizar valores
extremos.
Aplica conocimientos de estadística descriptiva para calcular medidas de dispersión según el tipo
de variable que se está considerando.
Medidas de posición
Recordar:
Q1= P25
Q3= P75
BOX PLOT (DIAGRAMA DE CAJA)
Presenta, al mismo tiempo, información sobre la tendencia central, dispersión y simetría de los
datos de estudio.
Además, permite identificar con claridad y de forma individual, las observaciones que se alejan
de manera inusual del resto de los datos. A estas observaciones se les conoce como valores
atípicos “outliers” o valores extremos.
Al igual que el histograma y el gráfico de Tallos y Hojas permite tener una idea visual de la
distribución de los datos (simetría y variabilidad). También se podrá ver cómo están los datos
centrales y como están los datos en los extremos.
Procedimiento
Hasta el valor mínimo de los datos, por abajo, y hasta el valor máximo de los
datos, por arriba.
Valor mínimo: 18
Valor máximo: 57
N=100
Posiciones 25, 50 y 75
Q1= 23 años
Q2= 26 años
Q3= 31 años
Cálculos
Min=18, Max=57
7. Dibujar otro “bigote” saliendo del borde superior de la caja hasta la Frontera
Interior superior = 43 o valor máximo.
8. Dibujar cualquier observación que se ubique fuera de los bigotes. Estos serán
los outliers moderados=51 o extremos.
9. Dibujar los valores más alejados, se debe considerar otra forma para el outlier
extremo= 57, por ejemplo, un asterisco.
DISPERSIÓN
La longitud de las colas por su parte nos dirá la mayor o menor concentración de los datos en
las zonas extremas.
Interpretación
Mientras más larga la caja y los bigotes, más dispersa es la distribución de datos.
La distancia entre las cinco medidas del boxplot (sin incluir la media aritmética) puede variar, sin
embargo, recuerde que la cantidad de elementos entre una y otra es aproximadamente la
misma.
Entre el límite inferior y Q1 hay igual cantidad de datos que de Q1 a la mediana, de ésta a Q3 y
de Q3 al límite superior (25%).
Se considera aproximado porque pudiera haber valores atípicos, en cuyo caso la cantidad de
elementos se ve levemente modificada.
La mediana puede inclusive coincidir con los cuartiles 1 y 2 o con los límites de los bigotes. Esto
sucede cuando se concentran muchos datos en un mismo punto.