Ruta de Clase Estadísticas Descriptivas

BIOESTADÍSTICA
Ruta de clase
TEMA: Análisis exploratorio de datos (AED)
Objetivo: Identificar los conceptos básicos de la estadística
I. Preguntas Generales
a) Que es el análisis exploratorio de datos?

b) A que tipo de variables se les realiza el AED?
c) Que es una medida de tendencia central, cuales son las más utilizadas?
d) Que es una medida de dispersión, cuáles son las utilizadas?
e) Que es una medida de posición?
II. Introducción
La finalidad de Análisis Exploratorio de Datos (AED) es hacer un análisis preliminar de los datos previamente a
la aplicación de cualquier técnica estadística avanzada. Esto le permite al investigador un entendimiento básico
de sus datos y de las posibles relaciones existentes entre las variables evaluadas en su estudio.
El AED descriptiva proporciona métodos sencillos para organizar y preparar los datos, detectar fallas en el
diseño del estudio, fallas en la recolección de los datos, tratamiento y evaluación de datos ausentes,
identificación de casos atípicos y comprobación de los supuestos que serán necesarias en la aplicación de
técnicas inferenciales.
III. Medidas de tendencia central
Es una medida estadística que resume o representa en un solo valor a todos los valores evaluados de una
característica o variable en un conjunto de individuos pertenecientes a una muestra o una población.
Las medidas de tendencia central más utilizadas son: media, mediana y moda.
Sea x1, x2, . . .,xn un conjunto de observaciones de una variable X cuantitativa, evaluada en los individuos de
una población o de una muestra, los cuales son utilizados para calcular la medias estadísticas
La media aritmética o promedio
Es la media estadística más importante, dado que en su cálculo intervienen todos los valores evaluados. Si los
datos provienen de los individuos de una población, la media se denomina media poblacional () y si provienen
de una muestra se denomina media muestral ( X ).
La media para los datos no agrupados en tabla de frecuencias se calcula como:
Media poblacional Media muestral

N n
∑ xi ∑ xi
μ= i=0 X = i=0
N n
Donde:
x i es el valor que toma la variable en cada uno de los individuos
N es el número de individuos o tamaño de la población
n es el número de individuos o tamaño de la muestra
Cuando los datos están agrupados en una tabla de distribución de frecuencias, la media se caula como:
∑ MC∗FA ∑ MC∗FA
Clases Clases
μ= X=
N n
Donde:
MC es la marca de cada una de las clases

FA es la frecuencia absoluta de cada clase
N es el número de individuos o tamaño de la población
n es el número de individuos o tamaño de la muestra
Propiedades de la media
- Si multiplicamos o dividimos todas las observaciones por un mismo número, la media queda multiplicada o
dividida por dicho número
- Si le sumamos a todas las observaciones un mismo número, la media aumentará en dicha cantidad.
Ventajas y desventajas del uso de la media aritmética

- La media aritmética viene expresada en las mismas unidades que la variable.
- Es el centro de gravedad de todos los datos, representando a todos los valores observados.
- Es única.
- Conveniente cuando los datos se concentran simétricamente con respecto a ese valor.
- Su principal inconveniente es que se ve afectada por los valores extremadamente grandes o pequeños.
La mediana
Es un valor que divide a todas las observaciones en dos grupos con el mismo número de individuos 50% por
debajo él y 50% por encima él.
Cuando los datos no están agrupados, la mediana se calcula como:
1. Los datos se ordenan en forma ascendente

2. Se le asigna a cada número de la serie la posición que ocupa
3. Se calcula la posición de la mediana como:
( N +1 )∗50 ( n+1 )∗50

L Me= L Me=
100 100
4. La mediana es el valor que corresponde a la posición calculada o está entre las posiciones calculadas
Si el número de datos es par, se elige la media de los dos datos centrales.
Si el número de datos es impar, la mediana es el valor del centro
La mediana para datos que se encuentra agrupados en una tabla de distribución de frecuencias se calcula
como:
Se ubica la clase donde se encuentra el 50% de FRA (frecuencia relativa acumulada) y sobre esa clase se
calcula
Me=LI clase + ( 50−FRA anterior

FR clase )
∗amplitud
El principal problema de la mediana es que solo tiene en cuenta para el cálculo los valores centrales,
ignorando los demás datos evaluados.
La moda
Es una medida poco recomendable ya que no representa bien la serie de datos, porque no necesariamente se
encuentra en el centro de los datos y puede que solamente se repita una vez por encima de las demás datos
Cuando los datos no están agrupados en tabla de distribución de frecuencias, la moda es el valor que mas se
repite, por ejemplo:
Si los datos se encuentran agrupados en una tabla de distribución de frecuencias, la moda es el valor
alrededor del cual se encuentra la mayor concentración de información.
Si las clases tienen igual amplitud, se ubica la clase modal como la que tiene mayor frecuencia absoluta o
mayor frecuencia relativa, y sobre esa clase se calcula:
Mo=LI clase+ ( FR clase−FR anterior

)
2∗FR clase −FR anterior −FR posterior
∗amplitud
IV. Medidas de dispersión o variabilidad
Cuando se calcula una medida de tendencia central, se debe acompañar con una medida de dispersión o
variabilidad. Las medidas de variabilidad indican cuanto se alejan los datos o que tan dispersos están con
respecto a una medida de tendencia central. Las medidas de variabilidad en los programas de computador o
calculadoras está programado con respecto a la media aritmética, si se desea hacer con respecto a otra
medida de tendencia central se debe hacer de forma manual. Algunas medidas de dispersión son: la varianza,
la desviación típica o estándar y el coeficiente de variación
La varianza
- Mide el promedio de las desviaciones ¿ al cuadrado de las observaciones con respecto a la media, sin
embargo, puede calcularse la varianza con respecto a otra medida de tendencia central
- Es sensible a valores extremos, alejados de la media
- Su único inconveniente es que para interpretarse se encuentra en unidades cuadradas
- Los valores alejados del promedio influyen bastante en el cálculo, porque las desviaciones de la media son
elevadas al cuadrado
Si los datos no están agrupados en una tabla de distribución de frecuencias, la varianza se calcula como:
Varianza poblacional Varianza muestral

N n
∑ (x i−μ)2 ∑ (xi −X )2
σ 2= i=0 S2= i=0
N n−1
Cuando los datos se encuentran agrupados en una tabla de distribución de frecuencias, la varianza se calcula
como:
Varianza poblacional Varianza muestral
2
∑ ( MC−μ)2∗FA 2
∑ ( MC −X )2∗FA
σ = Clases S = Clases
N n−1
Desviación típica o Desviación estándar
Para corregir el problema de interpretar adecuadamente la variabilidad, se utiliza la desviación estándar, se

corrige sacándole la raíz cuadrada a la varianza, independientemente de la forma como se calcule y su
interpretación quedara en las mismas unidades de la media. Independientemente de cómo se calcule la
varianza, la desviación estándar es:
Desviación estándar poblacional Desviación estándar muestral
σ =√ σ S= √ S
2 2
Al calcular la medida de dispersión por calculadora, se obtiene directamente la desviación estándar.
Coeficiente de variación
Al calcular la desviación estándar no se puede determinar que tan grande es la variabilidad, para entender su
magnitud, se debe establecer la relación que existe entre la desviación estándar y la media, es decir, determina
que tan grande es la desviación estándar con respecto a la media.
El coeficiente de variación se denomina también variabilidad relativa, dado que se expresa como un
porcentaje, esto es, que porcentaje de la media es la desviación estándar. La variabilidad relativa puede ser
superior al 100%. Por ejemplo, si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan
más dispersión en peso que en altura.
No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada
arbitrariamente, por ejemplo, en la temperatura 0ºC ≠ 0ºF.
Puede calcularse con respecto a cualquier otra medida de tendencia central, siempre la desviación estándar se
haya calculado con base en dicha medida.
Independientemente de cómo se calcule la desviación estándar y la media, el coeficiente de variación es:
Coeficiente de variación poblacional Coeficiente de variación muestral
σ S
CV = ∗100 CV = ∗100
μ X
V. Medidas de posición
Las medidas de posición dividen un conjunto de datos en grupos con el mismo número de
individuos. Por ejemplo, los cuartiles dividen en grupos de 25%, los deciles en grupos de
10% y los percentiles en grupos del 1%.
Para calcular las medidas de posición:
1. Los datos deben ordenarse en forma ascendente

2. Se asigna la posición que ocupa cada uno de los datos en orden consecutivo
3. Se calcula posición de la medida a evaluar
4. Se determina el valor de la medida de posición
Los cuartiles
Son tres valores (Q1, Q2 y Q3) que dividen la serie de datos en cuatro partes iguales del 25% de los datos cada
una, así:
El 25% de los datos está por debajo de Q1
El 50% de los datos está por debajo de Q2 = Mediana
El 75% de los datos está por debajo de Q3
La posición de cada cuartil en datos no agrupados se calcula como:
Los percentiles
Son 99 valores (P1, P2, …, P99) que dividen la serie de datos en 100 partes iguales del 1% de los datos cada
una. Algunos ejemplos de los percentiles son:
El 1% de los datos está por debajo de P1

El 10% de los datos está por debajo de P10 = D1 (Decil 1)
El 50% de los datos está por debajo de P50 = D5 = Q2 = Mediana
El 95% de los datos está por debajo de P95
La posición se calcula como:
Diagrama de caja y alambres
Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que describe varias
características importantes, al mismo tiempo, tales como la dispersión y simetría.
Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un
rectángulo, alineado horizontal o verticalmente
Adicionalmente se deben calcular los cercos como límites para determinar la existencia de valores atípicos
Cerco inferior CI =Q1−1.5(Q 3 −Q1)
Cerco superior CS=Q 3+ 1.5(Q3−Q1 )

Forma de la distribución de acuerdo al diagrama de caja y alambres
Los cuartiles en datos agrupados se calcula como:
Primer cuartil
Se ubica la clase que contiene el 25% de FRA
Q1=LI clase +
( 25−FRA anterior
FR clase )∗amplitud
Tercer cuartil
Se ubica la clase que contiene el 75% de FRA
Q3=LI clase + ( 75−FRA anterior

FR clase )∗amplitud
Para cualquier percentil
Se ubica la clase que contiene el percentil deseado y sobre esa clase se calcula
P=LI clase + ( FR clase )

P %−FRA anterior
∗amplitud
VI. Ejemplo completo para datos no agrupados
La universidad ICESI preocupada por el constante retraso que presentan los estudiantes en la
llagada a la clase de las 7 am, realiza un estudio para determinar el tiempo en minutos que
demoran los buses en realizar el recorrido entre la estación universidades y la universidad ICESI.
Hace un seguimiento a una muestra de 30 buses de una determinada ruta y encuentra los
siguientes resultados.
18 19 20 22 23 23 24 24 25 25
26 26 26 26 26 27 27 27 28 28
29 29 29 29 30 30 31 31 32 32
Resultados para la variable tiempo de recorrido sin agrupar los datos
Promedio
18+ 19+ . ..+32 792

X= = =26.4
30 30
El tiempo promedio del recorrido del bus del MIO en dicha ruta es de 26.4 minutos
La mediana
Los datos están ordenados en forma ascendente (de izquierda a derecha) y n=30,
Posición de la mediana
( 30+1 )∗50
L Me= =15.5
100
La mediana es el promedio de los valores que están en la posición 15 y 16, esto es:
26+27
Me= =26.5
2
El 50% de los buses tuvo un tiempo de recorrido por debajo de 26.5 minutos y el 50% tuvo un tiempo de
recorrido por encima de 26.5 minutos
La moda
El tiempo de recorrido que más se repite es 26 minutos, por lo tanto: Mo = 26
La varianza
(18−26.4)2 +(19−26.4)2 +. . .+(32−24.6)2

S 2= =13.42
29
El tiempo tiene de recorrido tiene una varianza de 13.42 minutos2.
La desviación estándar
S=
√ (18−26.4)2 +(19−26.4)2 +. ..+(32−24.6)2
29
=√ 13.42=3.66
La desviación estándar del tiempo de recorrido es de 3.66 minutos
El coeficiente de variación
3.66
CV = ∗100=27.3 %
13.42
El tiempo de recorrido tienen un porcentaje de variabilidad del 27.3%
Cuartiles
Primer cuartil
( 30+1 )∗25
LQ 1 = =7.75
100
Para calcular el primer cuartil se toman los valores de las posiciones 7 y 8
Q1=24 +0.75(24−24 )=24
El 25% de los buses tuvo un tiempo de recorrido por debajo de 24 minutos
Segundo cuartil
Q2 = Me = 26.5
Tercer cuartil
( 30+1 )∗75
LQ 3 = =23.25
100
Para calcular el primer cuartil se toman los valores de las posiciones 23 y 24
Q1=29+ 0.25(29−29)=29
El 75% de los buses tuvo un tiempo de recorrido por debajo de 29 minutos

Diagrama de caja y alambres
Cercos
CI =24−1.5∗(29−24)=16.5
CS=29+1.5∗(29−24)=36.5
Ejercicio completo para datos agrupados

Se realizó un estudio sobre la edad a la que los jóvenes de una zona de alto riesgo social inician su
actividad delictiva. Los investigadores tomaron una muestra de 50 jóvenes de la zona y les
preguntaron la edad a la cual comenzaron a delinquir. Los resultados se resumieron en la siguiente
y desean hacer el análisis exploratorio de los resultados
Frecuencia
Frecuencia
Marca Frecuencia Frecuencia Relativa
Clase Intervalo Absoluta
de clase absoluta relativa (%) acumulada
acumulada
(%)
1 (9-13] 11 8 16 8 16
2 (13-17] 15 13 26 21 42
3 (17-21] 19 10 20 31 62
4 (21-25] 23 9 18 40 80
5 (25-29] 27 6 12 46 92
6 (29-33] 31 4 8 50 100
Promedio
11∗8+15∗13+. . .+ 31∗4
X= =19.3
50
La edad promedio a la que comienza la actividad delictiva los jóvenes de dicha zona es de 19.3 años
La mediana
La clase que contiene 50% de frecuencia relativa acumulada es la clase 3, sobre esa clase se calcula:
Me=17+ ( 50−42
20 )
∗4=18.6
El 50% de los jóvenes comienza su actividad delictiva por debajo de los 18.6 años
La moda
La clase modal es la número 2, dado que tiene la mayor frecuencia absoluta, sobre esa clase se calcula:
Mo=13+ ( 2∗26−16−20
26−16
)∗4=15.5
La edad a la que con mayor frecuencia comienza la actividad delictiva los jóvenes de la zona es a los 15.5
años
La varianza
2 2
2 (11−19.3) ∗8+.. .+(31−19.3) ∗4
S= =37.12
49
La varianza de la edad de inicio de la actividad delictiva es de 37.12 años2
La desviación estándar
S= √37.12=6.09
La desviación estándar de la edad de inicio de la actividad delictiva es de 6.09 años
Coeficiente de variación
6.09
CV = ∗100=31.6 %
19.3
El porcentaje de variabilidad de la edad de inicio de la actividad delictiva es de 31.6%
Cuartiles
La clase que tiene 25% de FRA acumulada es la clase 2
Q1=13+ ( 25−16
26 )
∗4=14.4
El 25% de los jóvenes comenzó su actividad delictiva antes de las 14.4 años
La clase que tiene 75% de FRA acumulada es la clase 2
Q3=2 1+ ( 75−62
18 )
∗4=23.9
El 75% de los jóvenes comenzó su actividad delictiva antes de las 23.9 años
VII. Ejercicios del taller
Realizar previo a la clase los ejercicios 1, 2, 3 y 4 del taller estadísticas descriptivas

Ruta de Clase Estadísticas Descriptivas

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ruta de Clase Estadísticas Descriptivas

Cargado por

Copyright:

Formatos disponibles

BIOESTADÍSTICA

Objetivo: Identificar los conceptos básicos de la estadística

a) Que es el análisis exploratorio de datos?

III. Medidas de tendencia central

La media aritmética o promedio

La media para los datos no agrupados en tabla de frecuencias se calcula como:

Media poblacional Media muestral

Media poblacional Media muestral

MC es la marca de cada una de las clases

Ventajas y desventajas del uso de la media aritmética

Cuando los datos no están agrupados, la mediana se calcula como:

1. Los datos se ordenan en forma ascendente

Media poblacional Media muestral

( N +1 )∗50 ( n+1 )∗50

Si el número de datos es par, se elige la media de los dos datos centrales.

Si el número de datos es impar, la mediana es el valor del centro

Me=LI clase + ( 50−FRA anterior

Mo=LI clase+ ( FR clase−FR anterior

IV. Medidas de dispersión o variabilidad

Varianza poblacional Varianza muestral

Varianza poblacional Varianza muestral

Desviación típica o Desviación estándar

Para corregir el problema de interpretar adecuadamente la variabilidad, se utiliza la desviación estándar, se

Desviación estándar poblacional Desviación estándar muestral

Al calcular la medida de dispersión por calculadora, se obtiene directamente la desviación estándar.

Independientemente de cómo se calcule la desviación estándar y la media, el coeficiente de variación es:

Coeficiente de variación poblacional Coeficiente de variación muestral

Para calcular las medidas de posición:

1. Los datos deben ordenarse en forma ascendente

La posición de cada cuartil en datos no agrupados se calcula como:

El 1% de los datos está por debajo de P1

La posición se calcula como:

Diagrama de caja y alambres

Cerco inferior CI =Q1−1.5(Q 3 −Q1)

Cerco superior CS=Q 3+ 1.5(Q3−Q1 )

Los cuartiles en datos agrupados se calcula como:

Se ubica la clase que contiene el 25% de FRA

Se ubica la clase que contiene el 75% de FRA

Q3=LI clase + ( 75−FRA anterior

Para cualquier percentil

P=LI clase + ( FR clase )

VI. Ejemplo completo para datos no agrupados

18+ 19+ . ..+32 792

El tiempo de recorrido que más se repite es 26 minutos, por lo tanto: Mo = 26

(18−26.4)2 +(19−26.4)2 +. . .+(32−24.6)2

El tiempo tiene de recorrido tiene una varianza de 13.42 minutos2.

La desviación estándar del tiempo de recorrido es de 3.66 minutos

El tiempo de recorrido tienen un porcentaje de variabilidad del 27.3%

Para calcular el primer cuartil se toman los valores de las posiciones 7 y 8

Q1=24 +0.75(24−24 )=24

El 25% de los buses tuvo un tiempo de recorrido por debajo de 24 minutos

Para calcular el primer cuartil se toman los valores de las posiciones 23 y 24

El 75% de los buses tuvo un tiempo de recorrido por debajo de 29 minutos

Ejercicio completo para datos agrupados

La varianza de la edad de inicio de la actividad delictiva es de 37.12 años2

La desviación estándar de la edad de inicio de la actividad delictiva es de 6.09 años

El porcentaje de variabilidad de la edad de inicio de la actividad delictiva es de 31.6%

La clase que tiene 25% de FRA acumulada es la clase 2

La clase que tiene 75% de FRA acumulada es la clase 2

VII. Ejercicios del taller

Realizar previo a la clase los ejercicios 1, 2, 3 y 4 del taller estadísticas descriptivas

También podría gustarte