Está en la página 1de 11

BIOESTADÍSTICA

Ruta de clase
TEMA: Análisis exploratorio de datos (AED)

Objetivo: Identificar los conceptos básicos de la estadística

I. Preguntas Generales

a) Que es el análisis exploratorio de datos?


b) A que tipo de variables se les realiza el AED?
c) Que es una medida de tendencia central, cuales son las más utilizadas?
d) Que es una medida de dispersión, cuáles son las utilizadas?
e) Que es una medida de posición?

II. Introducción

La finalidad de Análisis Exploratorio de Datos (AED) es hacer un análisis preliminar de los datos previamente a
la aplicación de cualquier técnica estadística avanzada. Esto le permite al investigador un entendimiento básico
de sus datos y de las posibles relaciones existentes entre las variables evaluadas en su estudio.

El AED descriptiva proporciona métodos sencillos para organizar y preparar los datos, detectar fallas en el
diseño del estudio, fallas en la recolección de los datos, tratamiento y evaluación de datos ausentes,
identificación de casos atípicos y comprobación de los supuestos que serán necesarias en la aplicación de
técnicas inferenciales.

III. Medidas de tendencia central

Es una medida estadística que resume o representa en un solo valor a todos los valores evaluados de una
característica o variable en un conjunto de individuos pertenecientes a una muestra o una población.
Las medidas de tendencia central más utilizadas son: media, mediana y moda.

Sea x1, x2, . . .,xn un conjunto de observaciones de una variable X cuantitativa, evaluada en los individuos de
una población o de una muestra, los cuales son utilizados para calcular la medias estadísticas

La media aritmética o promedio

Es la media estadística más importante, dado que en su cálculo intervienen todos los valores evaluados. Si los
datos provienen de los individuos de una población, la media se denomina media poblacional () y si provienen
de una muestra se denomina media muestral ( X ).

La media para los datos no agrupados en tabla de frecuencias se calcula como:

Media poblacional Media muestral


N n

∑ xi ∑ xi
μ= i=0 X = i=0
N n

Donde:
x i es el valor que toma la variable en cada uno de los individuos
N es el número de individuos o tamaño de la población
n es el número de individuos o tamaño de la muestra

Cuando los datos están agrupados en una tabla de distribución de frecuencias, la media se caula como:

Media poblacional Media muestral

∑ MC∗FA ∑ MC∗FA
Clases Clases
μ= X=
N n

Donde:

MC es la marca de cada una de las clases


FA es la frecuencia absoluta de cada clase
N es el número de individuos o tamaño de la población
n es el número de individuos o tamaño de la muestra

Propiedades de la media
- Si multiplicamos o dividimos todas las observaciones por un mismo número, la media queda multiplicada o
dividida por dicho número
- Si le sumamos a todas las observaciones un mismo número, la media aumentará en dicha cantidad.

Ventajas y desventajas del uso de la media aritmética


- La media aritmética viene expresada en las mismas unidades que la variable.
- Es el centro de gravedad de todos los datos, representando a todos los valores observados.
- Es única.
- Conveniente cuando los datos se concentran simétricamente con respecto a ese valor.
- Su principal inconveniente es que se ve afectada por los valores extremadamente grandes o pequeños.

La mediana

Es un valor que divide a todas las observaciones en dos grupos con el mismo número de individuos 50% por
debajo él y 50% por encima él.

Cuando los datos no están agrupados, la mediana se calcula como:

1. Los datos se ordenan en forma ascendente


2. Se le asigna a cada número de la serie la posición que ocupa
3. Se calcula la posición de la mediana como:

Media poblacional Media muestral

( N +1 )∗50 ( n+1 )∗50


L Me= L Me=
100 100

4. La mediana es el valor que corresponde a la posición calculada o está entre las posiciones calculadas

Si el número de datos es par, se elige la media de los dos datos centrales.

Si el número de datos es impar, la mediana es el valor del centro

La mediana para datos que se encuentra agrupados en una tabla de distribución de frecuencias se calcula
como:
Se ubica la clase donde se encuentra el 50% de FRA (frecuencia relativa acumulada) y sobre esa clase se
calcula

Me=LI clase + ( 50−FRA anterior


FR clase )
∗amplitud

El principal problema de la mediana es que solo tiene en cuenta para el cálculo los valores centrales,
ignorando los demás datos evaluados.

La moda

Es una medida poco recomendable ya que no representa bien la serie de datos, porque no necesariamente se
encuentra en el centro de los datos y puede que solamente se repita una vez por encima de las demás datos

Cuando los datos no están agrupados en tabla de distribución de frecuencias, la moda es el valor que mas se
repite, por ejemplo:

Si los datos se encuentran agrupados en una tabla de distribución de frecuencias, la moda es el valor
alrededor del cual se encuentra la mayor concentración de información.

Si las clases tienen igual amplitud, se ubica la clase modal como la que tiene mayor frecuencia absoluta o
mayor frecuencia relativa, y sobre esa clase se calcula:

Mo=LI clase+ ( FR clase−FR anterior


)
2∗FR clase −FR anterior −FR posterior
∗amplitud

IV. Medidas de dispersión o variabilidad

Cuando se calcula una medida de tendencia central, se debe acompañar con una medida de dispersión o
variabilidad. Las medidas de variabilidad indican cuanto se alejan los datos o que tan dispersos están con
respecto a una medida de tendencia central. Las medidas de variabilidad en los programas de computador o
calculadoras está programado con respecto a la media aritmética, si se desea hacer con respecto a otra
medida de tendencia central se debe hacer de forma manual. Algunas medidas de dispersión son: la varianza,
la desviación típica o estándar y el coeficiente de variación

La varianza

- Mide el promedio de las desviaciones ¿ al cuadrado de las observaciones con respecto a la media, sin
embargo, puede calcularse la varianza con respecto a otra medida de tendencia central
- Es sensible a valores extremos, alejados de la media
- Su único inconveniente es que para interpretarse se encuentra en unidades cuadradas
- Los valores alejados del promedio influyen bastante en el cálculo, porque las desviaciones de la media son
elevadas al cuadrado

Si los datos no están agrupados en una tabla de distribución de frecuencias, la varianza se calcula como:

Varianza poblacional Varianza muestral


N n

∑ (x i−μ)2 ∑ (xi −X )2
σ 2= i=0 S2= i=0
N n−1

Cuando los datos se encuentran agrupados en una tabla de distribución de frecuencias, la varianza se calcula
como:

Varianza poblacional Varianza muestral

2
∑ ( MC−μ)2∗FA 2
∑ ( MC −X )2∗FA
σ = Clases S = Clases
N n−1

Desviación típica o Desviación estándar

Para corregir el problema de interpretar adecuadamente la variabilidad, se utiliza la desviación estándar, se


corrige sacándole la raíz cuadrada a la varianza, independientemente de la forma como se calcule y su
interpretación quedara en las mismas unidades de la media. Independientemente de cómo se calcule la
varianza, la desviación estándar es:

Desviación estándar poblacional Desviación estándar muestral

σ =√ σ S= √ S
2 2

Al calcular la medida de dispersión por calculadora, se obtiene directamente la desviación estándar.

Coeficiente de variación

Al calcular la desviación estándar no se puede determinar que tan grande es la variabilidad, para entender su
magnitud, se debe establecer la relación que existe entre la desviación estándar y la media, es decir, determina
que tan grande es la desviación estándar con respecto a la media.

El coeficiente de variación se denomina también variabilidad relativa, dado que se expresa como un
porcentaje, esto es, que porcentaje de la media es la desviación estándar. La variabilidad relativa puede ser
superior al 100%. Por ejemplo, si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan
más dispersión en peso que en altura.

No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada
arbitrariamente, por ejemplo, en la temperatura 0ºC ≠ 0ºF.

Puede calcularse con respecto a cualquier otra medida de tendencia central, siempre la desviación estándar se
haya calculado con base en dicha medida.

Independientemente de cómo se calcule la desviación estándar y la media, el coeficiente de variación es:

Coeficiente de variación poblacional Coeficiente de variación muestral

σ S
CV = ∗100 CV = ∗100
μ X
V. Medidas de posición

Las  medidas de posición  dividen un conjunto de datos en grupos con el mismo número de
individuos. Por ejemplo, los cuartiles dividen en grupos de 25%, los deciles en grupos de
10% y los percentiles en grupos del 1%.

Para calcular las medidas de posición:

1. Los datos deben ordenarse en forma ascendente


2. Se asigna la posición que ocupa cada uno de los datos en orden consecutivo
3. Se calcula posición de la medida a evaluar
4. Se determina el valor de la medida de posición

Los cuartiles

Son tres valores (Q1, Q2 y Q3) que dividen la serie de datos en cuatro partes iguales del 25% de los datos cada
una, así:
El 25% de los datos está por debajo de Q1
El 50% de los datos está por debajo de Q2 = Mediana
El 75% de los datos está por debajo de Q3

La posición de cada cuartil en datos no agrupados se calcula como:

Los percentiles
Son 99 valores (P1, P2, …, P99) que dividen la serie de datos en 100 partes iguales del 1% de los datos cada
una. Algunos ejemplos de los percentiles son:

El 1% de los datos está por debajo de P1


El 10% de los datos está por debajo de P10 = D1 (Decil 1)
El 50% de los datos está por debajo de P50 = D5 = Q2 = Mediana
El 95% de los datos está por debajo de P95

La posición se calcula como:

Diagrama de caja y alambres

Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que describe varias
características importantes, al mismo tiempo, tales como la dispersión y simetría.

Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un
rectángulo, alineado horizontal o verticalmente

Adicionalmente se deben calcular los cercos como límites para determinar la existencia de valores atípicos

Cerco inferior CI =Q1−1.5(Q 3 −Q1)

Cerco superior CS=Q 3+ 1.5(Q3−Q1 )


Forma de la distribución de acuerdo al diagrama de caja y alambres

Los cuartiles en datos agrupados se calcula como:

Primer cuartil

Se ubica la clase que contiene el 25% de FRA

Q1=LI clase +
( 25−FRA anterior
FR clase )∗amplitud

Tercer cuartil

Se ubica la clase que contiene el 75% de FRA

Q3=LI clase + ( 75−FRA anterior


FR clase )∗amplitud

Para cualquier percentil

Se ubica la clase que contiene el percentil deseado y sobre esa clase se calcula

P=LI clase + ( FR clase )


P %−FRA anterior
∗amplitud

VI. Ejemplo completo para datos no agrupados

La universidad ICESI preocupada por el constante retraso que presentan los estudiantes en la
llagada a la clase de las 7 am, realiza un estudio para determinar el tiempo en minutos que
demoran los buses en realizar el recorrido entre la estación universidades y la universidad ICESI.
Hace un seguimiento a una muestra de 30 buses de una determinada ruta y encuentra los
siguientes resultados.

18 19 20 22 23 23 24 24 25 25
26 26 26 26 26 27 27 27 28 28
29 29 29 29 30 30 31 31 32 32
Resultados para la variable tiempo de recorrido sin agrupar los datos

Promedio

18+ 19+ . ..+32 792


X= = =26.4
30 30

El tiempo promedio del recorrido del bus del MIO en dicha ruta es de 26.4 minutos

La mediana

Los datos están ordenados en forma ascendente (de izquierda a derecha) y n=30,

Posición de la mediana

( 30+1 )∗50
L Me= =15.5
100

La mediana es el promedio de los valores que están en la posición 15 y 16, esto es:

26+27
Me= =26.5
2

El 50% de los buses tuvo un tiempo de recorrido por debajo de 26.5 minutos y el 50% tuvo un tiempo de
recorrido por encima de 26.5 minutos
La moda

El tiempo de recorrido que más se repite es 26 minutos, por lo tanto: Mo = 26

La varianza

(18−26.4)2 +(19−26.4)2 +. . .+(32−24.6)2


S 2= =13.42
29

El tiempo tiene de recorrido tiene una varianza de 13.42 minutos2.

La desviación estándar

S=
√ (18−26.4)2 +(19−26.4)2 +. ..+(32−24.6)2
29
=√ 13.42=3.66

La desviación estándar del tiempo de recorrido es de 3.66 minutos

El coeficiente de variación

3.66
CV = ∗100=27.3 %
13.42

El tiempo de recorrido tienen un porcentaje de variabilidad del 27.3%

Cuartiles
Primer cuartil

( 30+1 )∗25
LQ 1 = =7.75
100

Para calcular el primer cuartil se toman los valores de las posiciones 7 y 8

Q1=24 +0.75(24−24 )=24

El 25% de los buses tuvo un tiempo de recorrido por debajo de 24 minutos

Segundo cuartil

Q2 = Me = 26.5

Tercer cuartil

( 30+1 )∗75
LQ 3 = =23.25
100

Para calcular el primer cuartil se toman los valores de las posiciones 23 y 24

Q1=29+ 0.25(29−29)=29

El 75% de los buses tuvo un tiempo de recorrido por debajo de 29 minutos


Diagrama de caja y alambres

Cercos

CI =24−1.5∗(29−24)=16.5

CS=29+1.5∗(29−24)=36.5

Ejercicio completo para datos agrupados


Se realizó un estudio sobre la edad a la que los jóvenes de una zona de alto riesgo social inician su
actividad delictiva. Los investigadores tomaron una muestra de 50 jóvenes de la zona y les
preguntaron la edad a la cual comenzaron a delinquir. Los resultados se resumieron en la siguiente
y desean hacer el análisis exploratorio de los resultados

Frecuencia
Frecuencia
Marca Frecuencia Frecuencia Relativa
Clase Intervalo Absoluta
de clase absoluta relativa (%) acumulada
acumulada
(%)
1 (9-13] 11 8 16 8 16
2 (13-17] 15 13 26 21 42
3 (17-21] 19 10 20 31 62
4 (21-25] 23 9 18 40 80
5 (25-29] 27 6 12 46 92
6 (29-33] 31 4 8 50 100

Promedio

11∗8+15∗13+. . .+ 31∗4
X= =19.3
50

La edad promedio a la que comienza la actividad delictiva los jóvenes de dicha zona es de 19.3 años

La mediana

La clase que contiene 50% de frecuencia relativa acumulada es la clase 3, sobre esa clase se calcula:

Me=17+ ( 50−42
20 )
∗4=18.6

El 50% de los jóvenes comienza su actividad delictiva por debajo de los 18.6 años

La moda

La clase modal es la número 2, dado que tiene la mayor frecuencia absoluta, sobre esa clase se calcula:

Mo=13+ ( 2∗26−16−20
26−16
)∗4=15.5
La edad a la que con mayor frecuencia comienza la actividad delictiva los jóvenes de la zona es a los 15.5
años

La varianza
2 2
2 (11−19.3) ∗8+.. .+(31−19.3) ∗4
S= =37.12
49

La varianza de la edad de inicio de la actividad delictiva es de 37.12 años2

La desviación estándar
S= √37.12=6.09

La desviación estándar de la edad de inicio de la actividad delictiva es de 6.09 años

Coeficiente de variación

6.09
CV = ∗100=31.6 %
19.3

El porcentaje de variabilidad de la edad de inicio de la actividad delictiva es de 31.6%

Cuartiles

La clase que tiene 25% de FRA acumulada es la clase 2

Q1=13+ ( 25−16
26 )
∗4=14.4

El 25% de los jóvenes comenzó su actividad delictiva antes de las 14.4 años

La clase que tiene 75% de FRA acumulada es la clase 2

Q3=2 1+ ( 75−62
18 )
∗4=23.9

El 75% de los jóvenes comenzó su actividad delictiva antes de las 23.9 años

VII. Ejercicios del taller

Realizar previo a la clase los ejercicios 1, 2, 3 y 4 del taller estadísticas descriptivas

También podría gustarte