Está en la página 1de 76

BIOESTADISTICA

20014-I
Mg. TAMARA J ORQUIERA MC
Aplica conocimientos de estadstica
descriptiva para calcular ciertas
medidas resmenes segn el tipo
de variable que se est
considerando.
Clase # 3

18 de Marzo
2014
5/5/2014 Tamara Jorquiera MC MSc
Al trmino de la clase el
estudiante estar en
condiciones de calcular,
interpretar y saber usar las
medidas de posicin y
dispersin.
5/5/2014 Tamara Jorquiera MC MSc
Despus de construir tablas y grficos, a
partir de una coleccin de datos, se
requieren medidas ms exactas.
La estadstica de resumen, proporciona
medidas para describir un conjunto de
datos.
Existen dos tipos de medidas de resumen:
1. De tendencia central.
De forma y de posicin
2. De dispersin.

5/5/2014 Tamara Jorquiera MC MSc
1. Reflejan la tendencia central y la
localizacin/posicin de los datos
2. Las medidas de tendencia central ms
importantes son la media, la mediana y la moda.

Media
Medidas de Mediana
tendencia central Moda



3. Tambin es til conocer las medidas de
localizacin: percentiles. Estas nos indican el
lugar de cada dato en relacin con los dems
datos.
5/5/2014 Tamara Jorquiera MC MSc
Las medidas de tendencia central
(denominadas tambin promedios) permiten
hallar un solo valor numrico alrededor del
cual los datos parecen agruparse de cierta
manera, como si fuera el centro de
gravedad de los datos. Debido a estas
circunstancias, suelen ser llamados de
POSICIN O TENDENCIA CENTRAL.
5/5/2014 Tamara Jorquiera MC MSc
Moda. (Mo)
Mediana. (Me)
Media Aritmtica. (x o )
Cuartiles. (Q)
5/5/2014 Tamara Jorquiera MC MSc
La MODA es la observacin que ms se repite en
los datos, (observacin ms COMN).
Se puede utilizar para cualquier tipo de variable
pero generalmente se utiliza cuando la
caracterstica en estudio se ha medido en escala
nominal u ordinal.
Ejemplo:
Se tiene la siguiente informacin:
2, 3, 4, 5, 5, 6, 4, 5 Mo = ?
5/5/2014 Tamara Jorquiera MC MSc
1. Si todos los valores son diferentes, no hay
moda.
2. En una distribucin puede existir dos o
ms modas (Unimodal, Multimodal:
bimodal, trimodal).
3. Es usada para variables categricas o
cualitativas.
5/5/2014 Tamara Jorquiera MC MSc
Nmero de hijos de 60 personas
Xi 0 1 2 3 4 5 6
fi 10 21 15 7 3 2 2
Estado Civil de 100 personas
Estado Civil fi
Soltero 30
Casado 60
Divorciado 10
Total 100
5/5/2014 Tamara Jorquiera MC MSc
En una tabla de distribucin de frecuencias es la
marca de clase o punto medio de la clase que
tiene la mayor frecuencia absoluta simple.

La moda estar ubicado en el intervalo: ?
Clase Variable fi
I 5 - 9 3
II 10 - 4 9
III 15 - 19 15
IV 20 - 24 8
V 25 - 29 5
total 40
5/5/2014 Tamara Jorquiera MC MSc
Por lo tanto la marca
de clase ser:
Por lo tanto la marca de
clase ser:
clase variable fi
III 15 - 19 15
5/5/2014 Tamara Jorquiera MC MSc
La mediana es un valor que divide a la distribucin
(ordenada en forma ascendente o descendente) en
dos mitades o partes iguales.
20, 3, 4, 19, 6, 7, 10, 21,12, 16

5/5/2014 Tamara Jorquiera MC MSc
1. Es nica , existe solamente una mediana
para un conjunto de datos.
2. Los valores extremos no tienen efectos
importantes sobre la mediana.
3. Se aplica tambin a variables que
pertenecen a la escala ordinal.
4. Es muy variable de muestra a muestra.

5/5/2014 Tamara Jorquiera MC MSc
Se ordena los datos en forma ascendente o
descendente.
Si el nmero de DATOS ES PAR, el valor de la
mediana ser la semisuma de los 2 valores
centrales.
Los valores centrales se encuentran en las
posiciones: X
N/2
y X
(N/2 +1)


X
N/2
+ X
(N/2 +1)

Me = _________________
2

5/5/2014 Tamara Jorquiera MC MSc
Dado los valores: 11, 8, 13, 20, 14, 3, 7, 12. par
Hallar la mediana

5/5/2014 Tamara Jorquiera MC MSc
Si el nmero de DATOS ES IMPAR,
el valor de la mediana es el
valor del centro.

Me = X
(N+1)/2


donde (N+1)/2 es la posicin
central, de la mediana.
5/5/2014 Tamara Jorquiera MC MSc
Calcular la mediana dado los valores:
11, 19, 12, 16, 13, 15, 17
5/5/2014 Tamara Jorquiera MC MSc
5/5/2014
Clase Intervalos Xi fi Fi hi% Hi%
Lim Reales
I 1.66 1.69 1.675 6 6 7.50% 7.50% 1.655 1.695
II 1.70 1.73 1.715 9 15 11.25% 18.75% 1.695 1.735
III 1.74 1.77 1.755 26 41 32.50% 51.25% 1.735 1.775
IV 1.78 1.81 1.795 15 56 18.75% 70.00% 1.775 1.815
V 1.82 1.85 1.835 16 72 20.00% 90.00% 1.815 1.855
VI 1.86 1.89 1.875 6 78 7.50% 97.50% 1.855 1.895
VI 1.90 1.93 1.915 2 80 2.50% 100.00% 1.895 1.935
Tamara Jorquiera MC MSc
Es un valor representativo de
un conjunto de datos que se
est estudiando y caracteriza a
toda una distribucin.
Se le conoce tambin como
promedio.
x (ESTADSTICO) (PARMETRO)
En su clculo intervienen todo los
valores que se estn estudiando.
5/5/2014 Tamara Jorquiera MC MSc
Si tenemos n datos representados por:
x
1
, x
2
, x
3
, ......x
n
.

La media aritmtica de estos n datos est dada
por:

__ X
1
+ X
2
+ X
3
+..........+ X
n

X = ________________________
n

5/5/2014 Tamara Jorquiera MC MSc
Xi
= _______ N es el tamao
N de la poblacin


Xi
X = _______ n es el tamao
n de la muestra


5/5/2014 Tamara Jorquiera MC MSc
f
i
es frecuencia
f
i
Xi absoluta simple.
X = ________
n Xi es una
marca de clase.


5/5/2014 Tamara Jorquiera MC MSc
1. Es nica, puede ser un valor positivo, cero o un valor negativo.
2. Si a los valores que estudiamos le sumamos o restamos una
constante, el valor de la nueva media quedara como la media
aritmtica de los datos originales ms o menos la constante que se
ha agregado.

11,12,13 u= ?
= 12
+3 a todos los datos
14,15,16
u= ?
u= 12+3
= 15

3. Si a cada valor de la serie le multiplicamos por una constante, la
nueva media aritmtica sera igual a la media aritmtica original
multiplicada por la constante.


5/5/2014 Tamara Jorquiera MC MSc
4. La suma de las desviaciones de los datos con
respecto a la media es cero, es decir

N
_ 11-12 =-1
( x
i
- X) = 0 12-12 = 0 -1 + 0 + +1 = 0

i=1
13-12 =+1
5. Como incluye todos los datos, puede estar
afectado por valores extremos.

6. Es usada para variables medidas en escala de
intervalo o de razn.

5/5/2014 Tamara Jorquiera MC MSc
Los siguientes datos son edades de 10 madres
que asisten a un centro de salud en un da :
30, 43, 58, 61, 70, 42, 58, 39, 60, 55.

La edad promedio de estas madres ser:


5/5/2014 Tamara Jorquiera MC MSc
A continuacin se
presenta las
edades de 30
personas con
cncer pulmonar
que pasan a
consulta en el
Hospital Mara
Auxiliadora. Lima.
Julio 2004:

Determinar la Media
30,43,58,61,70,42,58,39
60,55,71,70,65,39,40,61
65,56,38,57,49,61,69,43
46,69,44,59, 62,66
Edad fi Xi fi . Xi
30 - 36 1 33 33
37 - 43 7 40 280
44 - 50 3 47 141
51 - 57 3 54 162
58 - 64 8 61 488
65 - 71 8 68 544
Total 30 1648
5/5/2014 Tamara Jorquiera MC MSc
Cuando los datos de una poblacin
se distribuyen con igual frecuencia y
alejamiento por debajo y por
encima de la media aritmtica, se
dice que la distribucin es simtrica;
pero,
si los datos por debajo de la media
son ms frecuentes que aquellos por
encima de la media, o viceversa, se
dice que la distribucin es
asimtrica.

5/5/2014 Tamara Jorquiera MC MSc
5/5/2014 Tamara Jorquiera MC MSc
0
5
10
15
20
25
30
1 2 3 4 5 6 7 8 9 10 11 12 13
Moda
Mediana
Media
5/5/2014 Tamara Jorquiera MC MSc
0
5
10
15
20
25
30
1 2 3 4 5 6 7 8 9 10 11 12 13
Moda
Mediana
Media
Distribucin Sesgada a la Izquierda
5/5/2014 Tamara Jorquiera MC MSc
0
5
10
15
20
25
30
1 2 3 4 5 6 7 8 9 10 11 12 13
Moda
Mediana
Media
5/5/2014 Tamara Jorquiera MC MSc
Distribucin Sesgada a la Derecha
0
5
10
15
20
25
30
1 2 3 4 5 6 7 8 9 10 11 12 13
Moda
Mediana
Media
5/5/2014 Tamara Jorquiera MC MSc
5/5/2014 Tamara Jorquiera MC MSc

Llamadas tambin medidas de variabilidad,
miden el grado de separacin de los datos
respecto a un valor central.
Son tiles porque:
1. Permiten juzgar la confiabilidad de la
medida de tendencia central.
2. Los datos demasiados dispersos tienen un
comportamiento especial.
3. Es posible comparar dispersin de
diversas muestras.
5/5/2014 Tamara Jorquiera MC MSc
Una medida de Dispersin indica
cmo las observaciones se separan
de la Media Artmetica.

Esta medida de dispersin ser grande
si las observaciones estn distantes
de la media y pequea si estn
cerca.

5/5/2014 Tamara Jorquiera MC MSc
Rango Amplitud (A)
Varianza (V
2
s
2
)
Desviacin Estndar ( s)
Desviacin Cuartil (DC)
5/5/2014 Tamara Jorquiera MC MSc
RANGO ( Amplitud Total )
Es la medida ms simple de dispersin.
La que menos informacin nos ofrece sobre la agrupacin de las
variables en torno a las medidas de tendencia central.

A = Obs
Max
- Obs
Min

Se aplica a variables cuantitativas discretas o continuas pero no a
las cualitativas.
5/5/2014 Tamara Jorquiera MC MSc
Es una medida de dispersin
que cuantifica la
variabilidad de los datos con
respecto a la Media
Aritmetica.

Junto con la desviacin estndar, es la medida de dispersin que
mejor expresa la variabilidad del fenmeno.


5/5/2014 Tamara Jorquiera MC MSc
Si tenemos N datos X
1
, X
2
, X
3
, ...., X
N
.
La varianza de estos datos se define
como:

( Xi - )
2

V(X) = ____________
N

= [(Xi- )
2
]/ N



5/5/2014 Tamara Jorquiera MC MSc
Para una muestra de tamao n:
V(X) = ( Xi - X )
2

n-1
= [(Xi-X)
2
]/ n-1
5/5/2014 Tamara Jorquiera MC MSc
Es la medida de dispersin para datos simtricos
Es la medida de dispersin ms comn para definir datos mdicos y del
rea de la salud.
Es la raz cuadrada de la varianza
= V(X) s= V(X)
Requieren datos numricos.
Cuanto menor sea la desviacin estndar, menor ser la dispersin (ms
homognea) y
Cuanto mayor sea la desviacin tpica, mayor dispersin (menos
homognea).
5/5/2014 Tamara Jorquiera MC MSc
Es la medida de dispersin para datos asimtricos
R. I. Q
2

El Rango intercuartil se define como:
R.I. (Q) = Q
3
- Q
1


Q1 es el primer cuartil



Q3 es el tercer cuartil

Excluye el 25% ms alto y el 25% ms bajo, dando un rango
del 50% de los datos.

5/5/2014
Rango Intercuartil
entre 2
Tamara Jorquiera MC MSc
Rango,
Desviacin estndar y
Varianza.
Son absolutas porque siempre van
acompaadas de sus unidades de medida.
Rango de 6 hijos
Desviacin estndar de 1.5 hijos



5/5/2014 Tamara Jorquiera MC MSc
Es una medida relativa de variabilidad de los datos
entre la media y la desviacin estndar de una
poblacin o muestra. Permite comparar la
variabilidad de dos o ms conjuntos de datos
expresados en unidades diferentes.
por ejemplo
peso en Kg. y libras
peso y talla
Es el porcentaje que la desviacin estndar
representa de la media.

5/5/2014 Tamara Jorquiera MC MSc
a) Clculos a partir de datos no agrupados
para la muestra:



para la poblacin:



As podremos decidir cul de los grupos de datos es
ms disperso.
Pero slo se puede usar si la escala de medida de la
variable es de razn.
Si cambiamos el cero arbitrariamente, cambia tambin la media
y por lo tanto cambiar el CV.
100

CV
100
x
s
CV
5/5/2014 Tamara Jorquiera MC MSc
Supongamos que de dos poblaciones se han
obtenido los siguientes datos:
Grupo 1 Grupo 2

Edad = 25 aos 21 aos

= 72.5 Kg 165cm
= 5 Kg 5 cm

N = 15 15
Que grupo es ms homogneo o menos variable?
100

CV
5/5/2014 Tamara Jorquiera MC MSc
100

CV
Grupo 1 Grupo 2
Edad = 25 aos 21 aos
= 72.5 Km 165 cm
= 5 Kg 5 cm
N = 15 15
5/5/2014 Tamara Jorquiera MC MSc

SI:
C.V 50% Dispersin aceptable.
distribucin homognea
C.V 50% La dispersin es muy alta.
distribucin heterognea
5/5/2014 Tamara Jorquiera MC MSc
Sitan a un individuo en la distribucin de la
variable que se est estudiando.
Primero deben ordenarse los datos.
Se usan mucho en test psicomtricos y
medidas antropomtricas.
5/5/2014 Tamara Jorquiera MC MSc
Son aquellos que dividen a la
distribucin en cuatro, diez o
cien partes iguales:
Cuartiles.
Deciles.
Percentiles.

5/5/2014 Tamara Jorquiera MC MSc
Son aquellos que dividen a la distribucin en cuatro partes iguales,
en donde cada uno de ellos incluye el 25% de las observaciones.
__25%_._25%__.__25%__.__25%__
Q
1
Q
2
Q
3

Me

Clase Intervalos Xi fi Fi hi% Hi%
Lim Reales
I 1.66 1.69 1.675 6 6 7.50% 7.50% 1.655 1.695
II 1.70 1.73 1.715 9 15 11.25% 18.75% 1.695 1.735
III 1.74 1.77 1.755 26 41 32.50% 51.25% 1.735 1.775
IV 1.78 1.81 1.795 15 56 18.75% 70.00% 1.775 1.815
V 1.82 1.85 1.835 16 72 20.00% 90.00% 1.815 1.855
VI 1.86 1.89 1.875 6 78 7.50% 97.50% 1.855 1.895
VI 1.90 1.93 1.915 2 80 2.50% 100.00% 1.895 1.935
5/5/2014 Tamara Jorquiera MC MSc
CUARTILES
Mnimo
Mximo Cuartil 1
Q
1

Cuartil 3
Q
3

Mediana
Cuartil 2
Q
2

25% 25% 25% 25%
25% 75%
25% 75%
5/5/2014 Tamara Jorquiera MC MSc
Son aquellos que dividen a la distribucin en diez partes iguales en
donde cada uno de ellos incluye el 10% de las observaciones

_10%_._10%_.10%_._10%_._10%_._10%_._10%_._10%_._10%_._10%_
D
1
D
2
D
3
D
4
D
5
D
6
D
7
D
8
D
9
Q
2
Me

Clase Intervalos Xi fi Fi hi% Hi%
Lim Reales
I 1.66 1.69 1.675 6 6 7.50% 7.50% 1.655 1.695
II 1.70 1.73 1.715 9 15 11.25% 18.75% 1.695 1.735
III 1.74 1.77 1.755 26 41 32.50% 51.25% 1.735 1.775
IV 1.78 1.81 1.795 15 56 18.75% 70.00% 1.775 1.815
V 1.82 1.85 1.835 16 72 20.00% 90.00% 1.815 1.855
VI 1.86 1.89 1.875 6 78 7.50% 97.50% 1.855 1.895
VI 1.90 1.93 1.915 2 80 2.50% 100.00% 1.895 1.935
5/5/2014 Tamara Jorquiera MC MSc
Son aquellos que dividen a la distribucin en cien partes
iguales en donde cada
uno de ellos incluye el 1% de las observaciones:

_1%_._1%_. 1%_._1%_._1%_. .........._1%_._1%_._1%_._1%_._1%_
P
1
P
2
P
3
P
4 ..
......... P
96
P
97
P
98
P
99


Clase Intervalos Xi fi Fi hi% Hi%
Lim Reales
I 1.66 1.69 1.675 6 6 7.50% 7.50% 1.655 1.695
II 1.70 1.73 1.715 9 15 11.25% 18.75% 1.695 1.735
III 1.74 1.77 1.755 26 41 32.50% 51.25% 1.735 1.775
IV 1.78 1.81 1.795 15 56 18.75% 70.00% 1.775 1.815
V 1.82 1.85 1.835 16 72 20.00% 90.00% 1.815 1.855
VI 1.86 1.89 1.875 6 78 7.50% 97.50% 1.855 1.895
VI 1.90 1.93 1.915 2 80 2.50% 100.00% 1.895 1.935
5/5/2014 Tamara Jorquiera MC MSc
PERCENTILES
Mnimo
Mximo
Percentil 20
P
20

20% 80%
5/5/2014 Tamara Jorquiera MC MSc
Como los clculos de los cuantiles, deciles y percentiles
son similares se calcular el Q
3
de la siguiente distribucin:








1. Q
3
:
2. P
45
:
3. P
90
:
Variable fi Fi hi Hi
55 - 58 20 20 8% 8%
59 - 62 30 50 12% 20%
63 - 66 80 130 32% 52%
67 - 70 70 200 28% 80%
71 - 74 40 240 16% 96%
75 - 78 10 250 4% 100%
Total 250
INTERPRETAR
5/5/2014 Tamara Jorquiera MC MSc

Q1 = P25
Q2 = Mediana = P50
Q3 = P75
5/5/2014 Tamara Jorquiera MC MSc

Con distribuciones simtricas (no
sesgadas) se emplean la media y la
desviacin estndar de datos numricos.

Cuando la distribucin no es
simtrica(sesgada) se emplean la mediana
y Percentiles y rango intercuartilicos y
desviacin cuartil.
5/5/2014 Tamara Jorquiera MC MSc
El rango es una medida apropiada
para datos numricos cuando el
propsito es enfatizar valores
extremos.

El coeficiente de variacin es til
cuando la intencin es comparar dos
distribuciones numricas medidas en
escalas diferentes.
5/5/2014 Tamara Jorquiera MC MSc
Es un grfico representativo de las distribuciones de un conjunto
de datos en cuya construccin se usan cinco medidas
descriptivas: mediana, primer cuartil, tercer cuartil, valor
mximo y valor mnimo.
Presenta, al mismo tiempo, informacin sobre la tendencia
central, dispersin y simetra de los datos de estudio.
Adems, permite identificar con claridad y de forma individual,
observaciones que se alejan de manera poco usual del resto de
los datos. A estas observaciones se les conoce como valores
atpicos. outliers (valores extremos).
Al igual que el histograma y el grfico de Tallos y Hojas permite
tener una idea visual de la distribucin de los datos (simetra y
variabilidad)

Alternativa grfica a pruebas estadsticas
5/5/2014 Tamara Jorquiera MC MSc
1. Dibujar una caja cuyo lmite inferior ser Q1 y
el superior Q3. Dentro de la caja trazar una
lnea que localice la mediana.

2. Calcular el rango intercuartlico:
R.I. (Q) = RIQ = Q3 Q1

3. Dibujar un bigote del borde inferior de la
caja hasta Q1-1.5 x RIQ .
5/5/2014 Tamara Jorquiera MC MSc
5. Dibujar otro bigote del borde
superior de la caja hasta Q3+1.5 x RIQ .

6. Dibujar cualquier observacin que se
ubique fuera de los bigotes (estos sern
los outliers).
5/5/2014 Tamara Jorquiera MC MSc
EDAD fi
EDAD fi
5/5/2014 Tamara Jorquiera MC MSc
5/5/2014 Tamara Jorquiera MC MSc
EDAD fi Fi
EDAD fi Fi
5/5/2014 Tamara Jorquiera MC MSc
5/5/2014 Tamara Jorquiera MC MSc
5/5/2014 Tamara Jorquiera MC MSc
5/5/2014 Tamara Jorquiera MC MSc
5/5/2014 Tamara Jorquiera MC MSc
Cajas anchas nos sugieren distribuciones muy
dispersas en la parte central.
Cajas angostas nos muestran una gran
concentracin de datos.
La longitud de las colas por su parte nos
dirn la mayor o menor concentracin de los
datos en las zonas extremas.
5/5/2014 Tamara Jorquiera MC MSc
Mientras ms larga la caja y los bigotes, ms dispersa es la distribucin
de datos.

La distancia entre las cinco medidas descritas en el boxplot (sin incluir la
media aritmtica) puede variar, sin embargo, recuerde que la cantidad
de elementos entre una y otra es aproximadamente la misma. Entre el
lmite inferior y Q
1
hay igual cantidad de opiniones que de Q
1
a la
mediana, de sta a Q
3
y de Q
3
al lmite superior. Se considera aproximado
porque pudiera haber valores atpicos, en cuyo caso la cantidad de
elementos se ve levemente modificada.

La lnea que representa la mediana indica la simetra. Si est
relativamente en el centro de la caja la distribucin es simtrica. Si por
el contrario se acerca al primer o tercer cuartil, la distribucin pudiera
ser sesgada a la derecha (asimtrica positiva) o sesgada a la izquierda
(asimtrica negativa respectivamente. Esto suele suceder cuando las
opiniones de los estudiantes tienden a concentrase ms hacia un punto
de la escala.

La mediana puede inclusive coincidir con los cuartiles o con los lmites de
los bigotes. Esto sucede cuando se concentran muchos datos en un mismo
punto

5/5/2014 Tamara Jorquiera MC MSc

Las medidas de resumen numrico
empleadas para variables cualitativas son:
Razn
Proporcin
Tasa

5/5/2014 Tamara Jorquiera MC MSc
Es la comparacin por cociente entre dos cifras de
diferentes o similar naturaleza en donde el
numerador y el denominador son excluyentes.
Por ejemplo, si tenemos 380 camas hospitalarias y 95
enfermeras y queremos encontrar la razn entre
ellas, tenemos que dividir:

380 camas hospitalarias/95 enfermeras=
4 camas/enfermera

Este nmero constituye un valor que refleja una
relacin.
En este caso, el nmero 4 se interpreta como que por
cada cuatro camas hospitalarias hay una enfermera.
5/5/2014 Tamara Jorquiera MC MSc
Es la comparacin por cociente entre el nmero
de elementos de un subconjunto y el nmero de
elementos de un conjunto al que pertenece
dicho subconjunto. En este caso el numerador
est incluido en el denominador, por este motivo
los valores siempre van a ser menores que la
unidad.

Por ejemplo, si en la poblacin hubo 175 casos
de cncer pulmonar de un total de 1925 casos
de todos los tipos de cncer, la proporcin se
calcular.
175 / 1925 = 0.09
5/5/2014 Tamara Jorquiera MC MSc
Es la comparacin por cociente entre un
nmero de eventos ocurridos en un tiempo y
lugar determinados y la poblacin que estuvo
expuesta al riesgo de que le ocurriera dichos
eventos en la misma poca y en ese lugar.
5/5/2014 Tamara Jorquiera MC MSc
4/3/14 Tamara Jorquiera MC MSc
GRACIAS

También podría gustarte