Está en la página 1de 121

METODOLOGIA CUANTITATIVA

UNIDAD 1: ESTADSTICA DESCRIPTIVA

Contenidos
1.Definiciones y conceptos bsicos 2.Concepto de estadstica, estadstica descriptiva, estadstica inferencial. 3.Definicin y conceptos bsicos: Poblacin, elemento, muestra, parmetro y estadgrafo. 4.Tipos de variables: Cuantitativas y Cualitativas. 5.Medidas de tendencia central: Media, Mediana, Moda, Media geomtrica y Media armnica para datos no agrupados. 6.Medidas de variabilidad y dispersin: Rango, Desviacin media, Varianza, Desviacin estndar y Coeficiente de variacin para datos no agrupados.

Contenidos
7. Distribuciones de frecuencias. Frecuencia absoluta, Frecuencia relativa, Frecuencia absoluta acumulada, Frecuencia relativa acumulada, Eleccin de clases, Eleccin de intervalos para variables continuas. 8. Medidas de tendencia central: Media, Mediana, Moda para datos agrupados. 9. Medidas de variabilidad y dispersin: Desviacin estndar, Varianza y Coeficiente de Variacin para datos agrupados. 10.Representaciones Grficas : Grficos para variables cualitativas, Grficos para variables cuantitativas 11.Estadsticos de posicin: Percentiles, Cuartiles, Deciles.

Todo el que toma decisiones debe hacerlo bajo

condiciones de incertidumbre, en mayor o menor


grado.

Con el aumento de la competitividad, se requiere tomar


decisiones cada vez con una mayor base de conocimiento para as reducir la incertidumbre.

Datos no faltan ...

El aumento en la eficiencia de los sistemas


computacionales... ha producido un aumento en la capacidad de almacenar datos.

Tanto, que sta supera ampliamente la capacidad de procesarlos. Pero los datos por si solos no sirven

si no es capaz de extraer informacin de ellos.

Y con los recursos necesarios, como competencias y


experiencia, se puede convertir esta informacin en conocimiento

que permite tomar buenas decisiones


estratgicas, tcticas y operativas.

Las etapa de produccin de datos y de extraccin de

informacin, requiere de mtodos, tcnicas y


herramientas de anlisis.

El desarrollo de estos mtodos, tcnicas y herramientas se encuentra en la ciencia que se llama

ESTADISTICA.

El ciclo de la produccin
de conocimiento.

CONOCIMIENTO

RECURSOS INTELECTUALES ESTADISTICA

INFORMACION

DATOS

ESTADISTICA

El ciclo de la produccin
de conocimiento.

CONOCIMIENTO

RECURSOS INTELECTUALES ESTADISTICA

INFORMACION

DATOS

ESTADISTICA

Requerimientos de ms informacin

Ejemplos de fuentes de informacin nacional


INE: Demografa, educacin, vivienda, salud, transporte, meteorologa, economa www.ine.cl MIDEPLAN: Promocin del desarrollo del pas con integracin y proteccin social de las personas CONASET: Comisin nacional de seguridad del transito. CARABINEROS MINSAL SSMO SSMOO SSMN SSMS

Ejemplos de fuentes de informacin nacional


SENAMA FONADIS MINEDUC INTA: Instituto de nutricin y tecnologa de los alimentos UNIVERSIDADES: PUCCH, UCHILE, UNAB, ETC COLEGIO DE KINESIOLOGOS

Ejemplos de fuentes de informacin internacional (SALUD)


OPS
OMS

FISTERRA

DEFINICIN
La Bioestadstica es el conjunto de mtodos necesarios para recoger, clasificar, representar y resumir datos, deducir las leyes que rigen esos fenmenos, as como para hacer inferencias (extraer consecuencias) cientficas a partir de ellos.

La Bioestadstica es la Ciencia de la
Sistematizacin, recogida, ordenacin y presentacin de los datos referentes a un fenmeno que presenta variabilidad o incertidumbre para su estudio metdico, con objeto de deducir las leyes que rigen esos fenmenos,

DESCRIPTIVA

PROBABILIDAD

y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.

INFERENCIA

INVESTIGACIN CIENTFICA

RESPUESTA

MTODO CIENTFICO

CUANTITATIVA

INVESTIGACIN

CUALITATIVA

Diseo de la investigacin cientfica e interpretacin de la evidencia clnica

Mtodo cientfico y Bioestadstica

PLANTEAR HIPTESIS

DISEAR EXPERIMENTO

OBTENER CONCLUSIONES

RECOGER DATOS Y ANALIZARLOS

La medicina basada en la evidencia es el uso sistemtico, cientfico y explcito de la mejor evidencia actual para tomar decisiones

Niveles de evidencia y grados de recomendaciones

Centro para la Medicina Basada en Evidencias de la Universidad de Oxford. (http://www.cebm.net/levels_of_evidence.asp)

Pasos en un estudio estadstico


Plantear hiptesis sobre una poblacin Los fumadores tienen menor rendimiento laboral que los no fumadores
En qu sentido? Nmero? Tiempo medio? Decidir qu datos recoger (diseo de experimentos) Qu individuos pertenecern al estudio (muestras) Fumadores y no fumadores en edad laboral. Criterios de exclusin Cmo se eligen? Descartamos los que padecen enfermedades crnicas? Qu datos recoger de los mismos (variables) Nmero de actividades Tiempo de duracin de cada actividad Sexo? Sector laboral? Otros factores?

Recoger los datos (muestreo) Estratificado? Sistemticamente? Describir (resumir) los datos obtenidos tiempo medio de actividad en fumadores y no (estadsticos) % de actividad por fumadores y sexo (frecuencias), grficos,...
Realizar una inferencia sobre la poblacin Los fumadores tienen menor rendimiento laboral al menos 10 das/ao en relacin a la media que los no fumadores. Cuantificar la confianza en la inferencia Nivel de confianza del 95%

Poblacin, muestra, variables, presentacin ordenada de datos

Poblacin y muestra
Poblacin (population) es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Normalmente es demasiado grande para poder abarcarlo.

Muestra (sample) es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) Debera ser representativo

Variables
Una variable es una caracterstica observable que vara entre los diferentes individuos de una poblacin.

Individuos o elementos: personas u objetos que contienen cierta informacin que se desea estudiar. Por ejemplo, en los individuos de nuestra poblacin, es variable:
El grupo sanguneo
{A, B, AB, O} Var. Cualitativa

Su nivel de felicidad declarado


{Deprimido, Normal, Muy Feliz} Var. Ordinal

El nmero de hijos
{0,1,2,3,...} Var. Numrica discreta

La altura
{162 ; 174; ...} Var. Numrica continua

Tipos de variables
Cualitativas Evita la cuantificacin y se centra en la cualidad que se revela
Nominales: Si sus valores no se pueden ordenar
Sexo, Grupo Sanguneo, Religin, Nacionalidad, Fumar (S/No)

Ordinales: Si sus valores se pueden ordenar


Mejora a un tratamiento, Grado de satisfaccin, Intensidad del dolor

Cuantitativas o Numricas Se reduce a medir variables en funcin de una magnitud o cantidad determinada.
Discretas: Si toma valores enteros
Nmero de hijos, Nmero de cigarrillos, Num. de cumpleaos

Continuas: Si entre dos valores, son posibles infinitos valores intermedios.


Altura, Presin intraocular, Dosis de medicamento administrado, edad

Presentacin ordenada de datos


7

Gnero

Frec.

6 5

Hombre

4 3 2

Mujer

1 0 Hombre Mujer

Las tablas de frecuencias y las representaciones grficas son dos maneras equivalentes de presentar la informacin. Las dos exponen ordenadamente la informacin recogida en una muestra.

Tablas de frecuencia
Exponen la informacin recogida en la muestra, de forma que no se pierda nada de informacin (o poca). Frecuencias absolutas: Contabilizan el nmero de individuos de cada modalidad Frecuencias relativas (porcentajes): dem, pero dividido por el total Frecuencias acumuladas: Esta frecuencia se expresa como proporcin o porcentaje del total. * Frecuencias acumuladas absolutas y * Frecuencias acumuladas relativas.

SEXO DE LA ENCUESTA XTR REALIZADA A 1517 PERSONAS EN SANTIAGO, AO ZZ

Sexo

Frecuencia Absoluta

Frecuencia Relativa

Frecuencia Frecuencia Acumulada Acumulada Absoluta Relativa 636 1517 41.9 100.0

Hombre Mujer Total

636 881 1517

41.9 58.1 100.0

---------------- ----------------

NIVEL DE FELICIDAD DE LA ENCUESTA XTR REALIZADA A 1517 PERSONAS EN SANTIAGO, AO ZZ


Nivel de Felicidad Frecuencia Absoluta Frecuencia Relativa Frecuencia Acumulada Absoluta 467 1339 1504 1517 ---------------Frecuencia Acumulada Relativa 30.78 88.26 99.14 100.00 ----------------

Muy Feliz Bastante Feliz Poco Feliz No contesta Total

467 872 165 13 1517

30.78 57.48 10.88 0.86 100.00

NMERO DE HIJOS QUE PRESENTABAN LAS PERSONAS DE LA ENCUESTA XTR REALIZADA A 1517 PERSONAS EN SANTIAGO, AO ZZ
N de hijos Frecuencia Absoluta Frecuencia Relativa Frecuencia Acumulada Absoluta 419 674 1049 1264 1391 1445 1469 1492 1509 1517 ---------------Frecuencia Acumulada Relativa 27.62 44.43 69.15 83.32 91.69 95.29 96.87 98.39 99.51 100.04 ----------------

0 1 2 3 4 5 6 7 8 ms No contesta Total

419 255 375 215 127 54 24 23 17 8 1517

27.62 16.81 24.72 14.17 8.37 3.60 1.58 1.52 1.12 0.53 100.04

Datos desordenados y ordenados en tablas


Variable: Gnero
Modalidades:
H = Hombre M = Mujer
Hombre Mujer Gnero Frec. Frec. relat. porcentaje 4/10=0,4=40% 6/10=0,6=60%

4
6 10=tamao muestral

Muestra:
MHHMMHMMMH equivale a HHHH MMMMMM

Ejemplo
Nmero de hijos

Cuntos individuos tienen menos de 2 hijos?


frec. indiv. sin hijos + frec. indiv. con 1 hijo = 419 + 255 = 674 individuos
0 1 2 3 4 5 6 7 Ocho+ Tot al

Qu porcentaje de individuos tiene 6 hijos o menos?


97,3%

Frec. 419 255 375 215 127 54 24 23 17 1509

Porcent. (v lido) 27, 8 16, 9 24, 9 14, 2 8, 4 3, 6 1, 6 1, 5 1, 1 100,0

Porcent. acum. 27, 8 44, 7 69, 5 83, 8 92, 2 95, 8 97, 3 98, 9 100,0

Grficos para v. cualitativas


Diagramas de barras
Alturas proporcionales a las frecuencias (abs. o rel.) Se pueden aplicar tambin a variables discretas

Diagramas de sectores (tortas)


No usarlo con variables ordinales. El rea de cada sector es proporcional a su frecuencia (abs. o rel.)

Pictogramas
Fciles de entender. El rea de cada modalidad debe ser proporcional a la frecuencia. De los dos, cul es incorrecto?.

Grficos diferenciales para variables numricas


419
40 0

375

Son diferentes en funcin de que las variables sean discretas o continuas. Son vlidos para frec. absolutas o relativas.
Diagramas barras para v. discretas
Se deja un hueco entre barras para indicar los valores que no son posibles

30 0

Recuento

255 215
20 0

127
10 0

54 24 23 17

7 Ocho o m s

Nme ro de hijos

25 0

Histogramas para v. continuas


El rea que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.
20 0

Recuento

15 0

10 0

50

20

40

60

80

Edad del e ncue stado

Diagramas integrales
Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se realizan a partir de las frecuencias acumuladas. Indican, para cada valor de la variable, la cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo.

Polgono (frecuencia)

Ojiva (frecuencias acumuladas)

ESTADIGRAFOS

Parmetros y estadsticos
Parmetro: Es una cantidad numrica calculada sobre una poblacin
La altura media de los individuos de un pas

Estadstico: dem (cambiar poblacin por muestra)


La altura media de los que estamos en esta sala
Si un estadstico se usa para aproximar un parmetro tambin se le suele llamar estimador.

Normalmente nos interesa conocer un parmetro, pero por la dificultad que conlleva estudiar a *TODA* la poblacin, calculamos un estimador sobre una muestra y confiamos en que sean prximos.

Resumen sobre estadsticos


Posicin
Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos.
Cuantiles, percentiles, cuartiles, deciles,...

Centralizacin
Indican valores con respecto a los que los datos parecen agruparse.
Media, mediana y moda

Dispersin
Indican la mayor o menor concentracin de los datos con respecto a las medidas de centralizacin.
Desviacin tpica, coeficiente de variacin, rango, varianza

Forma
Asimetra Apuntamiento o curtosis

Estadsticos de posicin
Se define el cuantil de orden a como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada a.

Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

Estadsticos de posicin
Percentil divide a la muestra en 100 grupos con frecuencias similares.
La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%

Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares.


Primer cuartil = Percentil 25 = Cuantil 0,25 Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana Tercer cuartil = Percentil 75 = cuantil 0,75

Ejemplos
El 5% de los recin nacidos tiene un peso demasiado bajo. Qu peso se considera demasiado bajo?
Percentil 5 o cuantil 0,05

Qu peso es superado slo por el 25% de los individuos?


Percentil 75

El colesterol se distribuye simtricamente en la poblacin. Se considera patolgico los valores extremos. El 90% de los individuos son normales Entre qu valores se encuentran los individuos normales?
Entre el percentil 5 y el 95

Entre qu valores se encuentran la mitad de los individuos ms normales de una poblacin?


Entre el cuartil 1 y 3

Ejemplo
Qu peso no llega a alcanzar el 25% de los individuos?
Primer cuartil = percentil 25 = 60 Kg.

50%

Qu peso es superado por el 25% de los individuos?


Tercer cuartil= percentil 75= 80 kg.

Entre qu valores se encuentra el 50% de los individuos con un peso ms normal?


Entre el primer y tercer cuartil = entre 60 y 80 kg.
Estadsticos PESO Percentiles

25 50 75

60, 00 70, 00 80, 00

Ejemplo
Nmero de aos de escolarizacin Porcentaje acumulado ,3 ,7 1,1 1,9 3,5 8,0 11,7 16,6 22,2 52,8 61,4 73,0 77,9 90,7 93,6 96,6 98,0 100,0 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total Frecuencia 5 5 6 12 25 68 56 73 85 461 130 175 73 194 43 45 22 30 1508 Porcentaje ,3 ,3 ,4 ,8 1,7 4,5 3,7 4,8 5,6 30,6 8,6 11,6 4,8 12,9 2,9 3,0 1,5 2,0 100,0

Estadsticos Nmero de aos de escolarizacin N Vlidos 1508 Perdidos 0 Media 12,90 Mediana 12,00 Moda 12 Percentiles 10 9,00 20 11,00 25 12,00 30 12,00 40 12,00 50 12,00 60 13,00 70 14,00 75 15,00 80 16,00 90 16,00

20%?

90%?

Centralizacin
Son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse. Media: Es la media aritmtica (promedio) de los valores de una variable. Suma de los valores dividido por el tamao muestral. Media de 2,2,3,7 es (2+2+3+7)/4=3,5 Conveniente cuando los datos se concentran simtricamente con respecto a ese valor. Muy sensible a valores extremos. Centro de gravedad de los datos
Mediana: Es un valor que divide a las observaciones en dos grupos con el mismo nmero de individuos (percentil 50). Si el nmero de datos es par, se elige la media de los dos datos centrales. Mediana de 1,2,4,5,6,6,8 es 5 Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5 Es conveniente cuando los datos son asimtricos. No es sensible a valores extremos.
Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!

Moda: Es el/los valor/es donde la distribucin de frecuencia alcanza un mximo.

Algunas frmulas
Datos sin agrupar: x1, x2, ..., xn
Media

x x
i

Datos organizados en tabla


si est en intervalos usar como xi las marcas de clase. Si no ignorar la columna de intervalos.
Media
Variable
L0 L1 L1 L2 x1 x2 xk n

xn x
i

i i

fr.
n1 n2 nk

fr. ac.
N1 N2 Nk

Cuantil de orden i es el menor intervalo que tiene frecuencia acumulada superior a n =0,5 es mediana

...
Lk-1 Lk

a n N i 1 Ca Li 1 ( Li Li 1 ) ni

MEDIA MUESTRAL

Si los nmeros X1, X2,Xn aparecen de forma repetida con frecuencias f1, f2,.fn, respectivamente la media aritmtica puede calcularse de la forma siguiente:

Ejemplo.
Si los valores de los datos 3,6,8 y 9 aparecen con las frecuencias 3,2,2 y 1 respectivamente, la media aritmetica debe estimarse as: X= (3x3) + (2x6) + (2X8) + (1X9) 3+2+2+1

X= 5,75

MEDIA ARITMETICA PONDERADA


Cuando asociamos ciertos nmeros X1, X2,..Xn a ciertos factores de Ponderacin w1, w2,wn

Ejemplo: Si un examen final de un curso es ponderado 2 veces mas que una prueba parcial, y un estudiante tiene una nota 6 en su examen final Y de 4 y 5 en dos pruebas parciales, Cul es su promedio final? X= (1x4) + ((1x5) + (2x6) 1+1+2 X= 5,25

MEDIA GEOMETRICA
La media geomtrica es un promedio muy til en conjuntos de nmeros que son interpretados en orden de su producto, no de su suma (tal y como ocurre con la media aritmtica). Por ejemplo, las velocidades de crecimiento.

Ejemplo: La media geometrica del valor de los siguientes datos: 2, 4, 8 es: G= ((2) (4) (8)) = 64

G= 4

MEDIA ARMNICA
La media armnica es un promedio muy til en conjuntos de nmeros que se definen en relacin con alguna unidad, por ejemplo la velocidad (distancia por unidad de tiempo).

Por ejemplo, la media armnica de los nmeros: 34, 27, 45, 55, 22, y 34 es:

H= 33,018

RELACIN ENTRE LAS MEDIAS ARITMETICAS, GEOMETRICAS Y ARMONICAS

La media geometrica de un conjunto de valores positivos es menor que, o igual a su media aritmetica, pero es mayor que o igual a su media armnica. HGX Ejemplo: De los valores 2,4,8 la media aritmetica es 4,67, media geometrica 4 y media armonica 3,43.

Altura mediana

Medidas de dispersin
Miden el grado de dispersin (variabilidad) de los datos, independientemente de su causa.
Amplitud o Rango: La diferencia entre las observacines extremas.
2,1,4,3,8,4. El rango es 8-1=7 Es muy sensible a los valores extremos.

Rango intercuartlico:
Es la distancia entre el primer y tercer cuartil. Rango intercuartlico = P75 - P25 Parecida al rango, pero eliminando las observaciones ms extremas inferiores y superiores. No es tan sensible a valores extremos.

Varianza S2: Mide el promedio de las desviaciones al cuadrado de las observaciones con respecto a la media.

1 S ( xi x ) 2 n i
2

Es sensible a valores extremos (alejados de la media). Sus unidades son el cuadrado de las de la variable.

Desviacin tpica Es la raz cuadrada de la varianza Tiene las misma dimensionalidad (unidades) que la variable.
A una distancia de una desv. tpica de la media tendremos 68% observaciones.

S S
50 40 30

20

10 Desv. tp. = 568,43 Media = 2023 0


0 50 0 90

N = 407,00
0 30 3. 0 90 2. 0 50 2. 0 10 2. 0 70 1. 0 30 1.

A una distancia de dos desv. tpica de la media tendremos 95% observaciones.

Peso recin nacidos en partos gemelares

Coeficiente de variacin
Es la razn entre la desviacin tpica y la media.
Mide la desviacin tpica en forma de qu tamao tiene con respecto a la media

S CV x

Tambin se la denomina variabilidad relativa.


Es frecuente mostrarla en porcentajes
Si la media es 80 y la desviacin tpica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)

Es Interesante para comparar la variabilidad de diferentes variables.


Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan ms dispersin en peso que en altura.

No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente Por ejemplo 0C 0F

Asimetra o Sesgo
Una distribucin es simtrica si la mitad izquierda de su distribucin es la imagen especular de su mitad derecha.
En las distribuciones simtricas media y mediana coinciden. Si slo hay una moda tambin coincide La asimetra es positiva o negativa en funcin de a qu lado se encuentra la cola de la distribucin.

La media tiende a desplazarse hacia las valores extremos (colas).


Las discrepancias entre las medidas de centralizacin son indicacin de asimetra.

Estadsticos para detectar asimetra


Hay diferentes estadsticos que sirven para detectar asimetra.
Basado en diferencia entre estadsticos de tendencia central. Basado en la diferencia entre el 1 y 2 cuartiles y 2 y 3. Basados en desviaciones con signo respecto a la media.

Distribucin simtrica asimetra nula.

Apuntamiento o curtosis
160

La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribucin con respecto a la distribucin normal o gaussiana.

140

120

100

Platicrtica: curtosis < 0


Frecuencia

80

Mesocrtica: curtosis = 0 Leptocrtica: curtosis > 0


400

60

40 45 48 51 54 57 60 63 66 69 72 75 78 81 84

Platicrtica
300

Los grficos que observamos poseen la misma media y desviacin tpica, pero con diferente grado de apuntamiento.
Frecuencia

300
200

200

100

Frecuencia

100

0 3 16 27 32 37 42 47 52 57 62 67 72 77 82 87 92

97

108

27 32

37 41

45 49

53 57

61 65

69 73

77 81

85 89

93 99

102 138

Leptocrtica

Mesocrtica

PRESENTACIN ORDENADA DE DATOS

PRESENTACIN DE DATOS
Los datos o informacin en estadstica se presentan mediante tablas y grficos. Los datos deben estar bien presentados y ordenados y debe existir coherencia en la informacin.

Para los grficos se sugiere:


- sencillos - No requieren informacin adicional (autoexplicativos) - Indicar significado de los ejes.

PRESENTACIN DE DATOS
Tambin las tablas y grficos deben llevar un ttulo claro donde en general se especifica:
- Que se presenta en la tabla (edad, PA, etc)

- Como se clasifica la informacin - Donde y cuando obtuvo la informacin (hospital Y, ao X)


- A veces se indica la fuente o procedencia de los datos

Respecto de los grficos: Existe un criterio o gua denominado regla de los de altura

75%

De lo contrario se maximizan o minimizan los datos (se sobreestiman o se subestiman)

100%

Tablas de distribucin de frecuencias


Caso de variables cualitativas o categricas (atributos)
Para construirlas se requiere identificar las distintas categoras o atributos y luego registrar el nmero de veces (la frecuencia) que cada categora ocurre.
La representacin grfica para las variables cualitativas se realiza preferentemente mediante el diagrama de barras (simples) y el diagrama de sectores (grfico circular o de torta) * Barras = valores absolutos o %

* Sectores= %

Esquema:

Estado de salud de un grupo de pacientes clnica Alemana, ao 2004. N de pacientes o el % de pacientes

* Bueno Regular Malo * Al menos la mitad de la barra

Estado de salud

Estado de salud de un grupo de pacientes clnica Alemana, ao 2004.

100% = 360

Regular
% Bueno % %

X% = Y

Malo

A veces para apreciar el espacio

Eje truncado

Diagrama de Pareto = gerarquizado (barras)

Caso de variables cuantitativas o numricas

Se recomienda diferenciar entre variables cuantitativas discretas y continuas

Ejemplo para una variable cuantitativa discreta:


Nmero de mdicos que trabajan en 30 clnicas de santiago, ao 2002.

N de mdicos
1 2 3 4 5

Frecuencia N de clnicas
3 6 12 7 2

%
10,0 20,0 40,0 23,3 6,7

Total

30

100,0

Debe notarse que en este tipo de tablas no existe perdida de informacin. Es posible reproducir los datos originales: 1,1,1,2,2,2,2,2,2,,5,5

Cuando hay intervalos hay perdida de informacin.

Datos originales

Nmero de mdicos que trabajan en 30 clnicas de santiago, ao 2002. Frecuencias N de clnicas o % de clnicas 12 9 6 3

N de mdicos

Variable cuantitativa continua


En este caso es posible que la variable asuma una gran cantidad de valores diferentes. Es mejor agruparla en clases o intervalos.

Cmo se construye 1 tabla con clases e intervalos?


1.- Determinar el rango o campo de variacin de los datos: diferencia entre el dato mayor y el menor 2.- determinar el nmero de clases o intervalos: Este nmero es flexible; se sugiere de 5 a 15 y depende de factores tales como la cantidad de datos y de su dispersin o variabilidad.

Para el nmero de clases:


-Se puede obtener X ensayo. - Puede estar indicado.

-- Aplicar regla de Sturgers para en N mnimo de clases (se puede adecuar)

N de clases= 1 + 3,322 log n

N de datos que se requiere agrupar

3.- Determinar la amplitud o tamao de clase. En general consideramos amplitud comn dentro de una tabla y en tal caso: Amplitud= Rango / n de clases 4.- Hacer la tabla propiamente tal, anotando las clases de manera adecuada y luego registrando el n de datos (mediante recuento, conteo o tarjas) pertenecientes a cada clase con lo que se determina las frecuencias absolutas o simplemente frecuencias de cada clase.

Ejemplo: Los siguientes datos corresponden a la estatura en centmetros (aproximada al entero mas cercano) de 55 alumnos del curso H, registrada en abril de 2003. 162 153 167 172 181 197 177 176 159 184 163 179 165 185 152 166 173 172 178 173 165 183 154 164 166 178 178 143 174 185 163 165 186 155 171 175 152 161 158 172 167 173 189 174 179 172 164 190 135 145 170 167 159 191 - 178 1.- Determinar el rango 197 135 = 62 2.- n de clases o intervalos n de clases= 1 + 3,322 log n

1 + 3,322 Log 55
6,781484854 6,8

6 o 7 clases

3.- Amplitud o tamao


Con 6 clases

Con 7 clases
A= Rango/n de clases

A= Rango/n de clases
62/6 10,3 10

62/7
8,8571 8,9 9

Tenemos 6 clases de amplitud comn 10


135 144 145 154 155 164 165 174

175 184
185 - 194

No alcanz. Considerar 7 clases (volver a paso 3)

Con 7 clases y una amplitud de 9


Clase (Estatura alumnos) Recuento Frecuencias

135 143
144 152

II
III

2
3

153 161
162 170 171 179 180 188 189 197

IIIIIII
IIIIIIIIIIIIII IIIIIIIIIIIIIIIIIII IIIIII IIII

7
14 19 6 4

TOTAL

55

Algunos comentarios:

1.- Se gana en presentacin


2.- Se pierde informacin. No es posible reproducir los datos originales.

MODA
Para datos originales o series simples
Variable que tiene mayor frecuencia Puede ocurrir que no exista, o si existe, no ser nica

a.- 47, 54, 68, 52, 59: No existe moda b.- 38, 43, 49, 43, 57, 49, 50, 43: moda=43

c.- 83, 88, 81, 76, 81, 94, 97, 90, 93, 90: Moda= 81 y 90

MODA
Para datos agrupados en clases o intervalos
La moda est ubicada en la clase modal, que es aquella clase que tiene mayor frecuencia. Luego se aplica la frmula:

Moda= Li +

d1 d1+d2

Li= Lmite real inferior (de la clase modal) d1= Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase premodal d2= Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase post modal C= Amplitud de clase

MEDIANA
Para datos originales o series simples
Es un valor nico que divide a un conjunto de datos en 2 partes iguales de tal manera que el nmero de datos menores o iguales que la mediana es igual al nmero de datos menores que ella.
Corresponde al valor central cuando el nmero de datos es impar, y al promedio aritmtico de los 2 valores centrales cuando el nmero de datos es par. Equivalentemente la ubicacin o posicin de los 2 valores centrales correspondiente a la mediana se determina por la frmula de posicionamiento:

Posicionamiento= n + 1 2

MEDIANA
Ejemplo: Determinar la mediana para: a.- 48, 45, 40, 57, 59 = 40, 45, 48, 57, 59 (n=5) Posicionamiento= (n+1)/2 = (5 + 1)/2 = 3 Mediana= 48

b.- La edad de 8 personas es:


13, 18, 14, 16, 10, 23, 21, 11 = 10, 11, 13, 14, 16, 18, 21, 23 (n=8) Posicionamiento= (8 + 1)/ 2 = 4,5 (14 + 16)/2

Mediana= 15

MEDIANA
Para datos agrupados en clases o intervalos
La mediana se ubica en la clase mediana. Es aquella clase cuya frecuencia absoluta acumulada iguala o supera a n/2 o 50% (mitad de los datos). Luego se aplica la frmula:

Mediana= Li + n/2 Fi-1 fi

Li= Lmite real inferior de la clase mediana (se saca con las frecuencias acumuladas, la que iguale o supere a n/2 o 50%. Fi-1= Frecuencia acumulada absoluta de la clase anterior a la clase mediana fi= Frecuencia de la clase mediana C= Amplitud

CUARTILES, DECILES, PERCENTILES


Para datos originales o series simples
Son medidas anlogas a la mediana que dividen a un conjunto ordenado de datos en 4, 10 o 100 partes iguales, respectivamente. Ntese que habr 3 cuartiles, 9 deciles, 99 percentiles.

0 25%

Q1 25% P25

Q2 25% Med D5 P50

Q3 25%

P75

CUARTILES, DECILES, PERCENTILES Posicionamiento Cuantil = (n + 1) k 100

Posicionamiento Q1=P25= (n + 1) 25

100

= (n + 1) 4

Posicionamiento Q3=P75= (n + 1) 75

3 (n + 1)

100

P = Valor entero de la posicin + valor fraccin posicin (diferencia (P+1)-P)

CUARTILES, DECILES, PERCENTILES


Para datos agrupados en clases o intervalos

Cuantil =

Li +

kn/100 Fi-1
fi

k= Percentil k Li= Lmite real inferior de la clase percentil k (se saca con las frecuencias acumuladas, la que iguale o supere a k%. Fi-1= Frecuencia acumulada absoluta de la clase anterior a la clase percentil fi= Frecuencia de la clase percentil C= Amplitud

MEDIA
Para datos originales o series simples
Punto en donde se encuentra el centro de gravedad de los datos o equilibrio

Media = Xi

n
Ejemplo: La presin sistlica de 10 personas es: 120, 130, 141, 126, 134, 128, 136, 132, 140, 143 mmHg
Entonces, la presin media o promedio es:

X= 1330/10 X= 133 mmHg

MEDIA
Para datos agrupados en clases o intervalos
En este caso, se supone que los datos incluidos quedan representados por las marcas de clase. En estas condiciones, la media o promedio para la muestra queda definida:

Media = Xifi n
Xi= Marca de clase o distintos valores de la variable fi= Respectivas frecuencias

RANGO
Para datos originales o series simples
Diferencia entre el valor mximo y el valor mnimo

Para datos agrupados en clases o intervalos

Diferencia entre el lmite real superior de la clase mayor y el lmite real inferior de la clase mas baja.

VARIANZA Varianza = Xi -

( Xi) n

n-1
Xi = Sumatoria de las variables al cuadrado Xi = Sumatoria de las variables n = n de datos

VARIANZA

Varianza = (Xi X) n-1

Xi= frecuencia absoluta o marca de clase X= Media o promedio

Desviacin Estandar =

Xi -

( Xi) n

n-1

DESVIACIN ESTANDAR

Desviacin Estandar =

(Xi X)
n-1

Desviacin Estandar =

Varianza

ASIMETRA O SESGO

Sesgo = X - Mo S

X= Promedio Mo= Moda


S= Desviacin Estandar

APUNTAMIENTO O CURTOSIS

Curtosis = P75 P25 2(P90 P10)

Platicrtica: curtosis < 0 Mesocrtica: curtosis = 0 Leptocrtica: curtosis > 0

EJEMPLO

Niveles de glucosa en la sangre (mg/100 ml), extrada a 105 nios en ayunas, Clnica las Condes, Junio 2006
Frecuencia Frecuencia Acumulada Absoluta 11 11 8 19 13 32 21 53 17 70 6 76 15 91 7 98 5 103 2 105 105 -------Frecuencia relativa 10,5 7,6 12,4 20 16,2 5,7 14,3 6,7 4,8 1,9 100,1 Frecuencia acumulada 10,5 18,1 30,5 50,5 66,7 72,4 86,7 93,4 98,2 100,1 -----Marcas de clase 56 59 62 65 68 71 74 77 80 83 --------Lmites reales 54,5 - 57,5 57,5 - 60,5 60,5 - 63,5 63,5 - 66,5 66,5 - 69,5 69,5 - 72,5 72,5 - 75,5 75,5 - 78,5 78,5 - 81,5 81,5 - 84,5 ----------

Clases 55 - 57 58 - 60 61 - 63 64 - 66 67 - 69 70 - 72 73 - 75 76 - 78 79 - 81 82 - 84 Total

Calcular e interpretar:

Moda= Li +

d1
d1+d2

Mo = 63 + 64 + 2

8+4

Mo = 63,5 + 2 = 65,5 El nivel de glucosa que mas se repite en 105 nios de la clnica las Condes Es de 65,5 mg/100ml

Mediana= Li + n/2 Fi-1 fi

Med= 63,5 + 52,5 - 32


21

Med = 66,42 mg/ 100 ml

El 50% de los pacientes est bajo el valor glicemia de 66,42 mg/100ml Y el otro 50% est sobre ese valor

Cuantil =

Li +

kn/100 Fi-1

fi

P25 = 60,5 + (25x105)/100) - 19 13

P25 = 62,1730 mg/100ml

El 25% de los pacientes tiene una glicemia bajo 62,17 mg/100ml y el 75% est sobre este valor

Niveles de glucosa en la sangre (mg/100 ml), extrada a 105 nios en ayunas, Clnica las Condes, Junio 2006
Clases 55 - 57 58 - 60 61 - 63 64 - 66 67 - 69 70 - 72 73 - 75 76 - 78 79 - 81 82 - 84 Total Frecuencia Frecuencia Frecuencia Marcas de Frecuencia Acumulada relativa acumulada clase Absoluta 11 11 10,5 10,5 56 8 19 7,6 18,1 59 13 32 12,4 30,5 62 21 53 20 50,5 65 17 70 16,2 66,7 68 6 76 5,7 72,4 71 15 91 14,3 86,7 74 7 98 6,7 93,4 77 5 103 4,8 98,2 80 2 105 1,9 100,1 83 105 -------100,1 -------------Lmites reales 54,5 - 57,5 57,5 - 60,5 60,5 - 63,5 63,5 - 66,5 66,5 - 69,5 69,5 - 72,5 72,5 - 75,5 75,5 - 78,5 78,5 - 81,5 81,5 - 84,5 ---------Frecuencia x MC (Xifi) 616 472 806 1365 1156 426 1110 539 400 166 7056

Media = Xifi n

X = 7056/105 = 67,2

Si todos tuvieran la misma glicemia esta sera 67,2 mg/100ml

El promedio de la glicemia de los 105 nios en ayunas extrada en la Clnica las Condes en junio de 2006 es de 67,2 mg/100ml

EJEMPLOS

1. Los siguientes datos corresponden a los niveles de hemoglobina (g/100 ml) de 16 nios que reciben tratamiento para anemia hemoltica en la Clnica PWX:
9.1, 10.0, 11.4, 12.6, 9.8, 8.3, 9.9, 9.6, 7.5, 6.7, 6.5, 12.6, 10.4, 8.7, 11.8, 7.9 6.5, 6.7, 7.5, 7.9, 8.3, 8.7, 9.1, 9.6, 9.8, 9.9, 10.0, 10.4, 11.4, 11.8, 12.6, 12.6 Mo= 12.6 Med= 9.7 X= 9.55

Rango = Valor mximo valor mnimo

Rango = 12.6 6.5


Rango = 6.1

La dispersin o variabilidad total de los niveles de hemoglobina de los 16 nios que reciben tratamiento para anemia hemoltica en la Clnica PWX es de 6.1 g/100ml. Es decir, la diferencia entre el nivel de hemoglobina mayor y el menor es de 6.1, y no hay diferencia ms grande que esa en esta distribucin.

Varianza = Xi -

( Xi) n

n-1 Varianza = (Xi X)

n-1
Xi = Sumatoria de las variables al cuadrado Xi = Sumatoria de las variables o marcas de clase X = Promedio n = n de datos

Xi 6.5 6.7 7.5 7.9 8.3 8.7 9.1 9.6 9.8 9.9 10.0 10.4 11.4 11.8 12.6 12.6 152.8

Xi - X -3.05 -2.85 -2.05 -1.65 -1.25 -0.85 -0.45 0.05 0.25 0.35 0.45 0.85 1.85 2.25 3.05 3.05 0

(Xi - X) 9.3025 8.1225 4.2025 2.7225 1.5625 0.7225 0.2025 0.0025 0.0625 0.1225 0.2025 0.7225 3.4225 5.0625 9.3025 9.3025 55.04

Xi 42.25 44.89 56.25 62.41 68.89 75.69 82.81 92.16 96.04 98.01 100.0 108.16 129.96 139.24 158.76 158.76 1514.28

Varianza = Xi -

( Xi) n

n-1
(152.8) 16

S = 1514.28 -

S = 1514.28 1459.24 15

S = 3.67

16 - 1

Varianza = (Xi X) n-1


S = 55.04 15 =

S = 3.67

3.67 (g/100ml) representa la dispersin o variabilidad cuadrtica promedio del nivel de hemoglobina de los 16 nios que reciben tratamiento para anemia hemoltica en la Clnica PWX.

Desviacin Estandar =

Xi -

( Xi) n

n-1 Desviacin Estandar = (Xi X) n-1

Desviacin Estandar =

Varianza

S = 3.67 S= 3.67

S = 1.92
1.92 g/100ml representa la dispersin o variabilidad promedio del nivel de hemoglobina de los 16 nios que reciben tratamiento para anemia hemoltica en la Clnica PWX. Este valor indica que, en promedio, los niveles de hemoglobina de los 16 nios en estudio difieren de la media (9.55 g/100ml) en 1.92g/100ml.

ASIMETRA O SESGO

Sesgo = X - Mo S

X= Promedio Mo= Moda S= Desviacin Estandar

Sesgo = X - Mo S Sesgo = 9.55 12.6 Sesgo = - 1.59

1.92

En la distribucin de los niveles de hemoglobina de los 16 nios que reciben tratamiento para anemia hemoltica en la Clnica PWX, se presenta una asimetra o sesgo negativo. Esto indica que hay una concentracin de los niveles de hemoglobina en los valores mayores, existiendo menor cantidad de nios con valores menores de hemoglobina, provocando asimetra.

Curtosis = P75 P25


2(P90 P10) 6.5, 6.7, 7.5, 7.9, 8.3, 8.7, 9.1, 9.6, 9.8, 9.9, 10.0, 10.4, 11.4, 11.8, 12.6, 12.6

Posicionamiento P75 = (n + 1) k 100 Posicionamiento P75 = 12.75 P75= Valor entero de la posicin + valor fraccin posicin (diferencia (P+1)-P)
P75= 11.15

P75= 11.15 P25= 8.00 P90= 12.6 P10= 6.64 K = 11.15 8.00

Curtosis = P75 P25 2(P90 P10)

2(12.6 6.64)
400

K = 0.264
La distribucin de los niveles de hemoglobina de los 16 nios que reciben tratamiento para anemia hemoltica en la Clnica PWX, presenta un grado de apuntamiento o curtosis mayor que en la distribucin normal, es decir, es una distribucin leptocurtica

300

200

Frecuencia

100

0 3 16 27 32 37 42 47 52 57 62 67 72 77 82 87 92 97 108 102 138

Leptocrtica

Los siguientes datos corresponden a los niveles de hemoglobina (g/100 ml) de 16 nios que reciben tratamiento para anemia hemoltica en la Clnica PWX: 9.1, 10.0, 11.4, 12.6, 9.8, 8.3, 9.9, 9.6, 7.5, 6.7, 6.5, 12.6, 10.4, 8.7, 11.8, 7.9

Mo= 12.6

Med= 9.7

X= 9.55

Rango = 6.1 S = 3.67 S = 1.92


Sesgo = - 1.59

K = 0.264

Consultas.....