Está en la página 1de 170

ESTADSTICA

Anlisis estadstico segn tipo de


estudio en la investigacin

Mg. Rosa Padilla Castro


Fac. de Ingeniera y Arquitectura
Dir. CIEST

Mg. Rosa Padilla Castro

Mg. Rosa Padilla Castro

Mg. Rosa Padilla Castro

INVESTIGACIN CIENTFICA

HIPTESIS

MTODO

Descripcin
de la
realidad
Antecedentes tericos
Definicin
del problema
Objetivos
Justificacin
Factivilidad/
viabilidad

Preposiciones
Implicancias
Variables
Operacionalizacin
de las
variables

Diseo
Universo
muestra
Plan de
recoleccin
de datos
Plan de
procesamiento de
datos

RECOLECCI
N DE
DATOS

Tcnicas
Observacin
Pruebas
Experimentos
Instrumentos
Datos

PROCESA
MIENTOANLISIS
Crtica
Tabulacin
Grfica
Estadgrafos
Pruebas
de
hiptesis
Discusin
de
resultados

MARCO TERICO

Cosmovisin

Antecedentes

Visin
Histrica

Bases
Marco
Tericas Conceptual

REALIDAD

PROBLEMA

Conclusiones y Recomendaciones

REALIDAD

Sistemtica controlada emprica - crtica

METODOLOGIA DE INVESTIGACION

Diseo Metodolgico

Diseo de investigacin
Tipo de Estudio
Poblacin y Muestra
Mtodos e instrumentos
de recoleccin de datos

Plan de Tabulacin
y Anlisis

Procedimientos
6

TIPOS DE
INVESTIGACIN
CUANTITATIVA

EXPLORATORIA

DESCRIPTIVA

EXPLICATIVAS

CORRELACIONAL

Alcance de la
investigacin a realizar

I
N
V
E
S
T
I
G
A
C
I

Exploratorio

Familiarizarse
con el
fenmeno
Lograr
inmersin
inicial
Ubicacin de
variables

Descriptivo

Alcances

Tener medicin
precisa o
descripcin
profunda

Explicacin
parcial
Correlacional
Relacionar
variables
Mayor
estructuracin
Explicativo

Fuente: Hernndez, Fernndez y Baptista


Mg. Rosa Padilla Castro

Entender el
fenmeno

Mg. Rosa Padilla Castro

Estadstica
Descriptiva

ESTADSTICA
Estadstica
Inferencial

Mg. Rosa Padilla Castro

Describe y analiza una


poblacin, sin pretender
sacar conclusiones de
tipo general.
Es el conjunto de mtodos,
cuyo propsito es inferir o
inducir leyes de
comportamiento de una
poblacin, a partir del
estudio de una muestra,
las cuales nos ayudaran en
la toma de decisiones bajo
un cierto grado de
confianza; este grado de
confianza se mide por la
probabilidad.

Mg. Rosa Padilla Castro

Ejemplo de cmo se interpreta una tabla


Tabla 1: Evolucin de la equidad segn desnutricin crnica y vacunacin, 1992 2000
Desnutricin crnica
Vacunacin
1992
2000
1992
2000
Promedio
36,8
27,3
54,6
40,4
Grupo ms pobre
63,2
51,5
41,9
25,3
2ndo
50,6
40,4
49,4
34,7
Medio
37,5
26,8
53,4
40,2
Medio alto
24,7
12,6
60,3
47,8
Grupo ms rico
7,8
5,3
68,2
53,8
Ratio pobre/rico
8,1
9,8
0,6
0,5
FUENTE: INEI Encuesta Demogrfica y de Salud Familiar, 1992-2000

La tabla 1 muestra que, a pesar de que los niveles de desnutricin crnica mejoraron,
tanto en el nivel promedio como por grupo de ingresos, entre 1992 y 2000, las
desigualdades entre el grupo ms pobre y el ms rico se acentuaron (el ratio pobre-rico
pas de 8,1 a 9,8). Esto implicara que los programas de salud pblica estn
favoreciendo en mayor medida a las poblaciones con ms recursos y, en
consecuencia, aumentando la brecha entre estos grupos y los ms pobres. Por el lado
del acceso a los servicios pblicos, la situacin es aun ms grave, como lo revela la
cada del porcentaje de nios que ha recibido vacunacin completa en todos los
grupos de ingreso, siendo esta ms pronunciada en la poblacin ms pobre, lo que
nuevamente ha significado una mayor distancia social.
Mg. Rosa Padilla Castro

La presentacin de los datos se realiza


fundamentalmente utilizando dos mtodos: el
mtodo tabular y el mtodo grfico.

Mtodo tabular
Consiste en una presentacin resumida de la
informacin usando tablas. Si se utilizan
tablas debe prestarse atencin a los tres
elementos que la constituyen: el ttulo, la tabla
propiamente dicha y las notas aclaratorias.
Mg. Rosa Padilla Castro

El ttulo.- Es un enunciado breve e informativo


acerca del contenido de la tabla, un buen ttulo
debe contestar a las siguientes preguntas:
Qu contiene la tabla?
Cmo se presenta este contenido?
De dnde se presenta (lugar)?
Cundo se obtuvo la informacin (fecha)?

Ejemplo: Treinta pacientes con cncer pulmonar


provenientes de cuatro distritos fueron atendidos
en el Hospital de Talara en el 2008.
Mg. Rosa Padilla Castro

Tabla 2. Pacientes con cncer pulmonar segn distrito


de procedencia. Hospital de Talara-Piura. 2008

Distrito

Nmero

Talara

11

36,7

El Alto

20,0

Los rganos

23,3

Lobitos

20,0

Total

30

100,0

Fuente: Archivo del Departamento de Estadstica del Hospital de


Talara - Piura 2008
Mg. Rosa Padilla Castro

Tabla 3. Pacientes con cncer pulmonar segn distrito


de procedencia y sexo. Hospital de Talara-Piura. 2008
Distrito
Sexo

TOTAL
Los
Talara El Alto
Lobitos
rganos

Femenino

10

Masculino

20

TOTAL

11

30

Fuente: Archivo del Departamento de Estadstica del Hospital de


Talara - Piura 2008
Mg. Rosa Padilla Castro

Las notas aclaratorias son toda informacin


adicional que facilita la interpretacin de la tabla
y para enterarse de donde se obtuvo la
informacin presentada, es decir la fuente. En las
Tablas 1, 2 y 3 la nota aclaratoria es la fuente.
Un aspecto importante de una tabla de doble
entrada (tabla de contingencia) es el clculo de
los porcentajes, estos deben calcularse tomando
como 100% el total de cada categora o intervalo
de la variable independiente.

Mg. Rosa Padilla Castro

Tabla 4. Amas de casa segn costumbre de cocinar con


lea y presencia de EPOC *. Hospital Hiplito Unanue.
Lima.2008
Cocina con lea
EPOC*

Siempre

A veces

Si

50

67,0

20

24,0

10

No

25

33,0

65

76,0

130 93,0

Total

75

100,0 85

Total

Nunca

%
7,0

80

27,0

220 73,0

100,0 140 100,0 300 100,0

* Enfermedad pulmonar obstructiva crnica


Fuente: Servicio de neumologa del Hospital Hiplito Unanue.
Mg. Rosa Padilla Castro

Tablas simples en SPSS


En SPSS:
Analizar/Tablas/Tablas personalizadas/ Aceptar/Seleccionar la
variable que se desea estudiar/ pasarla Aceptar
Construir una tabla de frecuencia de la variable sexo
Tabla 5: Pacientes que acuden al hospital de
Tarapoto segn sexo, 2006
Frecuencia

Sexo del
entrevistado

Femenino
Masculino
Total

134

52.5%

121

47.5%

255

100.0%

Fuente: Encuesta a pacientes


Para desarrollar los temas siguientes abrir la data proporcionada en clase: Hospital
Tarapoto.sav
Mg. Rosa Padilla Castro

Tablas agrupadas para variables cuantitativas


En la siguiente tabla se presentar la edad de los pacientes, siendo esta
una variable cuantitativa se formaran intervalos de clase
Regla general para la construccin de intervalos.
Determinacin del rango (R): R = Xmx - Xmn
Determinacin del nmero de intervalos de clase (I): I = 1+3.32*log(n)
Amplitud del intervalo (A): A=R/I
Determinacin de los lmites de clase: LCI LCS
Sin embargo, para formar los intervalos de clase, generalmente el
investigador usa su criterio y/o generalmente la variable ya tiene intervalos
definidos.

Mg. Rosa Padilla Castro

Agrupar variable en SPSS:


Transformar/recodificar/en distintas variables/ seleccionar la

variable y pasarla a Var. Numrica Var. de resultado haciendo


clik en /poner nombre en Variable de resultado/hacer clik en
cambiar/valores antiguos y nuevos/clik en rango (poner los
intervalos de clase)/valor nuevo (1)(el nmero de
intervalo)/aadir/continuar/aceptar
Ejercicio: Agrupar la variable edad en los siguientes intervalos: (menor de

18=menor de edad, de 18 60=adulto, mayor de 60=adulto mayor)

Tablas agrupadas
Tabla 6. Pacientes que acuden al hospital de Tarapoto segn
grupos de edad, 2006
Grupos de edad

Intervalos

Menor de edad
Adulto

Menor de 18
18 - 60

Adulto mayor

Mayor 60

Frecuencia

Total

Porcentaje

Porcentaje
acumulado

26

10.20

10.20

180

70.59

80.78

49
255

19.22
100

100.00

Fuente: Encuesta a pacientes

Prctica:
Recodificar la variable edad en 4 intervalos: Menor de edad, jvenes,
adultos y adulto mayor
Mg. Rosa Padilla Castro

Tablas de contingencia
En SPSS: Analizar/Estadsticos descriptivos/Tablas de contingencia/Seleccionar
la variable y pasarla a fila, otra a columna haciendo clik en /Casillas: se puede
seleccionar reportes de porcentajes/Continuar/ Aceptar
Tabla 7. Opinin del paciente que acude al hospital de Tarapoto segn sexo
Recomendara
Sexo del entrevistado
el Hospital de
Tarapoto?
Femenino
Masculino
si
Frecuencia
84
81
% de Sexo
62.7
66.9
no
Frecuencia
50
40
% de Sexo
37.3
33.1
Total
Frecuencia
134
121
% de Sexo
100
100

Total
165
64.7
90
35.3
255
100

Ejercicio: Construir una tabla de contingencia con las variables


recomendara al hospital de Tarapoto y grupos de edad
Es el anlisis de variables categricas, donde las filas y las columnas de una tabla
estn formadas por las categoras de dos variables.
Se construyen tales tablas porque ellas muestran el comportamiento de las respuestas
a preguntas con datos nominales u ordinales. Igualmente se estudia la relaciones
entre dos o tres variables categricas.

Tablas apiladas
En SPSS: Analizar/Tablas/Tablas personalizadas/Aceptar/Seleccionar
las variables y pasarlas /Aceptar
Ejercicio: Construir una tabla apilada con las variables acudira
nuevamente al hospital de Tarapoto y sexo
Tabla 8. Frecuencia de asistencia al hospital de Tarapoto
segn sexo de los entrevistados, 2006

Sexo del
Acudira nuevamente al Frecuencias
entrevistado Hospital de Tarapoto?
Si
65
Femenino
No
69
Si
48
Masculino
No
73
Total
Fuente: elaboracin propia
Mg. Rosa Padilla Castro

255

Total
25.5
27.1
18.8
28.6
100%

Un grfico estadstico es la presentacin de la informacin por medio de


figuras geomtricas. El objetivo primordial de un grfico es dar una
impresin visual de conjunto para una rpida y fcil comprensin. Es
importante considerar el titulo de la figura, especificar las escalas, la leyenda
y determinar la figura adecuada a la informacin.

Tipos de grficos
Para variables categricas: (sexo, estadio TNM, profesin, etc.) se quiere
conocer la frecuencia y el porcentaje del total de casos que caen en cada
categora.
Grfico de barras:
Simples
Una variable, tambin cuando la variable es
cuantitativa pero discreta
Agrupadas
Dos variables
Apiladas
Dos variables
Grfico de sectores circulares
Una variable
Para variables cuantitativas:
Histogramas
Lneas
Tallo y hojas
Cajas (combinacin de cuantitativa y cualitativa)
Mg. Rosa Padilla Castro

En SPSS: Grficos/Generador de grficos/Aceptar/seleccionar el


tipo de grfico/pasar la variable al eje correspondiente/aceptar

Mg. Rosa Padilla Castro

Grficos para variables categricas


Barras: Para representar variables cualitativas. Representa hechos o

fenmenos sin continuidad. Las categoras pueden representar distintos


aspectos, no ordenados de una caracterstica.
Figura 1. Opinin de los pacientes que acuden al hospital Tarapoto, 2006

Barras agrupadas
Cuando se ha clasificado la informacin segn dos variables.
Figura 2. Opinin de los pacientes acerca de la calidad de los alimentos
segn sexo, Hospital Tarapoto, 2006

Barras apiladas
En SPSS. Grficos/cuadro de dilogos antiguos/barras/apiladas/
definir/continuar los pasos segn observa la figura

Mg. Rosa Padilla Castro

Barras apiladas
Figura 3. Opinin de los pacientes acerca de la calidad de los alimentos
segn sexo, Hospital Tarapoto, 2006

Mg. Rosa Padilla Castro

Grfico de sectores o circulares


Para representar una variable cualitativa cuyo principal inters
es conocer su frecuencia relativa.
Figura 4. Percepcin del paciente segn trato
que recibi de la enfermera, Hospital Tarapoto,
2006

En SPSS. Grficos/cuadro de
dilogos antiguos/ sectores/
resmenes para grupos de
casos/ definir sectores por/
pasar la variable de inters/
resaltar % de casos/aceptar

Grficos para variables cuantitativas:


Histograma
Grfico utilizado para representar las frecuencias absolutas o relativas
mediante rectngulos, adyacentes teniendo como base los respectivos lmites
reales de los intervalos de clase y la altura igual a la frecuencia respectiva.
Figura 5. Pacientes que acuden al
hospital de Tarapoto segn edad, 2006

En SPSS.
Grficos/cuadro de dilogos
/histograma/pasar la variable
de
inters/mostrar
curva
normal/aceptar

Histograma
En SPSS.
Grficos/cuadro de dilogos/pasar la variable de inters a: variable / a panel
por filas (pasar la variable sexo)/aceptar
Figura 6. Edad de los pacientes que acuden al hospital de
Tarapoto segn sexo, 2006

Polgono de frecuencias o Lneas


Cuando se tiene una variable cuantitativa continua y en
especial que se mida a travs del tiempo
Figura 7. N de veces que los pacientes
recibieron un servicio, Hospital Tarapoto, 2006

En SPSS.
Grficos/cuadro de dilogos
/lneas/pasar la variable de
inters
a
eje
de
categoras/resaltar porcentaje
de casos/aceptar

Diagrama de caja
Esta herramienta permite estudiar la simetra de los datos y detectar
valores atpicos (outliers). Este grfico divide los datos en cuatro reas de
igual frecuencia. La caja central (donde se encuentra el 50% central de los
datos) tiene una lnea vertical (u horizontal) en el interior de la caja que
indica la mediana (si esta lnea est en el centro en el centro de la caja hay
simetra). Partiendo del centro de cada lado vertical (u horizontal) de la caja
se dibujan los bigotes. El bigote de la izquierda (o inferior) tiene su extremo
en el valor ms cerca de Q1 1,5*RIC, mientras que el bigote de la derecha
(o superior) tiene su extremo en el valor ms cerca de Q3 + 1,5*RIC. Se
consideran atpicos (outliers) los valores mayores a Q3 + 1,5*RIC y
menores a Q1 1,5*RIC y se consideran atpicos extremos los mayores a
Q3 + 3*RIC o menores a Q1 3*RIC (en SPSS se representan por o y x,
respectivamente)
Recordar que.
Q1= cuartil uno o percentil 25.
Q3 = cuartil tres o percentil 75.
RIC = rango intercuartlico = Q3 - Q1.

Diagrama de caja

Max

Min

Q1

mediana
Escala

Q3

Diagrama de caja
Se usa para comparar muestras, mediante los cuantiles.
Figura 8. N de veces que los pacientes recibieron
un servicio segn sexo, Hospital Tarapoto, 2006

En SPSS. Grficos/cuadro de
dilogos antiguos/diagramas de
caja/Simple/resaltar
Resmenes para grupos de
casos/ pasar la variable de
inters a eje de categoras
pasar la variable sexo/aceptar

Grfico de Tallo y Hojas


Se usa para observar la variable en su forma original, muestra los valores
extremos y atpicos.
Figura 9. N de veces que los pacientes recibieron un servicio. Hospital
Tarapoto, 2006
N de veces que asisti a recibir un servicioStem-and-Leaf Plot
Frequency Stem & Leaf
25.00

1 . 000000000000

43.00

2 . 000000000000000000000

51.00

3 . 0000000000000000000000000

39.00

4 . 0000000000000000000

29.00

5 . 00000000000000

12.00

6 . 000000

16.00

7 . 00000000

20.00

8 . 0000000000

4.00

9 . 00

4.00

10 . 00

8.00

11 . 0000

4.00

12 . 00

Stem width:
Each leaf:

1
2 case(s)
Mg. Rosa Padilla Castro

Barras de error
Se usa para comparar intervalos de confianza entre muestras.
En SPSS: Grficos/cuadro de dilogo antiguo /barras de error/simple/definir/pasar
la variable de inters/al eje de categoras pasar la variable a contrastar/aceptar

Mg. Rosa Padilla Castro

Barras de error
Las barras de error, nos permiten identificar la variabilidad de la medida empleada
como funcin de resumen en el grfico (ya sea la media, desviacin estndar,
etc). La estructura del grfico se basa en un punto central que identifica el valor de
la media, la cual se ubica en una lnea vertical; la longitud de la lnea (barra de
error) indica un intervalo de confianza (porcentaje de los datos) o un nmero
especificado de errores.
Figura 10. Pacientes que acuden al hospital de Tarapoto segn edad y sexo, 2006

Mg. Rosa Padilla Castro

Barras de error
Figura 11. Pacientes que acuden al hospital de Tarapoto segn edad y opinin
acerca de la calidad de los alimentos, 2006

Mg. Rosa Padilla Castro

Barras de error
Figura 12. Salario actual segn sexo y clasificacin de minoras de un grupo
de empleados del banco x

Mg. Rosa Padilla

Parmetro: Es una cantidad numrica calculada sobre una


poblacin
El colesterol promedio en varones menores de 30 aos

de los individuos de un pas


La idea es resumir toda la informacin que hay en la
poblacin en unos pocos nmeros (parmetros).

Estadstico: Es una cantidad numrica calculada sobre una


muestra
El colesterol promedio en varones menores de 30 aos
de los que estamos en este aula.
Somos una muestra (representativa?) de la

poblacin.
Si un estadstico se usa para aproximar un parmetro
tambin se le suele llamar estimador.
Normalmente nos interesa conocer un parmetro, pero por la
dificultad que conlleva estudiar a *TODA* la poblacin,
calculamos un estimador sobre una muestra y confiamos
en que sean prximos. Ms adelante veremos como elegir
muestras para que el error Mg.
sea
confiablemente pequeo.
Rosa Padilla Castro

Nominal

Ordinal

Escala

Definicin

Categoras no
ordenadas

Categoras
ordenadas

Mtrica-valores numricos

Ejemplos

Gnero, estado
civil,
procedencia

Nivel de
satisfaccin, rango
de edades

Edad, peso, talla, ingreso

Medida de
tendencia central

Moda

Moda y mediana

Moda, mediana, media aritmtica

Medida de
dispersin

Min/max/Rango/RIC Min/max/Rango/RIC/desviacin

Grficos

Sectores/Barras Barras/sectores

Histograma/lneas/cajas/Tallo y
hojas/diagrama de dispersin

Procedimientos

Frecuencias/%

Frecuencias/descriptivos

Frecuencias/%

Mg. Rosa Padilla Castro

Medidas de resumen en SPSS

Mg. Rosa Padilla Castro

Centralizacin
Indican valores centrales en que los datos parecen
agruparse.
Media, mediana y moda

Dispersin
Indican la mayor o menor concentracin de los
datos con respecto a las medidas de centralizacin.
Desviacin tpica, coeficiente de variacin, rango,
varianza, rango intercuartil

Posicin (cuantiles)
Dividen un conjunto ordenado de datos en grupos
con la misma cantidad de individuos.
Percentiles, deciles, cuartiles, ...

Forma
Asimetra
Apuntamiento o curtosis
Mg. Rosa Padilla Castro

Medidas de resumen en SPSS

Medidas de resumen en SPSS


Estadsticos
edad
N

Vlidos

255

Perdidos
Media
Mediana
Moda
Desv. tp.
Varianza
Asimetra
Error tp. de asimetra
Curtosis
Error tp. de curtosis
Mnimo
Mximo
Percentiles

25
35
50
75

0
44.83
46.00
40.00
18.34
336.5
-0.06
0.15
-0.30
0.30
86.00
3.00
33.00
39
46
57

En SPSS: Analizar/Estadsticos
descriptivos/frecuencias/Seleccionar la variables y pasarla a
variables haciendo clik en
/Estadsticos: seleccionar
todas las medidas de resumen
que se desee/Continuar/
Aceptar.

Ejercicio: Hallar las medidas de


resumen para la variable edad.

Medidas de tendencia central


Media: Muestra el centro de gravedad de los datos.

Se usa cuando la poblacin es homognea


Datos simples
x
x
n
Mediana: Divide a los datos en dos partes iguales.

Se usa cuando la poblacin es heterognea.


Datos simples: Se ordena los datos y se toma el
valor central si la serie es impar, o la semisuma de
los dos datos centrales si la serie es impar.
Moda: Muestra el valor ms frecuente de los datos
Mg. Rosa Padilla Castro

Medidas de tendencia central

Altura mediana

Mg. Rosa Padilla Castro

Medidas de posicin: Cuantiles


Se define el cuantil de orden como un valor de la variable por debajo del cual
se encuentra una frecuencia acumulada
Casos particulares son los percentiles, cuartiles, deciles, ...

Cuartiles: Divide a los datos en 4 partes iguales


Deciles: Divide a los datos en diez partes iguales
Percentiles: Divide a la informacin en 100 partes

iguales

Mg. Rosa Padilla Castro

Medidas de posicin: Cuantiles

Ejemplos (si estuviramos analizando la variable peso en recin nacidos y la variable


colesterol en adultos)

El 5% de los recin nacidos tiene un peso demasiado bajo.

Qu peso se considera demasiado bajo?


Percentil 5

Qu peso es superado slo por el 25% de los individuos?


Percentil 75
El colesterol se distribuye simtricamente en la poblacin. Se

considera patolgico los valores extremos. El 90% de los


individuos son normales Entre qu valores se encuentran los
individuos normales?
Entre el percentil 5 y el 95

Entre qu valores se encuentran la mitad de los individuos

ms normales de una poblacin?


Entre el cuartil Mg.
1Rosa
y 3
Padilla Castro

Qu edad no llega a alcanzar el 25% de los


individuos?

Qu edad es superado por el 25% de los


individuos?

Primer cuartil = percentil 25 = 33 aos.

Tercer cuartil= percentil 75= 57 aos.

Entre qu valores se encuentra el 50% de


los individuos con una edad ms normal?

Entre el primer y tercer cuartil = entre 33 y 57


aos
Observar que indica cmo de dispersos estn
los individuos que ocupan la parte central de la
muestra. Ver ms adelante rango intercuartlico.
Los diagramas de caja (boxplot) sintetizan esta
informacin (y algo ms).

Estadsticos
edad
Percentiles 25
50
75

33.00
46.00
57.00
Mg. Rosa Padilla Castro

Medidas de dispersin
Miden el grado de dispersin (variabilidad) de los

datos, independientemente de su causa.

Varianza:

Es una medida terica, muestra la variabilidad al


cuadrado.
2
2
x
n
(
x
)
2
s
En una muestra:
n 1
Datos simples
s2

x2 f
f

Datos agrupados
En la poblacin:

n( x ) 2

x2

N ( )2
N

Mg. Rosa Padilla Castro

Medidas de dispersin
Desviacin tpica:
2
Muestra la dispersin de los datos respecto a la media.
A una distancia de una desviacin tpica de la media tendremos
68% observaciones.
A una distancia de dos desviacin tpica de la media tendremos 95%
observaciones.

Coeficiente de variacin: Es la dispersin relativa de datos. Permite

comparar variabilidad entre muestras en donde las unidades son


diferentes.
s

cv%

.100

Rango intercuartlico:

Es la distancia entre el primer y tercer cuartil.


RI= P75 - P25
Parecida al rango, pero eliminando las observaciones ms extremas
inferiores y superiores.Mg.No
es tan sensible a valores extremos.
Rosa Padilla Castro

Centrado en la media y a una desviacin tpica de


distancia tenemos ms de la mitad de las
observaciones (izquierda)

A dos desviaciones tpicas las tenemos a casi todas


(derecha.)

Mg. Rosa Padilla Castro

Medidas de forma
Asimetra: Permite identificar hacia donde se acumula la

informacin.
S:
As 0 La distribucin es simtrica
As > 0 La distribucin es positiva (Sesgo positivo)
As < 0 La distribucin es negativa (Sesgo
negativo)
Es una cantidad adimensional. Interesante para comparar la

variabilidad de diferentes variables.


Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
presentan ms dispersin en peso que en altura

Mg. Rosa Padilla Castro

Una distribucin es simtrica


si la mitad izquierda de su
distribucin es la imagen
especular de su mitad
derecha.

En las distribuciones
simtricas media y mediana
coinciden. Si slo hay una
moda tambin coincide

La asimetra es positiva o
negativa en funcin de a qu
lado se encuentra la cola de
la distribucin.

La media tiende a
desplazarse hacia las valores
extremos (colas).

Las discrepancias entre las


medidas de centralizacin son
indicacin de asimetra.
Mg. Rosa Padilla Castro

Medidas de forma

300

200

grado de apuntamiento (aplastamiento) que tiene la


distribucin con respecto a la distribucin normal o
gaussiana.

100

Frecuencia

Apuntamiento (Coeficiente de Kurtosis): Indica el

0
27

37
32

45
41

53
49

61
57

69
65

77
73

85

93

81

89

99

Mesocrtica

160

120

100

Frecuencia

80

60

40
45 48 51 54 57 60 63 66 69 72 75 78 81 84

Platicrtica

400

300

200

Frecuencia

Si k 0,263, diremos que la curva


correspondiente a la distribucin de
frecuencias es mesocrtica (tiene igual
apuntamiento que la normal o
campana de Gauss)
si k < 0,263, diremos que la curva
correspondiente a la distribucin de
frecuencias es platicrtica
si k > 0,263, diremos que la curva
correspondiente a la distribucin de
frecuencias es leptocrtica

140

100

0
3

27
16

Mg. Rosa Padilla Castro

37
32

47
42

Leptocrtica

57
52

67
62

77
72

87
82

97
92

108

102

138

Medidas de resumen para variables


cualitativas
Las
medidas
de
resumen
numrico
empleadas para variables cualitativas son:
Proporcin (prevalencia)
Razn (muertes fetales/nacidos vivos)
Tasa (incidencia)

Mg. Rosa Padilla Castro

Proporcin
Es el cociente entre el nmero de elementos
de un subconjunto y el nmero de elementos
del conjunto al que pertenece dicho
subconjunto. En este caso el numerador est
incluido en el denominador, por este motivo
los valores siempre van a ser menores que la
unidad.
Por ejemplo, si en la poblacin hubo 175
casos de cncer pulmonar de un total de
1925 casos de todos los tipos de cncer, la
proporcin se calcular.
175 / 1925 = 0.09
Mg. Rosa Padilla Castro

Razn
Es el cociente entre dos cifras de diferentes o
similar naturaleza en donde el numerador y el
denominador son excluyentes.
Por ejemplo, si tenemos 380 camas
hospitalarias y 95 enfermeras y queremos
encontrar la razn entre ellas, tenemos que
dividir:
380 camas hospitalarias / 95 enfermeras = 4
camas/enfermera
Este nmero constituye un valor que refleja una
relacin. Indica que por cada enfermera hay
cuatro camas hospitalarias.
Mg. Rosa Padilla Castro

Tasa
d
Posicin

Pas

Tasa de
mortalidad
(muertes/
1000
habitantes)

Sudfrica

22.7

11

Afganistn

19.56

15

Nigeria

16.41

18

Rusia

16.06

20

Ucrania

15.93

23

Costa de
Marfil

14.65

26

Bulgaria

14.3

29

Bielorrusia

13.92

39

Camern

12.41

41

Congo

12.28

DZ
N 30

VI Z

* 1000
dZ

: La tasa bruta de mortalidad en el ao Z

DZ : Nmero total de fallecimientos ocurridos en el ao Z.


N30 VI Z : Poblacin total a mitad del ao Z (30 de junio de
dicho ao).

Mg. Rosa Padilla Castro

Tasa
d

Menores

Puesto

Pas

Tasa de
mortalidad
(muertes/
1000
habitantes)

155

Per

186

Venezuela 5.1

187

Egipto

5.09

192

Mxico

4.78

199

Singapur 4.53

201

Paraguay 4.49

204

Nicaragua 4.33

205

Costa Rica 4.31

207

Ecuador

4.21

220

Emiratos
rabes
Unidos

2.13

DZ
N 30

VI Z

* 1000
dZ

>

DZ

>

N30 VI Z>

6.16

Mg. Rosa Padilla Castro

As, se puede
afirmar que en
2008, por cada
179,754
Mil fallecieron un
29,180,899 poco ms de 6
personas.
6.16

Tasa
Mayores
puesto
s

Pas

Tasa de
natalidad
(nacimientos/1
000
habitantes)

bZ
4

Afganistn

45.82

Repblica
del Congo

43

19

Nigeria

39.98

25

Madagascar

38.38

41

Camern

34.59

44

Costa de
Marfil

34.26

49

Iraq

30.77

52

Nepal

29.92

56

Guatemala

28.55

58

Paraguay

28.47

BZ

N30

VI Z

1000

: La tasa bruta de natalidad en el ao Z

BZ : Nmero total de nacimientos vivos ocurren en el ao Z.


N30 VI Z : Poblacin total a mitad del ao Z (30 de junio de dicho
ao).

Mg. Rosa Padilla Castro

Tasa
b
Puesto

Pas

Tasa de
natalidad
(nacimiento
s/1000
habitantes)

108

Per

19.77

205

Grecia

9.54

208

Taiwn

8.99

209

8.99

211

Singapur
Repblica
Checa

215

Austria

8.66

217

Italia

8.36

219

Alemania

8.18

220

Japn
Hong
Kong

7.87

221

BZ

N30

8.89

7.37

Mg. Rosa Padilla Castro

VI Z

1000

bZ

19.77

BZ

576,906

N30 VI Z

29,180,899

Este valor indica


que en 2008,
ocurrieron en el
Per 19.77
nacimientos por
cada mil habitantes.

Trabajo de aplicacin grupal


Con la base de datos Hospital Tarapoto construir e interpretar:
1. Una tabla simple
2. Una tabla agrupada con la variable frecuencia de asistencia
3. Una tabla de contingencia
4. Una tabla apilada
5. Dos grficos para variables cualitativas
6. Dos grficos para variables cuantitativas
7. Un grfico de cajas con la variable frecuencia de asistencia y
edad recodificada
8. Calcular todas las medidas de resumen para la variable
frecuencia de asistencia

68

Objetivo

Supuestos
bsicosprueba
paramtrica

Prueba
paramtrica

Normalidad
Se conoce
Se
desconoce

t de
Student

Supuestos
bsicosprueba no
paramtrica

Prueba no
paramtrica

Libre
distribucin

Kolmogorov,

Estudios de una sola


muestra
Estimacin de la
media (
)

Estimacin de la
proporcin ( )

Prueba de hiptesis
para ( )

t de
Student

Prueba de hiptesis
para ( )

Bondad de ajuste
Mg. Rosa Padilla

Objetivo

Supuestos
bsicos-prueba
paramtrica

Prueba
paramtrica

Supuesto Prueba no
s no
paramtrica
paramt
rica

Comparacin de dos muestras independientes


Diferencias de
promedios

Normalidad
Homogeneidad

Independencia (2x2)
Independencia (rxc)
Nominal por nominal

t de
Student
para
grupos
independi
entes

Libre
distribuci
n

U de MannWhitney

Nominal x intervalo
Acuerdo entre 2 jueces

Fisher,
Coeficiente Phi
2
sin corregir
Coeficiente de
contingencia
V de Cramer
Coeficiente de
incertidumbre
Gamma, d de
Somers; Tau-b de
Kendall
Eta
Kappa

Numrica y categrica

Mediana

Ordinal por ordinal

Mg. Rosa Padilla

Objetivo

Supuestos
bsicosprueba
paramtrica

Prueba
paramtrica

Supuestos
bsicosprueba no
paramtrica

Prueba no
paramtrica

Libre
distribucin

Wilcoxon
Signos

Estudios de 2 muestras relacionadas


Diferencia de
muestras relacionadas
Antes / despus

Normalidad t para
muestras
relaciona
das

Mg. Rosa Padilla

til para
McNemar
(respuestas
evaluar el
dicotmicas)
cambio en
Homogeneid
dos
ad marginal
momentos- (respuestas
multinomiales)
diseos
antes/despu
s

Objetivo

Supuestos
bsicosprueba
paramtrica

Prueba
paramtrica

Supuestos
bsicosprueba no
paramtrica

Normalidad
Homogenei
dad
ANOVA

Libre
distribucin

Prueba no
paramtrica

Estudios con ms de 2 muestras


Muestras
independientes:
Diferencia de
promedios
Numrica y ordinal
Muestras relacionadas
Variables numricas
Homogeneidad
(dicotmica)
Concordancia

ANOVA
bloques
aleatorios

Mg. Rosa Padilla

Kruskal
Wallis
Mediana
Friedman
Q de
Cochran
W de
Kendall

Objetivo

Supuestos
bsicosprueba
paramtrica

Prueba
paramtrica

Supuestos
bsicosprueba no
paramtrica

Prueba no
paramtrica

Anlisis de
los errores
Tamao de
muestra
grande

Regresin
/ r de
Pearson

Libre
distribucin
(numrica u
ordinal)

R de
Spearman

Anlisis correlacional
Entre dos variables :
Ambas numricas
Ambas ordinales
Ambas nominales

Tau-b de
Kendall
Riesgo
relativo
Odds ratio

Mg. Rosa Padilla

Objetivo

Supuestos no paramtrica

Prueba no
paramtrica

Estudios con dos muestras independientes


Diseos prospectivos o
de cohortes (hacia
adelante)

Se establecen dos grupos de sujetos


a partir de la presencia o ausencia de
una condicin que se considera
desencadenante y se hace
seguimiento hacia adelante para
determinar en que proporcin de
sujetos de cada grupo se produce un
determinado desenlace

Riesgo relativo (Rr)

Diseos retrospectivos
o de caso control (haca
atrs)

Se forman dos grupos de sujetos a


partir de alguna condicin de inters,
se va haca atrs buscando la
presencia de algn factor
desencadenante

Odds ratio

Mg. Rosa Padilla

Mtodos de anlisis
multivariante

Pruebas
multivariantes

I. Mtodo predictivo

Regresin lineal mltiple


Anlisis de covarianza
Anlisis de varianza
Regresin logstica
mltiple
Anlisis discriminante
II. Mtodos reductivos
Componentes
principales
Anlisis factorial
Correlacin cannica
Anlisis cluster
Anlisis de
correspondencia
Mg. Rosa Padilla

Probabilidades

Poblacin: N

Muestra: n

Representati
vidad (tipo
de muestreo)
Tamao de
muestra

S2

Estimacin de

Inferencia

parmetros
Pruebas de hiptesis

Mg. Rosa Padilla Castro

Inferencia
Los mtodos estadsticos inferenciales

constituyen una forma de extraer conclusiones


respecto a una poblacin, de los datos
obtenidos de una muestra.
La inferencia estadstica comprende dos tipos

principales de tcnicas: Estimacin de


parmetros y contrastacin de hiptesis.
Independientemente de la tcnica que se utilice,
la finalidad general es utilizar datos de una
muestra para extraer conclusiones respecto a
una poblacin.

Estimacin de parmetros
Las tcnicas de estimacin son utilizadas cuando el
investigador no tiene hiptesis previa respecto al valor
de una caracterstica de la poblacin y desea conocer
cul podra ser tal valor.
La estimacin puede asumir 2 formas:
Estimacin puntual
Estimacin por intervalos

Mg. Rosa Padilla Castro

Estimacin puntual
(A) Estimacin Puntual para la media poblacional.
Se halla mediante las siguientes frmulas.

x
i
= x=
n
(B) Estimacin Puntual para la varianza poblacional.
Se halla mediante las siguientes frmulas.
2

s=

x n( x)

n 1
Mg. Rosa Padilla Castro

Estimacin de parmetros
Estimacin por intervalos

La estimacin por intervalos de un parmetro nos


indica lmites dentro de los cuales el parmetro
tiene la probabilidad especificada de estar. Los
estimados por intervalos se conoce como
intervalos de confianza y los lmites inferior y
superior como los lmites de confianza.

P( - k

+ k ) = 1 -

Mg. Rosa Padilla Castro

Mg. Rosa Padilla Castro

Mg. Rosa Padilla Castro

En muchos problemas, los datos de slo una parte


de

la

poblacin

(muestra),

pueden

dar

la

informacin necesaria para tomar una decisin o


probar una hiptesis referente a la poblacin o
universo.

El objetivo del muestreo es seleccionar una muestra


que sea representativa de la poblacin. Para esto, se

debe determinar el mtodo adecuado de seleccin,


el tamao correcto de la muestra y la tcnica de
estimacin de las caractersticas de la poblacin en
base a la muestra.
Mg. Rosa Padilla Castro

DISEO MUESTRAL
Definicin de la poblacin a estudiar

Determinacin del marco muestral


Fijacin de las unidades de muestreo
Tipo de muestreo
Clculo
del
tamao
de
muestra
(confiabilidad y error de estimacin)
Determinacin de los niveles de
inferencia
Mg. Rosa Padilla Castro

Marco muestral: es el listado de


unidades del cual se seleccionar una
muestra.
Unidades del
Marco
Muestral

Unidades de la
Poblacin

CONTIENE

Por ejemplo: En una encuesta de hogares, si bien el objeto de


estudio es la poblacin, el marco muestral esta conformado por las
unidades habitacionales, las manzanas o las viviendas.
84

Por que muestrear?


La naturaleza destructiva de ciertas pruebas:
Los catadores de vino,
Quienes prueban la calidad de una semilla

La imposibilidad de revisar todos los integrantes

de la poblacin:

poblaciones de aves, peces, mosquitos, en constante


movimiento.
Incluso los humanos: migran, nacen, mueren

El costo de estudiar a todas las unidades de una

poblacin es prohibitivo
La muestra genera informacin til a bajo costo:
Tiempo consumido para entrevistar a la
totalidad de una poblacin.
Mg. Rosa Padilla Castro

85

NIVEL TECNICO

NIVEL ECONOMICO

Cul ser el tamao


adecuado de mi muestra para
que sea representativa?

Cul es la cantidad de error


que su presupuesto puede
pagar?

Tomar el 5% o 10% de los


casos.
Tomar 100, 400 o 1000
casos.
Mg. Rosa Padilla Castro

Solicitar ms
presupuesto.
Dejar de hacer otras
actividades para
realizar la encuesta.
86

Muestra al azar

Poblacin

EDAD Media = 47

EDAD Media = 48.5

DIFERENCIA =1.5
Mg. Rosa Padilla Castro

=
Error de
estimacin
87

Universo de
estudio

Tipos de Muestreo

Variables de
inters

No probabilstico

Parmetros a
investigar
Probabilstico

Margen de error
Muestreo por
conveniencia

Muestreo
a juicio de expertos

Muestreo por
cuotas

Muestreo
bola de nieve

Muestreo aleatorio
simple

Muestreo
sistemtico

Muestreo
estratificado

Muestreo
conglomerados

Muestreo
polietpico

88

Condiciones bsicas

La muestra debe ser representativa


Tipo de muestreo

La muestra debe ser adecuada


Tamao optimo

Mg. Rosa Padilla Castro

Tipos de muestreo

Para elegir una muestra de individuos o elementos de una poblacin de


estudio, tenemos dos posibilidades de llevar acabo:

Muestreos probabilsticos
Conocemos la probabilidad de que un individuo o elemento sea
elegido para la muestra.
Interesantes pues sus resultados se pueden extrapolar a la poblacin
de estudio con un mnimo sesgo de error y un grado de confianza
asumido por el investigador.

Muestreos no probabilsticos
No se conoce la probabilidad.
Son muestreos que seguramente esconden sesgos.
En principio no se pueden extrapolar los resultados a la poblacin.
A pesar de ello una buena parte de los estudios que se publican usan
esta tcnica.

En adelante vamos a tratar exclusivamente con muestreos con la menor


posibilidad de sesgo (probabilsticos)

Mg. Rosa Padilla Castro

Muestreo aleatorio simple (m.a.s.)

Se eligen individuos de la poblacin de estudio, de manera que todos tienen la


misma probabilidad de aparecer, hasta alcanzar el tamao muestral deseado.

Se puede realizar partiendo de listas de individuos de la poblacin, y eligiendo


individuos aleatoriamente con un ordenador o una tabla de nmeros aleatorios.

Normalmente tiene un costo bastante alto su aplicacin.

En general, las tcnicas de inferencia estadstica suponen que la muestra ha


sido elegida usando m.a.s., aunque en realidad se use alguna de las que
veremos a continuacin.

Mg. Rosa Padilla Castro

Muestreo sistemtico

Se tiene una lista de los individuos de la poblacin de estudio. Si queremos


una muestra de un tamao dado, elegimos individuos igualmente espaciados
de la lista, donde el primero ha sido elegido al azar.

CUIDADO: Si en la lista existen periodicidades, obtendremos una muestra

sesgada.

Un caso real: Se eligi una de cada cinco casas para un estudio de


salud pblica en una ciudad donde las casas se distribuyen en
manzanas de cinco casas. Salieron con mucha frecuencia las de las
esquinas, que reciben ms sol, estn mejor ventiladas,

Mg. Rosa Padilla Castro

Muestreo estratificado

Se aplica cuando sabemos que hay ciertos factores (variables, subpoblaciones

o estratos) que pueden influir en el estudio y queremos asegurarnos de tener


cierta cantidad mnima de individuos de cada tipo:

Hombres y mujeres,
Jvenes, adultos y ancianos

Se divide a la poblacin en estratos y luego se toma la muestra aleatoria de los


individuos de cada uno de los estratos.

Al extrapolar los resultados a la poblacin hay que tener en cuenta el tamao

relativo del estrato con respecto al total de la poblacin.

Mg. Rosa Padilla Castro

Muestreo por grupos o conglomerados


Se aplica cuando es difcil tener una lista de todos los individuos que forman
parte de la poblacin de estudio, pero sin embargo sabemos que se
encuentran agrupados naturalmente en grupos.
Se realiza eligiendo varios de esos grupos al azar, y ya elegidos algunos
podemos estudiar a todos los individuos de los grupos elegidos o bien
seguir aplicando dentro de ellos ms muestreos por grupos, por estratos,
aleatorios simples,
Ejemplo: Para conocer la opinin de los mdicos del sistema nacional
de salud, podemos elegir a varias regiones del pas, dentro de ellas
varias ciudades, y dentro de ellas varios centros de salud, y
Al igual que en el muestreo estratificado, al extrapolar los resultados a la poblacin hay que
tener en cuenta el tamao relativo de unos grupos con respecto a otros regiones con diferente
poblacin pueden tener probabilidades diferentes de ser elegidas, ciudades, hospitales
grandes frente a pequeos,

Mg. Rosa Padilla Castro

Muestreo no probabilstico

Tambin conocido como muestreo por "conveniencia", no es aleatorio,


mtodo cuyos resultados y estimaciones no son de ninguna manera
confiables, dado que la seleccin de las unidades que conforman la
muestra no se realiza en forma aleatoria, sino por conveniencia,
primando el juicio del investigador.

En trminos generales no se recomienda utilizar el muestreo no


probabilstico en las investigaciones cuantitativas, debido a que por sus
caractersticas no permite calcular el error de muestreo (diferencia que
existe entre el verdadero valor de la poblacin y el valor encontrado en la
muestra).

Mg. Rosa Padilla Castro

Tipos de muestreo no probabilstico


Muestreo a juicio o intencional.
Donde se eligen los elementos que estn ms al alcance del investigador, o
los que l a su juicio conoce que pueden aportar datos relevantes a su
investigacin.
Muestreo por voluntarios.
Donde el informante, voluntariamente suministra informacin sin ser
seleccionado.
Muestreo por cuotas.
Es un nmero de entrevistas, encuestas, condiciones o cuotas que se le
fijan al encuestador para que a su vez seleccione los elementos en la forma
que considere oportuno, un ejemplo de esto son las encuestas de opinin
pblica, en las que los encuestadores proceden a buscar las personas
hasta cubrir la cuota previamente fijada, sin preocuparse por reas
geogrficas, zonas u otros criterios.
Muestreo bola de nieve
Mg. Rosa Padilla Castro

TAMAO DE MUESTRA: variables cualitativas

Proporcin
Si la poblacin es infinita
2

. p.q

E2

Si la poblacin es finita

N
n

N 1E

2
2
2

. p.q
2

. p.q

si

n0
N

Mg. Rosa Padilla Castro

0,10

nc

n
n
1
N

TAMAO DE MUESTRA: variables cuantitativas

Promedio
2

Nz
2
2
e ( N 1) z
Ajuste de tamao de muestra:
Si

n
N

-Zc

+Zc

2
2

0.10

n0
1

n
N
98

Mg. Rosa Padilla Castro

Ejemplo de aplicacin
Evaluacin del Impacto en Programa
Amigo del Cepillo de Dientes en los
conocimientos, Actitudes y Practicas en
Alumnos del 4to y 5to de secundaria del
CNMx 1230 de Via Alta La Molina

Mg. Rosa Padilla Castro

Poblacin y Muestra
Poblacin. La constituyen 400 alumnos del nivel secundario del CNMx
1230 de Via Alta que se matricularon el ao 2007.

Muestra. La muestra est constituida por 110 alumnos de 4to y 5to de


secundaria del CNMx 1230 de Via Alta, la seleccin de unidades se

realiz mediante un Muestreo probabilstico, con un error mximo de


estimacin del 8%.

Diseo muestral. La poblacin de estudio se encuentra conformada por


400 alumnos nivel secundario del CNMx 1230 de Via Alta. Para la
determinacin del nmero de las unidades de anlisis se tom el tamao

de muestra estratificado por asignacin proporcional:

Mg. Rosa Padilla Castro

Poblacin y Muestra
N
n0

N 1 e

2
2
2

pq
2

n0

pq

400 x 1.96 2 x 0.50 x 0.50


400 1 x 0.08 2 1.96 2 x 0.50 x 0.50

n0

149 .87 150 ALUMNOS


Como el factor de correccin para poblaciones finitas es
150
n0
mayor que 0.10
0.375 0.10
si
400
N
entonces se corrige el tamao de muestra utilizando la n
c
siguiente frmula:

n
n
1
N

Confianza
Distribucin normal inversa

1-
Z=Z(1- /2)

Tamao de poblacin
Proporcin de poblacin que presenta la
caracterstica
Proporcin de la poblacin que no presenta la
caracterstica
Error de estimacin

150
150
1
400

0,95
1,96
400

0,50

0.50

0,08

109 .09 110


alumnos.

Ejercicio de aplicacin

Un hospital dispone de un listado de los


pacientes, organizados por reas de
atencin (neurologa, traumatologa,....).
Comente en grupo que tipo de muestreo
podra realizarse, y como lo haran.
Mg. Rosa Padilla Castro

Ejercicio de aplicacin

Un hospital dispone de un listado de los


pacientes, organizados por reas de
atencin (neurologa, traumatologa,....).
Comente en grupo que tipo de muestreo
podra realizarse, y como lo haran.
Mg. Rosa Padilla Castro

Ejercicio de aplicacin
Un grupo de especialistas de la Salud, entre
ellos Mdicos, Enfermeros, Nutricionistas,
Psiclogos, estn interesados en indagar acerca
de la relacin que existe entre desnutricin y
grado de conocimiento de la poblacin del
adulto mayor en cuanto a una alimentacin
balanceada. Suponga que la poblacin objetivo
son todos los barrios marginales del Cono Sur
de Lima. Sugiera el tipo de muestreo ms
conveniente, el tamao de muestra apropiado,
quin es la unidad de anlisis?

Mg. Rosa Padilla Castro

Ejercicio de aplicacin
Se toma una encuesta de hogares sobre violencia familiar, el objetivo es
obtener informacin acerca de los conocimientos, valores, actitudes y
prcticas respecto a la violencia en el mbito familiar segn las
percepciones de las mujeres en Lima y Callao, que sirvan de apoyo a la
formulacin y evaluacin de polticas pblicas, de iniciativas legislativas y
la proposicin de programas de prevencin que contribuyan a
disminuirla. La poblacin de estudio estuvo conformada por las mujeres
de 15 a 65 aos de edad, residentes habituales en Lima y Callao.
La cobertura geogrfica fue 43 distritos de la provincia de Lima y 6
distritos de la provincia constitucional del Callao. Segn data del INEI se
calcula que en el 1993 los delitos ocurridos (violencia familiar) fue de
532,968. y segn el censo nacional la poblacin de mujeres de 15 aos y
ms fue de 4809624.
Determinar el tamao de muestra.

Mg. Rosa Padilla Castro

Ejercicio de aplicacin

Se precisa conocer cual es la tasa de desnutricin


crnica actual entre los nios menores de 6 aos de
una determinada regin.

El error mximo permitido para la evaluacin es de 3%


y el nivel de confianza 95%.

De un estudio realizado en la regin durante el 2000 se


sabe que la tasa de desnutricin crnica fue de 25%.

Determinar el tamao de muestra necesario para el


estudio
Mg. Rosa Padilla Castro

106

Ejercicio de aplicacin

Se precisa conocer cual es la tasa de desnutricin


crnica actual entre los nios menores de 6 aos
de una determinada regin.
La poblacin de nios en este tramo de edad es
aproximadamente de 1352.
El error mximo permitido para la evaluacin es de
3% y el nivel de confianza 99%.
De un estudio realizado en la regin durante el
2000 se sabe que la tasa de desnutricin crnica
fue de 25%.
Determinar el tamao de muestra necesario para el
estudio
Mg. Rosa Padilla Castro

107

Mg. Rosa Padilla Castro

Mg. Rosa Padilla Castro

Pruebas de hiptesis

Hiptesis: Una Hiptesis estadstica es una afirmacin


relativa sobre un modelo probabilstico y una prueba de
hiptesis es un mtodo para determinar la posibilidad de
esa afirmacin relativa en base a una muestra.
Hiptesis establecidas en esta forma proporcionan con
frecuencia motivo para realizar una investigacin. Por esta
razn se le denomina hiptesis de investigacin

Hiptesis nula (Ho): Son aquellas que estn referidas a


algn parmetro de la poblacin o de las poblaciones de
estudio. Estas son llamadas hiptesis cientficas.
Hiptesis alternativa (Ha): Junto a la hiptesis nula se debe
formular la denominada hiptesis alternativa que es la que
sirve para contrastarla.
Mg. Rosa Padilla Castro

Errores de prueba y nivel de significacin

No rechazo Ho

Rechaza Ho

Ho cierta

Ho falsa

Decisin correcta
El tratamiento no
tiene efecto y as se
decide

Error de Tipo II (
El tratamiento si
tiene efecto, pero
no lo percibimos

Error de Tipo I (
El tratamiento no
tiene efecto, pero se
decide que si

Decisin correcta
El tratamiento tiene
efecto y el
experimento lo
confirma

Siempre que se rechaza una Hiptesis nula se corre el riego de cometer un


error del tipo I (
)

Siempre que no se rechaza una Hiptesis nula existe el riego de cometer al


error tipo II (
)
La decisin de una prueba estadstica est asociada al nivel de significacin:
a) Si P < 0.05 ( = 0.05). Se dice que existe significacin en la prueba
b) Si P < 0.01 ( = 0.01). Se dice que existe alta significacin en la prueba

Pasos para las pruebas de Hiptesis

1.Formular dos hiptesis mutuamente excluyentes


Hiptesis nula (Ho): que especifica valores hipotticos
para uno o ms de los parmetros poblacionales.

Hiptesis alterna (Ha): donde se afirma que el parmetro


poblacional tiene un valor distinto al hipottico, esta se
acepta cuando se rechaza la Ho.
2.Determinar el nivel de significancia a la probabilidad de
cometer un error tipo I pueden ser:

0.01

0.05

0.10

3. Determinar la prueba a utilizar.

Mg. Rosa Padilla Castro

Pasos para las pruebas de Hiptesis

4. Determinar la potencia de la prueba o probabilidad de


aceptar la hiptesis nula.
p-vale sig.
5. Tomar la decisin de aceptar o rechazar la Ho, o nos
abstenemos de tomar la decisin de acuerdo al criterio.
La decisin de una prueba estadstica est asociada al nivel de
significacin ( = 0.05, 0.01)
a) Si P <
Se rechaza la hiptesis nula, es decir existe
significacin en la prueba
b) Si P >= No se puede rechazar la hiptesis nula, es decir no
existe significacin en la prueba

6. Formular las conclusiones finales.

Mg. Rosa Padilla Castro

Hiptesis relativa a una media

Ho :

o
/2

/2

Ha :

bilateral.

unilateral

Nivel de significancia:

0.05
0.01
Mg. Rosa Padilla Castro

Supuestos para pruebas paramtricas


En SPSS: Analizar/estadsticos descriptivos/explorar/grficos (continuar segn
figura al pie)
Ejercicio: probar si la variable edad sigue una
Normalidad
distribucin normal
H0: La variable se distribuye
normalmente
Sig

= .200 >.05

Decisin: No se puede rechazar H0


Por lo tanto concluimos que la variable
sigue una distribucin normal

Grfico Q-Q normal de edad


3

edad

Kolmogorov-Smirnov(a)
Shapiro-Wilk
Estadsti
Estadsti
co
gl
Sig.
co
gl
.035
255
.200(*)
.992
255

Normal esperado

Sig.
.214

1
0
-1
-2
-3
-20

20

40

60

Valor observado

80

100

Prueba t para una muestra


H 0:
H a:

=
vs.

Contrasta si la media de una variable difiere

de una constante especifica.


0

Se determina el nivel de significacin

, y si el
valor resultante es menor o mayor se rechaza
la hiptesis nula

Para cada variable a contrastar se calcula, la

media, desviacin tpica y error tpico de la


media. La diferencia promedio entre cada
valor de los datos y el valor de contraste
hipottico.

Mg. Rosa Padilla Castro

Prueba t para una muestra


Ejm. Probar, si los pacientes asisten a recibir algn servicio al hospital ms de 4
veces por ao:
Ho:
4

Ha:

>4

En SPSS:
Una media poblacional: Analizar/Comparar medias/Prueba t para una
muestra/seleccionar la variable a probar, pasarla a contrastar variables
haciendo clik en
/Valor de prueba: poner el valor del parmetro a
probar/Opciones: cambiar la confianza/Continuar/Aceptar

Mg. Rosa Padilla Castro

Prueba t para una muestra


Reporte en el SPSS
N de veces
que asisti a
recibir un
servicio

Media

Desviacin tp.

Error tp. de la
media

255

4.40

2.692

0.169

Valor de prueba = 4

t
N de veces
que asisti a
recibir un
servicio

2.349

Sig.
(bilateral)

gl

254

0.020

Diferencia de
medias

0.396

95% Intervalo de
confianza para la
diferencia
Inferior

0.064

Superior

0.728

Decisin: Dado que el valor p o sig es menor que el 5%, rechazamos la Ho, por
lo tanto al nivel de significancia del 5% se puede afirmar que los pacientes
acuden al hospital en promedio ms de 4 veces por ao
Mg. Rosa Padilla Castro

Prueba t para muestras independientes

Poblacin
N2

Poblacin
N1

Muestra

Comparacin

Muestra
n2

n1

Muestras independientes
Mg. Rosa Padilla Castro

Prueba t para muestras independientes


H 0:
H a:

=
vs.
1

Compara

las medias de dos


grupos de casos. Para esta
prueba, idealmente los sujetos
deben asignarse aleatoriamente a
dos grupos, de forma que
cualquier
diferencia
en
la
respuesta
sea
debida
al
tratamiento (o falta de tratamiento)
y no a otros factores.

100

80

edad

60

Se base en el tamao de la

muestra, media, desviacin tpica


y error tpico. Adicionalmente, se
realiza la prueba de Levene sobre
la igualdad de varianzas.

40

20

0
Femenino

Masculino

Sexo del entrevistado

Mg. Rosa Padilla Castro

Ej: Probar si existe diferencia significativa en la


edad del entrevistado segn su genero
Ho:

1= 2

Ha:

1 2

En SPSS:
Para comparar medias poblacionales: Analizar/Comparar
medias/Prueba t para muestras independientes/seleccionar la
variable a comparar pasarla a contrastar variables haciendo
clik en
/Seleccionar la variable y pasarla a variable de
agrupacin/Definir grupos: dar valor al grupo 1 y grupo
2/Continuar/Opciones: cambiar la confianza si se
desea/Continuar/Aceptar

Mg. Rosa Padilla Castro

Reporte segn el SPSS

edad

Prueba de Levene para la


igualdad de varianzas

edad

Se han
asumido
varianzas
iguales
No se han
asumido
varianzas
iguales

Sexo del
entrevistad
o
Femenino

Error
Desvia tp. de
cin
la
N
Media
tp.
media
134
45.20 18.221 1.574

Masculino

121

Prueba T para la igualdad de medias

Sig.

gl

Sig.
(bilateral)

Inferior

Superior

Inferior

Superior

Inferior

.064

.800

44.42 18.548 1.686

Diferencia
de medias

Error tp. de
la diferencia

Superior

Inferior

95% Intervalo de
confianza para la
diferencia
Superior

Inferior

.338

253

.735

.780

2.305

-3.759

5.319

.338

249.392

.736

.780

2.307

-3.763

5.323

Decisin: Siendo que el p valor o sig es mayor que el 5%, no podemos rechazar la
Ho, por lo tanto concluimos que la edad no difiere segn el sexo de los pacientes

Supuestos para la prueba de muestras independientes


Ejercicio: Ademas de probar la normalidad de los datos, tambin probar la
homogeneidad de varianzas para la variable edad segn sexo

Homogeneidad (Levene)

Ho :

2
1

2
2

Sig= .800 > 0.05


Decisin: No se puede rechazar H0
Por lo tanto concluimos que las varianzas de
ambos grupos son homogneas

Prueba de Levene para la


igualdad de varianzas

edad Se han asumido


varianzas iguales

Sig.

.064

.800

No se han
asumido varianzas
iguales

Mg. Rosa Padilla Castro

Muestras relacionadas

Poblacin
N1

Muestra

intervencin

Muestra

n1 ; t=1

n0 ; t=0

Mg. Rosa Padilla Castro

Prueba t para muestras relacionadas


Compara las medias de dos variables de un

solo grupo. Calcula las diferencias entre los


valores de las dos variables de cada caso y
contrasta si la media difiere de 0.

H 0:

=0

vs.
H a:

Ejm: Se desea determinar la efectividad del programa consumo de


hierro en el incremento de la hemoglobina de los pacientes que
asisten al Hospital Ho:

=0

Ha:

En SPSS:
Para comparar medias poblacionales: Analizar/Comparar medias/
Prueba t para muestras relacionadas/seleccionar a la vez las dos
variables a comparar/ pasarla a variables relacionadas haciendo
clik en / Estadsticos/Continuar/Aceptar

Prueba t para muestras relacionadas


Reporte del SPSS
Hb_antes
Hb_despues
12.8
16.1
10.8
15.1
12
11.7
11
12.7
10.9
14
10.5
13.9
11
11.8
12.8
13.7
13.5
15.1
13.5
12.6
10.9
14.4
10.5
15.7
14.1
15.4
14.3
15.6
13
15.5
10.9
13.1
13.1
12.9
13.5
13.2
10.3
11.4
11.6
13.1

Media
Hb_antes
Hb_despus

Desviacin
tp.

Error tp. de
la media

12.05

20

1.348

.301

13.85

20

1.457

.326

Diferencias relacionadas

95% Intervalo de
Desvia Error tp. confianza para la
diferencia
cin
de la
Media

tp.

-1.800

1.64

media

Inferior

Superior

gl

Sig.
(bilateral)

Hb_antes
Hb_despus

.366

-2.57

-1.03

-4.918 19

.000

Decisin: Siendo que el p valor o sig es .000 menor que el


5%, rechazamos la Ho, por lo tanto concluimos que el
programa consumo de hierro increment la hemoglobina de
los pacientes que asisten al Hospital xxx
Mg. Rosa Padilla Castro

Prueba para ms de dos grupos (ANOVA)

H 0:

... = k
vs.
Ha: Al menos un par de
medias difieren
1

2=

El procedimiento ANOVA de un factor genera

un anlisis de varianza para una variable


dependiente cuantitativa respecto a una nica
variable de factor. El anlisis de varianza se
utiliza para contrastar la hiptesis de que
varias medias son iguales. Esta tcnica es una
extensin de la prueba t para dos muestras.

Adems de determinar que existen diferencias entre las medias, es posible

que desee saber qu medias difieren. Existen dos tipos de contrastes para
comparar medias: a priori y post hoc. Tambin puede contrastar las
tendencias existentes a travs de las categoras.

Mg. Rosa Padilla Castro

Prueba para ms de dos grupos (ANOVA)


Ejemplo: Se quiere determinar si existe diferencia significativa entre la

percepcin del trato por parte del Residente y la edad de los pacientes.
Para cada grupo se tiene en cuenta el nmero de casos, media, desviacin

tpica, error tpico, mnimo, mximo, intervalo de confianza al 95% para la


media. Prueba de Levene sobre la homogeneidad de varianzas, tabla de
anlisis de varianza y contrastes robustos de igualdad de medias para cada
variable.

Prueba para ms de dos grupos (ANOVA)

En SPSS:
Para comparar medias poblacionales:
Analizar/Comparar medias/ANOVA de un
factor/seleccionar la variable cuantitativa a
comparar trasladar a dependientes haciendo clik
en / seleccionar la variable cualitativa y trasladar
a factor(los subgrupos)/Estadsticos/ Opciones:
prueba de homogeneidad/Post hoc (Prueba de
comparaciones mltiples) seleccionar una prueba/
Continuar/Aceptar

Mg. Rosa Padilla Castro

Prueba para ms de dos grupos (ANOVA)

Mg. Rosa Padilla Castro

Resultados ANOVA)
H 0:

2=

vs.
Ha: Al menos un par de medias difieren
Decisin: Sig 0.001< 0.05
Rechazamos Ho
Conclusin: Existe diferencia significativa entre la percepcin que
tiene el paciente acerca del trato que da el Residente segn el
nmero de veces que acude a recibir un servicio
Reporte del SPSS

Fuentes de
variacin
Inter-grupos
Intra-grupos
Total

Suma de
cuadrados
100.3
1740.7
1841.0

Media
gl
cuadrtica
2
50.2
252
6.9
254

Mg. Rosa Padilla Castro

F
7.261

Sig.
0.001

Opciones y pruebas post hoc


N de veces que asisti a recibir
Homogeneidad
Duncan
un servicio
Fue amable el trato
Subconjunto para alfa = Estadstico de
Levene
gl1
gl2 Sig.
que recibi por
.05
parte del
4.852
2 252
0.009
RESIDENTE
N
1
2
Desacuerdo
45
3.044
Decisin: Sig <0.05, por lo tanto rechazo Ho.
Totalmente de
Las variables no son homogneas
Acuerdo
165
4.661
Acuerdo
45
4.778
Normalidad
Sig.
1
0.808
Se puede observa que para aquellos que
presentan mayor promedio de asistencia
son los que opinan a favor del trato que
perciben del residente
Sin embargo, tambin se puede observar
que la variable dependiente no cumple
el requisito de la homogeneidad ni
normalidad, por lo tanto se recomienda
hacer una prueba no paramtrica H de
Kruscal-Wallis

Fue amable el trato que recibi por parte del KolmogorovRESIDENTE


Smirnov(a)
N de veces
que asisti a
recibir un
servicio
Estadstico
gl
Sig.
Totalmente de
Acuerdo
0.194
165
0.000
Acuerdo
0.158
45
0.007
Desacuerdo
0.198
45
0.000
Correccin de la significacin de Lilliefors

Decisin: Sig <0.05, por lo tanto rechazo Ho.


Las variables no siguen una distribucin normal

Mg. Rosa Padilla Castro

Mg. Rosa Padilla Castro

En este captulo vamos a tratar diferentes formas de describir la


relacin entre dos variables cuando estas son numricas.
Estudiar si hay relacin entre la altura y el peso.

Tambin se hace estudios correlacionales cuando alguna de las


variables es ordinal.
Estudiar la relacin entre el sobrepeso y el dolor de espalda (ordinal)

Hay ms de dos variables relacionadas.


Conocer el peso de una persona conociendo su altura y contorno
de cintura?

El estudio conjunto de dos variables cualitativas lo vemos a


travs del contraste de hiptesis (X2).
Hay relacin entre fumar y padecer enfermedad de pulmn?

Mg. Rosa Padilla Castro

Regresin y correlacin: datos


cuantitativos
Anlisis de regresin. Se utiliza para realizar

estimaciones de una variable dependiente


en funcin a un valor especfico de las
variables independientes.
Anlisis de correlacin. Es utilizada para
determinar el grado de asociacin entre
variables.

OBJETIVO:
Entender como los valores de Y
cambian en promedio cuando X
varia entre los posibles valores
que puede tener.

Regresin lineal

2.00

1Y = 0.15 + 0.01 * x
R-cuadrado = 0.68

1.50

El anlisis de Regresin se enfoca


al establecimiento de una
ecuacin que permite que el
valor desconocido de una
variable se pueda estimar a
partir del valor conocido de una
o ms variables.

1.00

0.50

0.00

X1

X2

X3

Xn

40

80

X
Mg. Rosa Padilla Castro

120

El modelo de regresion lineal simple

Su representacion para la observacion i

Yi

X i ei

Suposiciones del modelo:

La variable predictora X es no aleatoria


Los errores ei son variables aleatorias con media 0 y varianza
constante 2.
Los erroresei y e j (i j=1,n) son independientes entre si
Mg. Rosa Padilla Castro

1.
2.
3.
4.
5.

Los residuales son aleatorios


Los residuales siguen una distribucin
normal
Tienen media igual a 0
Tienen varianza constante
No estn auto correlacionados
a) Durbin Watson
b) Grafico de Auto correlacin
Mg. Rosa Padilla Castro

Regresin Mltiple

El anlisis de regresin mltiple produce una ecuacin con


varios coeficiente , dependiendo del nmero de variables
independientes X que se introduzcan al modelo, generando
de esta forma hiperplanos.

El Coeficiente de Correlacin Mltiple mide la proporcin de


la variacin total de los valores de la variable independiente,
que es explicada por la regresin mltiple.

X1

X2

X3

Mg. Rosa Padilla Castro

Xn

Caso I
Ho:
*
Ha:
*

Prueba Estadstica

Caso III
Ho:
*
Ha:
*

*
s
Sxx

~ t( n

2)

Regla de Decisin
Rechazar Ho,
si tcal<-t( ,n-2)

Caso II
Ho: = *
Ha:
*

Rechazar Ho
si |tcal |>t( /2,n-2)

Rechazar Ho
si tcal>t( ,n-2)

*Un P-value o Sig cercano a cero, sug


irira rechazar la hiptesis nula.
Mg. Rosa Padilla Castro

Correlacin
El objetivo del anlisis de correlacin es medir

el grado de relacin que existe entre las


variables.
El coeficiente de determinacin mide el aporte

de la variable
dependiente.(r2)

independiente

Mg. Rosa Padilla Castro

sobre

la

Slo toma valores en [-1,1]


Las variables son incorreladas r=0
Relacin lineal perfecta entre dos variables r=+1 o
r=-1
Cuanto ms cerca est r de +1 o -1 mejor ser el
grado de relacin lineal

Relacin
inversa
casi
perfecta

-1

Variables
incorreladas

Relacin
directa
casi
perfecta

+1

0
Mg. Rosa Padilla Castro

Regresin y correlacin
Con la data patient_los.sav (SPSS<tutorial<sample_files)

Ejemplo: Hallar el diagrama de dispersin, la

recta estimada de regresin, el coeficiente de


correlacin y determinacin de las variables
Coste del tratamiento en funcin de la
duracin de la estancia.

Mg. Rosa Padilla Castro

Regresin y correlacin
En SPSS:

1. Grfico de dispersin
Grficos/dispersin/simple/definir/Coste del
tratamiento trasladar a Y y duracin de la estancia a
X/aceptar.

2. Correlacin
Analizar/Correlacin bivariada/se seleccionan las
variables cuantitativas y se trasladan/Seleccionar
Pearson/aceptar

3. Regresin
Analizar/Regresin lineal/se selecciona la variable
cuantitativa dependiente y se traslada a dependiente,
luego la independiente o independientes y se traslada
a independientes/aceptar
Mg. Rosa Padilla Castro

Diagrama de dispersin

En el diagrama de dispersin se aprecia una fuerte relacin lineal directa

Mg. Rosa Padilla Castro

Regresin y correlacin mltiple

Mg. Rosa Padilla Castro

Regresin
Coeficientes
Coeficientes no
estandarizados
Modelo
1

Error tp.

Coeficientes
estandarizad
os
Beta

Sig.

(Constante)

.667

.016

42.318

.000

Duracin de la estancia

.146

0.0005961

.939 244.369

.000

Cons tan tes

0.667 0.146 X 1
Mg. Rosa Padilla Castro

Idoneidad del modelo de regresin


Resumen del modelo
Modelo
1

R
.939(a)

R
cuadrado

R cuadrado Error tp. de


corregida la estimacin

.882

.882

DurbinWatson

.923

2.029

Coeficiente de determinacin: r2 = 88.2%; el costo del tratamiento est siendo


explicado en un 88.2% por la variabilidad de la duracin de la estancia y un 11.8%
se debe a la intervencin de otras variables.
ANOVA
Modelo
1

Suma de
cuadrados
Regresin
Residual
Total

Media
cuadrtica

gl

50860.685

6810.240

7996

57670.925

7997

50860.685 59716.253

Sig.
.000(a)

.852

Siendo que el anlisis de varianza (ANOVA) da una significancia < 0.05, entonces
podemos decir que el modelo de regresin propuesto es muy bueno (p=.000)

Mg. Rosa Padilla Castro

Correlacin

Mg. Rosa Padilla Castro

Duracin de
la estancia
Duracin de la
estancia

Costes de tratamiento

Correlacin de
Pearson
Sig. (bilateral)
N
Correlacin de
Pearson
Sig. (bilateral)
N

Costes de
tratamiento

1
7998
0.94
0
7998

Ho :

No existe correlacin

Ha :

Existe correlacin

0.94
.000
7998
1

8629

Decisin:
Dado que el p value o sig < 0.05 , rechazamos Ho; concluimos que el
costo del tratamiento esta asociado a la duracin de la estancia

Mg. Rosa Padilla Castro

Regresin y correlacin mltiple


Ejercicio:
Determinar el modelo de regresin para la duracin
de la estancia segn el resultado quirrgico y la
edad del paciente.
En SPSS:
Regresin
Analizar/Regresin lineal/se selecciona la variable
cuantitativa dependiente y se traslada a dependiente,
luego las variables independientes y se traslada a
independientes/grficos: pasar (zpred) a (x) y (zresid) a
(y); click en histograma y grfico de prob.
Normal/continuar/ aceptar
Mg. Rosa Padilla Castro

Regresin y correlacin mltiple


Resum en del modelob

Modelo
1

R
.379a

R cuadrado
.144

R cuadrado
corregida
.144

Error tp. de la
estimacin
1.574

DurbinWatson
2.012

a. Variables predictoras: (Constante), Resultado quirrgico, Edad en aos


b. Variable dependiente: Duracin de la estancia

ANOVAb

Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
1801.795
10719.245
12521.040

gl
2
4324
4326

Media
cuadrtica
900.898
2.479

F
363.410

Sig.
.000a

a. Variables predictoras: (Constante), Resultado quirrgico, Edad en aos


b. Variable dependiente: Duracin de la estancia

Coeficientes no
estandarizados
Modelo
1

B
(Constante)
Edad en aos
Resultado quirrgico

1.897
.045
.802

Error tp.
.180
.003
.039

Coeficientes
estandarizad
os
Beta

Mg. Rosa Padilla Castro

.232
.291

t
10.547
16.497
20.668

Sig.
.000
.000
.000

Mg. Rosa Padilla Castro

Las pruebas no paramtricas llamadas de


distribucin libre, no asumen ningn parmetro,
trabajan con simple ordenacin y recuento
(asignando rangos) a los valores de la variable.
Se deben usar con:
Datos de distribucin libre
Se puede usar con datos nominales, ordinales e
incluso cuantitativos (convertir a ordinal)
Cuando la data es cuantitativa pero no cumple
los supuestos bsicos de normalidad y
homogeneidad, si se trata de ms de dos grupos.
Mg. Rosa Padilla Castro

Pruebas no paramtricas de acuerdo al tipo de muestras y


variables
Chi cuadrado
Cuantitativacualitativa

1 muestra

Binomial
Independientes

Cuantitativa

U de MannWhitney

Relacionadas

Cuantitativa

Wilcoxon

Antes/despus

Mc Nemar

Cuantitativa

Kruscal Wallis

Cuantitativa

Friedman

Cualitativa

Q de Cochran

2 muestras

Independientes
Ms de 2
muestras
Relacionadas
Mg. Rosa Padilla Castro

Es una prueba de significacin estadstica que responde a la siguiente


ecuacin general:
F

X 2 (F

1)(C 1)
i 1 j 1

(O ij

Eij ) 2
Eij

CRITERIO DE LA INDEPENDENCIA

Ho: Las variables son independientes


Ha: Las variables estn relacionadas

En el SPSS:
Analizar/estadsticos descriptivos/tablas de contingencia/pasar las
variables/pedir en estadsticos/Chi cuadrado/continuar/aceptar

Mg. Rosa Padilla Castro

Prueba Chi-cuadrado: criterio de


independencia
En SPSS:
Para
comparar
medias
poblacionales:
Analizar/Estadsticos descriptivos/Tablas de
contingencia/seleccionar
las
variables
cualitativas y trasladar a fila y a columna
haciendo clik en
/Estadsticos/seleccionar
Chi-cuadrado
y
coeficiente
de
contingencia/Continuar/Aceptar

Ej: Probar si el trato que recibe por parte del mdico influye para
recomendar al Hospital de Tarapoto
Ho: El trato que recibe por parte del mdico no influye para recomendar
al Hospital de Tarapoto
Ha: El trato que recibe por parte del mdico influye para recomendar al
Hospital de Tarapoto

Mg. Rosa Padilla Castro

Prueba Chi-cuadrado
Ho: El trato que recibe el paciente de parte del mdico no influye para
recomendar al Hospital de Tarapoto
Ha: El trato que recibe el paciente de parte del mdico influye para recomendar
al Hospital de Tarapoto
Pruebas de chi-cuadrado

Chi-cuadrado de Pearson
b
Correccin por continuidad
Razn de verosimilitudes
Estadstico exacto de
Fisher
Asociacin lineal por lineal
N de casos vlidos

Valor
29,219a

gl

Sig. asinttica
(bilateral)
1
.000

26.286

.000

32.995

.000

Sig. exacta
(bilateral)

Sig. exacta
(unilateral)

.000
29.104

.000

255

Decisin: siendo sig 0.000<0.05, por lo tanto rechazamos la Ho


Conclusin: Al nivel de confiabilidad del 95% podemos concluir que el trato que
recibe por parte del mdico influye para recomendar al Hospital de Tarapoto

.000

Pruebas no paramtricas: Comparacin de


grupos (dos muestras independientes)

U de Man Witney

Comparar dos grupos independientes que no siguen una


distribucin normal y no homogneas o que sean ordinales
Paralela a la prueba t de muestras independientes
Contrasta si dos poblaciones son equivalentes en su posicin
Es recomendable pero no imprescindible que las poblaciones
comparadas tengan el mismo tamao

Ejemplo: Con la data patient_los.sav (SPSS<tutorial<sample_files)

Mg. Rosa Padilla Castro

U de Man Witney: Comparacin de grupos (dos


muestras independientes)
Ho: La duracin de la estancia es igual a si presentan o no infarto
del miocardio
Ho: La duracin de la estancia no es igual a si presentan o no
infarto del miocardio

Duracin de la
estancia

Historial de
infarto de
miocardio
No
S
Total

Suma
Rango
de
prome rango
N
dio
s
34553
535 645.85
0.50
75189
946 794.81
0.50
1481

U de Mann-Whitney
W de Wilcoxon
Z
Sig. asintt.
(bilateral)

Duracin de
la estancia
202150.500
345530.500
-6.595
.000

El rango promedio de duracin de la estancia de los que no presentan historial de


infarto de miocardio esta en 645.85 y los que si presentan infarto esta en 794.81,
es decir hay diferencia entre los que presentan y los que no presentan historial de
infarto y como sig<0.05, se rechaza Ho

Conclusin: La duracin de la estancia es diferente en los que si presentan con


los que no presentan, siendo mayor en los que si presentan historial de infarto de
miocardio.
Mg. Rosa Padilla Castro

H de Kruskal Wallis: Comparacin de k grupos


independientes

Comparar k grupos independientes y variables


cuantitativas que no cumplan los supuestos bsicos de
normalidad y homogeneidad
Paralela a la prueba paramtrica ANOVA para muestras
independientes
Ejemplo: Con la data patient_los.sav (SPSS<tutorial<sample_files)

Ho: La duracin de la estancia es igual en los tres grupos


de resultado quirrgico (cualquiera sea el resultado)
Ho: La duracin de la estancia no es igual en los tres
grupos de resultado quirrgico

Mg. Rosa Padilla Castro

H de Kruskal Wallis: Comparacin de k


grupos independientes

Resultados
Rangos

Duracin de la
estancia

Resultado
quirrgico
Recuperado
Estable
Crtico
Total

Rango
N
promedio
1323
686.04
121
1153.55
37 1357.19
1481

a Prueba de Kruskal-Wallis
b Variable de agrupacin: Resultado quirrgico

Chi-cuadrado
gl
Sig. asintt.

Duracin de la
estancia
221.625
2
.000

Regla de decisin:
Con sig<0.05 se rechaza Ho
Con sig>0.05 no se rechaza Ho

Conclusin: Hay diferencia entre los tres grupos para tener ms das de
estancia en el hospital frente al resultado quirrgico

Mg. Rosa Padilla Castro

Pruebas no paramtricas: Dos muestras


relacionadas (Mac Nemar antes/despues)
Ejemplo: Una muestra aleatoria de 150 estudiantes se someti a un cuestionario de opinin acerca
de si fumar produce cncer al pulmonar. Obtenida la informacin se les dio una conferencia y se
les presento una exposicin llevada acabo por un equipo de sanidad explicando los peligros de
fumar y se les explico la relacin sobre el efecto de fumar sobre el cncer pulmonar
(se les hizo una encuesta y luego recibieron una charla y se quiere ver que tan fructfera fue esa
charla)
Despus de la conferencia
Antes de la
conferencia
NO
SI

NO
43
10

SI
67
30

Test Statisticsb

N
Chi-Square a
Asymp. Sig.

antes de la
conf erencia &
despues de la
conf erencia
150
40.727
.000

a. Continuity Corrected
b. McNemar Test

Total
110
40
150

Ho: la probabilidad de que la conferencia no


tenga efecto sobre la opinin de los
estudiantes es igual a que la probabilidad de
que la conferencia si tenga efecto sobre la
opinin de los estudiantes
Ha: la probabilidad de que la conferencia es
mayor sobre la opinin de los estudiantes

El sig<0.05, rechazamos la Ho por lo tanto


concluimos que si existe un efecto
estadsticamente significativo de que la
conferencia cambie la opinin de los
estudiantes a favor de que el fumar si
produce cncer
Mg. Rosa Padilla Castro

Pruebas no paramtricas: Dos muestras


relacionadas (Wilcoxon)
Comparar dos grupos relacionados y variables cuantitativas que no tienen
distribucin normal o que sean ordinales

Paralela a la prueba paramtrica de contraste t para muestras relacionadas


Contrasta si dos poblaciones muestreadas son equivalentes en su posicin
Es recomendable pero no imprescindible que las poblaciones tengan el mismo

tamao
Ejemplo: Con la data tabaquismo probar si existe relacin entre las variables
consumo de tabaco y presentar problemas vasculares

Ho: Problemas vasculares = si consume o no tabaco

Ha: Problemas vasculares

si consume o no tabaco

Mg. Rosa Padilla Castro

Pruebas no paramtricas: Dos muestras relacionadas


(Wilcoxon)
Con la data tabaquismo probar si existe relacin entre las variables consumo de
tabaco y presentar problemas vasculares
sexo
1
1
1
1
2
2
2
2

tabaco vascular ncasos


1
1
22
1
2
103
2
1
17
2
2
151
1
1
23
1
2
81
2
1
9
2
2
127

Prueba de los rangos con signo de


Wilcoxon

vascular tabaco

Estadsticos de contraste(b)
vascular tabaco
Z
-10.903(a)
Sig. asintt. (bilateral)
.000
E
a Basado en los rangos negativos.
b Prueba de los rangos con signo de Wilcoxon

Mg. Rosa Padilla Castro

Rangos
negativos
Rangos
positivos
Empates
Total

Rango Suma
promedi
de
N
o
rangos
2743.0
26(a) 105.50
0
19412.
184(b) 105.50
00
323(c)
533

Conclusin: El consumo de
tabaco incide significativamente
en los problemas vasculares

Mg. Rosa Padilla Castro

PRUEBA PARA K MUESTRAS RELACIONADAS: en


dos direcciones por Rangos de Friedman

Comparar k grupos relacionados y variables cuantitativas que no siguen una


distribucin normal o que sean datos ordinales
Paralela a la prueba paramtrica de ANOVA para muestras relacionadas
Contrasta si K poblaciones son equivalentes en su posicin
Es recomendable pero no imprescindible que las poblaciones comparadas
tengan el mismo tamao
Ejemplo:
Suponga que se desea comprobar la hiptesis nula de que un grupo de 10
sujetos reaccionan de la misma manera ante tres situaciones diferentes; Se
obtienen los siguientes resultados, que se ubican en cada uno de los tres
grupos I, II, III
Ho: La reaccin de los sujetos ante situaciones diferentes es igual
Ha: La reaccin de los sujetos ante situaciones diferentes no es igual
Mg. Rosa Padilla Castro

PRUEBA PARA K MUESTRAS RELACIONADAS: en


dos direcciones por Rangos de Friedman

Puntajes

2 25Timoteo
2:15
28
29
N
Procura
con
10
B
30
33
32
Chi-cuadrado
C
21
19
16
5.600
diligencia
D
28
31
32
gl
2
presentarte
ante
E
19
22
23
Sig. asintt.
.061
F
22
21
25
Dios,
aprobado
G
31
33
34
a Prueba de Friedman
como
obrero
que
H
17
14
21
de24 que
I no25 tiene
21
J avergonzarse
33
35
37
que
usa
bien la palabra
Conclusin: No existe diferencia significativa de los grupos en cuanto a
la reaccin
diferentes estmulos. (p= 0,061>0.05).
detrasverdad

Sujeto

Grupo 1

Grupo 2

Grupo 3

Mg. Rosa Padilla Castro

Estadsticos de contraste(a)

Mg. Rosa Padilla Castro

También podría gustarte