Apuntes Estadistica Vs14

APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
ESTADISTICA APLICADA
Una propuesta para su aplicación en la Salud Pública
Vicente Waldo Aguirre Tarquino
Contenido
TEMA .................................................................................................................................................. 2
CONCEPTOS BASICOS ................................................................................................................... 2
TEMA: ................................................................................................................................................. 9
LAS VARIABLES ................................................................................................................................ 9
TEMA: ............................................................................................................................................... 17
TABLAS ESTADISTICAS: LA DISTRIBUCION DE FRECUENCIAS .............................................. 17
TEMA: ............................................................................................................................................... 32
MEDIDAS DE TENDENCIA CENTRAL........................................................................................... 32
TEMA: ............................................................................................................................................... 37
MEDIDAS DE LOCALIZACIÓN ..................................................................................................... 37
TEMA: ............................................................................................................................................... 44
MEDIDAS DE DISPERSIÓN ............................................................................................................ 44
TEMA: ............................................................................................................................................... 54
LA DISTRIBUCION NORMAL ........................................................................................................ 54
TEMA: .............................................................................................................................................. 66
INFERENCIA ESTADISTICA Y PRUEBAS DE HIPOTESIS ................................................. 66
TEMA: .............................................................................................................................................. 85
PRUEBAS DE NORMALIDAD .................................................................................................... 85
TEMA: .............................................................................................................................................. 97
PRUEBAS PARAMETRICAS: LA t-STUDENT ........................................................................ 97
TEMA: ............................................................................................................................................ 119
PRUEBAS PARAMETRICAS: EL ANALISIS DE VARIANZA ............................................ 119
TEMA: ............................................................................................................................................ 128
PRUEBAS NO PARAMETRICAS ............................................................................................. 128
TEMA: ............................................................................................................................................ 152
Vicente Waldo Aguirre Tarquino 1

COMPARACION ENTRE POBLACIONES NO RELACIONADAS: LA CHI CUADRADA

DE PEARSON, ............................................................................................................................. 152
TEMA: ............................................................................................................................................ 162
EL COEFICIENTE DE CORRELACION DE PEARSON Y SPEARMAN ........................... 162
TEMA: ............................................................................................................................................ 168
OTRAS MEDIDAS DE ASOCIACION PARA TABLAS DE CONTINGENCIA .................. 168
ESTADISTICA APLICADA
Una propuesta para su aplicación en la Salud Pública
Vicente Waldo Aguirre Tarquino
TEMA
CONCEPTOS BASICOS
Introducción
- Estadística viene del vocablo Estado (por los primeros

registros)
- Estadística sitial privilegiado
- Permite romper las fronteras del conocimiento
- Discrimina entre opiniones arbitrarias.
- Se fundamenta el ciencia matemática
- Se relaciona con los diferentes fenómenos sociales y
naturales
- Se aplica en el análisis de la investigación
- Le interesa el conjunto de datos y no los hechos aislados,
en la metodología, le interesa el aspecto cuantitativo y
cualitativo.
- Amplia bibliografía y especialidad

Estadística y Epidemiologia
- Proporciona a la Epidemiologia objetividad.

- Prueba relaciones lógicas. Ej.
o Enfermedad = f (x, y, z); donde x, y, z representan
factores de riesgo para que esté presente la
enfermedad.
- Permite al Epidemiólogo y Salubrista encontrar respuestas a

preguntas como:
- ¿Qué factores aumentan la probabilidad de contraer la
enfermedad x?
- ¿Cuál es la eficacia de un nuevo fármaco o tecnología
médica?
- ¿Existe relación entre algún habito de vida “x” y la
enfermedad “y”?
Estadística Aplicada Definición
- Metodología de trabajo científico que utiliza métodos

propios, mediante los cuales se recopilan organizan,
presentan, analizan, contrastan e interpretan los datos
estadísticos, que se refieren a un hecho cuantificado.
- Tomar decisiones (algunas de ellas en condiciones de
incertidumbre)
- Determinar afirmaciones sobre un conjunto de datos
llamados población (enfoque deductivo).
- La notación matemática se minimiza, lo que importa es la
aplicación de tópicos.
- Son aplicaciones directas a un conjunto de conocimientos
específico.

Población y Muestra
- La población (denominada N) es el conjunto de todos los

datos.
- La muestra (n) es una parte de los elementos de la
población, es decir un subconjunto de la población (tiene
utilidad práctica y económica),
o Los datos estadísticos es el conjunto de datos que
pueden ser clasificados, comparados, analizados y
del resultado del análisis se pueden interpretar los
datos o inferir resultados
- Estadística Descriptiva e Inferencia Estadística

o ED: parte de la estadística que tiene por objeto
recopilar, resumir, clasificar, presentar y describir los
datos.
 Deduce sobre su estructura y composición
o IE. Toma decisiones con respecto a una población,
basadas en una muestra de la población, como esta
se realizan en condiciones de incertidumbre se utiliza
la teoría de la probabilidad.

ESTADISTICA
DESCRIPTIVA INFEREENCIAL
Resume, Clasifica: Var. Cuantivativas Var. Cualititativas Generliza datos
Medidas de Tendencia Estima parametros

Central (Puntuales y de Intervalo
Medidas de Localización Prueba Hipotesis
Medidas de Dispersion
- Estadística Clásica y Estadística Bayesiana

o EC: Excluye todo juicio personal
o EB: Incorpora juicios personales (Ej. Dilema del
prisionero).

Método para organizar y analizar la información (en base a Cruz

et. al.)
RECOLECCION CLASIFICACION PRESENTACION DESRIPCION ANALISIS
1. Recolección. Proceso de obtención de información, que

puede ser realizado a través de medidas directas e
indirectas o la combinación de ambas. La obtención de
medidas indirectas se la realiza a través de instrumentos:
Marcadores Biometricos, Glucometros, Balanzas,
Tensiometros, etc. Las indirectas se consiguen a través de
cuestionarios (fuentes primarias), o fuentes de información
secundarias1.
Se aclara que el proceso de recolección implica la

aplicación de técnicas de recolección a objeto de evitar
1
Por ejemplo: Una buena fuente para investigaciones las constituyen las bases de datos del Instituto Nacional
de Estadística, la Información proporcionada por el Sistema Nacional de Información en Salud, las encuestas
generadas por los institutos de investigaciónón, etc.
errores en la obtención de la información, por lo cual el

equipo debe capacitar sobre el uso de los instrumentos, la
aplicación del cuestionario, la revisión de los mismos a
objeto de usar preguntas estandarizadas y la realización de
aplicaciones piloto a objeto de identificar errores y prevenir
los mismos en las pruebas definitivas.
2. Clasificación. Implica la organización de la información, se

la puede clasificar según el ámbito, la unidad muestral, y se
la organiza por ejemplo de mayor a menor. Esta etapa
incluye la tabulación2 de la información que permita
organizar la misma. La misma puede ser manual o utilizando
algún software estadístico.
3. Presentación. Implica organizar la información en Tablas,

Gráficos, Infogramas, etc3. En el campo de la estadística los
más frecuentes son:
- Presentación de los datos estadísticos

o Representaciones Graficas
 Histograma
 Polígono de frecuencias
 Barras
 Barras de componentes
 Barras de comparación
 Líneas
 Tortas
2
A efectos de asegurar la tabulación de datos, se debe aplicar herramientas que permitan identificar y
corregir errores, por ejemplo la tabulación por doble ciego.
3
Las tablas y gráficos deben tener: Titulo (incluye la/s variable/s, lugar, año), Subtitulo que referencia la
unidad de medida de la variable o su escala, el detalle de datos estadísticos con la debida referencia (Ej, en
caso de cuadro títulos de columnas y filas, en caso de graficos referencias a los signos o colores), fuente y
elaboración, notas que expliquen las abreviaturas y símbolos utilizados.
 Dispersión
 Telaraña
 Diagrama de tallos y hojas
 Diagrama de cajas
o Tablas estadísticas
 Frecuencias absolutas y relativas
 Cuadros de distribución de frecuencias
 Polígono de frecuencias
4. Descripción. Implica el cálculo de medidas descriptivas

para las variables (Medidas de tendencia central, de
posición, de dispersión, razones, tasas, proporciones, etc).
Recuerde que las medidas obtenidas de la población se

llaman parámetros, y los de la muestra estimadores o
estadísticos.
5. Análisis. En este acápite se procede a la realización de las

pruebas de hipótesis y la toma de decisiones en base a la
significancia de la prueba.

TEMA:
LAS VARIABLES
Definición.
Las variables son atributos, características de las cosas, animales,

de las personas y sujetos de investigación en general
(denominados unidad de observación), que tienen la propiedad
de variar (cambiar)4.
Momento en que deben ser definidas las variables.
En los estudios cuantitativos las variables surgen al momento

definir la o las hipótesis de investigación5, las mismas que deben
ser ajustadas para operar y se basan en el marco teórico que
sustentara la investigación, sin embargo en los estudios
cualitativos, generalmente de tipo analítico (correlacional o
explicativo) pueden ser definidas durante la investigación. No
obstante lo mencionado, es recomendable que siempre sean
definidas antes del levantamiento de información.
Tipos de variables:
- Cuantitativas o cualitativas
o Cuantitativas: atributo que puede medirse, a su vez
son:
 Discreta (No existe un valor intermedio)
 Continua
4
Pueden encontrarse en un estado constante y no cambiar, pero deja de ser variable. Ejemplo: Las
características de las mujeres que sufren violencia intrafamiliar pueden ser: Edad, estado civil, número de
hijos, escolaridad. Pudiendo cambiar todas estas características pero no la constante, que es el hecho de ser
“mujer”.
5
La hipótesis es la respuesta tentativa a la pregunta de investigación (pueden ser varias), las mismas están
planteadas en forma de proposición, y se apoyan en el conocimiento aportado por el marco teórico, se
verifican en la investigación, pudiendo ser aceptadas o rechazadas las proposiciones

o Cualitativa6, cualidad que se describe, se define y

mesura de la definición operativa, pueden a su vez
ser:
 Ordinales
o Dicotómicas
o Polinómicas
 Nominales
o Dicotómicas
o Polinómicas
Asimismo metodológicamente se pueden clasificar en cuanto a

cuál de las variables es la causa (independiente), o si son el
efecto (dependiente), o también en exógenas (no controladas)
o endógenas (controladas).
Planteamiento del problema, hipótesis, tipos de variables y su

operacionalización.
Las preguntas de investigación generan hipótesis, las cuales

contienen variables, al ser definidas las variables en términos
operativos, surgen dimensiones, indicadores y valores, estos
valores representan las características de las variables y sus
dimensiones (que pueden también representar otras variables),
esta definición resulta importante a efectos de poder desarrollar
los instrumentos y herramientas de recolección de información.
Ejercicio. Estudie las páginas 335 a la 337 del Manual de

Investigación en Salud (De la Galvez, Pando, Padilla y Pérez. 2012)
y la página 218 del libro Epidemiologia y Estadística en Salud
Pública (Villa, Moreno y García. 2011).
6
No confundir la investigación cualitativa y cuantitativa con las variables cuantitativas y
cualitativas.


Ejemplo.
Pregunta de Investigación
¿Cuál es el efecto de la Violencia Intrafamiliar sobre los Ingresos

y Patrimonio Económico de las Familias que son víctimas?
Hipótesis:
Los Ingresos de las Familias que sufren Violencia Intrafamiliar

disminuyen.
Variables:
V1: Ingresos Económicos de las Familias
V2: Violencia Intrafamiliar.

VARIABLE: Ingresos de las Familias
DEFINICIÓN DE LA VARIABLE
DEFINICIÓN DEFINICIÓN OPERATIVA

CONCEPTUAL
DIMENSIÓN INDICADOR VALORES
Cantidad de Sueldos y Suma de la Valor

dinero en salarios cantidad de continuo
Bolivianos que Dinero que mayor o igual
todos los miembros percibieron a “0”
de una familia todos los
Jornales
perciben, por miembros de la
concepto de familia por cada
sueldos, salarios, uno de los
jornales, utilidades Utilidades del conceptos
del negocio negocio detallados en la
familiar, rentas dimensión
(alquiler o durante el
dividendos de Rentas por último año (de
activos), en un alquiler enero a
año. diciembre)
Nota. No incluye
aquellos recursos Rentas por
derivados de la acciones
venta de activos
que son parte del
patrimonio ni
proveniente de
préstamos. 7
Ejercicio. Lea y revise teoría sobre la definición de Violencia

Intrafamiliar y complete el siguiente cuadro.
7
En algunos casos la nota puede ser innecesaria en razón de que la definición no considera estos aspectos.
VARIABLE: Violencia Intrafamiliar

CONCEPTUAL
Para el caso de la Variable Ingresos Económicos, a su vez la

misma tiene varias dimensiones, las cuales pueden ser
desarrolladas en preguntas, las cuales contienen variables que
debemos definirlas
Ejercicio. Para el trabajo de investigación que está llevando o

llevara a cabo complete el siguiente cuadro:
VARIABLE:


CONCEPTUAL
Para las dimensiones identificadas, complete el cuadro de

clasificación de variables.
Varia Instrum Clasificación Clasificación Estadística
ble ento de Definición Metodológica
Medició (marcar una x)
n Concep Operaci Dependi Independ Cuantitativa Cualitativa
(Descri tual onal ente iente (Describir la (Describir
ba el unidad de los valores
instrum (Exógen (Endóge medida) que puede
ento y la a, que na, que tomar)
pregunt no puede Conti Discr Nomi Ordi
a) puede ser nua eta nal nal
ser controlad
controla a)
da)
Consu Cuestion Fumar Es la X Si
mo de ario: es una aceptaci y
Tabac ¿Fumo práctica ón (si) o No
o durante donde negació
el se n (no) al
embaraz quema hecho
o? o inhala de fumar
tabaco en el
embaraz
o

Recuerde que un insumo importante, para llenar el cuadro es el

marco teórico, el cual nos brindara información por ejemplo,
sobre las definiciones, como en otras experiencias se ha medido
la variable, etc. No es recomendable completar el cuadro y
aplicarlo sin revisar la literatura existente.

TEMA:
TABLAS ESTADISTICAS: LA DISTRIBUCION DE FRECUENCIAS
Frecuencias absolutas y relativas
- Resumen la información.
- Parte de Datos Brutos, pues estos no se encuentran
clasificados (utilizando frecuencias).
- Cuando las tablas se acompañan de frecuencias reciben
el nombre de TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS
Frecuencia Absoluta: Número de veces que se repite un

determinado valor de una variable: fi
Frecuencias Relativas: Porcentaje que corresponde a cada

valor que toma la variable: hi
Frecuencia Absoluta Acumulada: Es la suma de frecuencias

absolutas hasta una determinada frecuencia relativa: Fi
Frecuencia Relativa Acumulada: Es la suma de frecuencias

relativas hasta una determinada frecuencia relativa: Hi

Ejemplo:
Variable Edad
Ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Xi 18 19 21 22 23 23 24 20 18 18 21 22 22 23 23
Ni 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Xi 24 20 19 19 21 22 22 23 23 24 19 19 23 23 18
Ejercicio
Xi: Número de Hijos

Ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Xi 1 2 3 3 2 5 6 1 2 3 2 5 6 3 2 2 1 1 2 3 5 4 3 3 2 2 1 2 2 3
Ejercicio
Xi: Número de Hijos

Edad fi Fi hi Hi
18 4 4 0,13 0,13
19 5 9 0,17 0,30
20 2 11 0,07 0,37
21 3 14 0,10 0,47
22 5 19 0,17 0,63
23 8 27 0,27 0,90
24 3 30 0,10 1,00
Total 30 1,00
(En algunos textos se simboliza ni )
N = Total datos observados (Población N o en caso de muestra

n)
Algunas Formulas
hi=fi / N
f1 + f2 + f3 + f4 + fk = N
La suma de las F. Absolutas es igual a la totalidad de datos

observados
k
f
i 1
i N
La suma de las F. Relativas es igual a 1 ó al 100%:

h
i 1
i 1
Cuando la variable asume muchos valores se debe agruparlo

en intervalos y el número de intervalos no debe exceder de 10
preferentemente.
En caso de variables continuas es recomendable su utilización.
Contienen un Límite Inferior (Li-1)y un Limite Superior (Li), estos se

constituyen en pares ordenados.
Se utiliza algunas fórmulas para su construcción
Rango especifico (Re) = Valor Máximo – Valor Mínimo + 1
Número de intervalos8
k n
También se puede usar la fórmula propuesta por Sturges:
K=1+3.322 (log10 n)
Usar según corresponda n o N
Usar un máximo de 10 intervalos, si el resultado de k valor es

mayor a 10 se recomienda usar 10.
Amplitud del intervalo (anchura de un intervalo):
Ci = Re / k
Ci =Li- Li-1
Marca de clase
8
En este libro se propone dos maneras, pero existen varias, incluso se pueden elaborar histogramas
agrupando las variables por conveniencia Ej. Población por grupos etarios importantes para salud.
L i-1  L i
x
2
La demás simbología es la misma; fi, hi, Fi, Hi
Ejemplo:
Fuente: Presupuesto Público para niños, niñas y adolescentes en

Bolivia. UNICEF. MEFP, Red parlamentaria por la niñez y
adolescencia.
Ejercicio. Analice y reproduzca la tabla de distribución de

frecuencias de la página 215 del libro de Epidemiologia y
Estadística de Villa, Romero y García (2011)

Ejercicio. Elabore una tabla de distribución de frecuencias de la

siguiente variable que corresponde al Gasto Mensual en
Medicamentos de un grupo de familias (En Bolivianos).
320 158 198 183 210 263 270 197 234 200 258 268 230 231 300 240 211 269 190 279
175 205 259 261 150 350 199 251 218 240 110 120 238 206 260 115 160 288 253 261

Resultado Manual
Marca de
Li-1 Li
Clase Xi Fi
Note que el Limite Superior (Li), no contiene al valor Li, solo hasta
valores menores, es decir el primer intervalo va de 110 hasta
valores menores a 150 y el segundo de 150 hasta valores menores
a 190 y así sucesivamente.
Histograma y polígono de frecuencias
18
16
14
12
10
0
110-150 150-190 190-230 230-270 270-310 310-350

18
16
14
12
10
0
130 170 210 250 290 330
Ejercicio:
Observando el grafico de barras y la distribución de frecuencias

interprete los resultados.
Ejemplo EDSA 2016

En SPSS
Ir a Transformar / Agrupación visual /Crear puntos de corte,
Luego calcular:
Posición del primer punto de corte = Amplitud del Intervalo más

Valor Mínimo
C=Re / k = 40
Número de puntos de corte = k-1 (6-1=5)
Número de intervalos deseados menos 1
La anchura se calcula automáticamente
Luego crear etiquetas y poner nombre

Luego obtener la distribución de frecuencias
Ir a Analizar/ Estadisticos Descriptivos /Frecuencias
Seleccionar la variable creada y presionar aceptar
Resultado SPSS
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos <= 150,00 4 10,0 10,0 10,0
151,00 - 190,00 5 12,5 12,5 22,5
191,00 - 230,00 10 25,0 25,0 47,5
231,00 - 270,00 16 40,0 40,0 87,5
271,00 - 310,00 3 7,5 7,5 95,0
311,00+ 2 5,0 5,0 100,0
Total 40 100,0 100,0
Note que con el cálculo manual hay una pequeña diferencia,

debido a los límites usados.
También puede generarse automáticamente los puntos de

corte, usando percentiles, por ejemplo agrupando en cada
20%, se tendría 4 puntos de corte:

Después de presionar aplicar, se debe incluir crear etiquetas y

poner nombre a la nueva variable
Histograma
Puede ser definido como un gráfico de barras, en el cual en el

centro lleva la marca de clase en el eje de las Abscisas (X) y en
su longitud se tiene el intervalo de clase y los rectángulos
alcanzan la altura de las frecuencias.
En SPSS se debe ir a:
Analizar / Estadísticos Descriptivos / Frecuencias / Gráficos /

Histogramas / Marcar Mostrar curva normal

Como el grafico no permite visualizar valores, es necesario usar

la opción grafico de barras y marcar como valores del gráfico:
frecuencias
Distribución de Frecuencias por Conveniencia
El investigador, puede querer exponer los datos de acuerdo a

algún criterio técnico, por ejemplo agrupar las edades, de

acuerdo a los grupos etareos en salud, para ello, de forma

manual se debe agrupar los datos.
Transformar / Recodificar en distinta variable / Valores Antiguos

Nuevos
Por ejemplo se puede recodificar la edad, a efectos de que

responda al interés de salubrista, en la cual le interese la
población menor a la de 5 años.
De 0 a 5 años, con el valor 1 (opción de rango)

Antes de finalizar se apunta el nombre de la variable, se

presiona cambiar y aceptar
Esto genera una nueva variable “AgrupSalud”, a la cual se le

debe asignar valores.

Y finalmente, se obtiene las frecuencias analizadas
AgrupSAlud
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Menores de 5 años 5 7,7 7,7 7,7
Niños de 6 a 14 4 6,2 6,2 13,8
Adolescentes de 15 a 20 3 4,6 4,6 18,5
Resto 53 81,5 81,5 100,0
Total 65 100,0 100,0

TEMA:
MEDIDAS DE TENDENCIA CENTRAL
Media Aritmética
Permite resumir un conjunto de datos de manera que estos

queden representados por un valor que resulta ser el promedio
de estos.
La Media para una muestra estaría dada por:

n
x i
x1  x 2  .... x n
x 1

n n
La Media para la Población:

n
x i
x1  x 2  .... x n
x 1

N N
En el caso de datos agrupados se debe multiplicar fi

n
x f i i
x1 f1  x 2 f 2  .... x n f n
x 1

n n

x f i i
x1 f1  x 2 f 2  .... x n f n
x 1

N N
Media Aritmética Ponderada
Si bien la media puede representar al conjunto de datos, a veces

puede estar afectada por la varianza de los mismos o por valores
extremos, por lo que se debe probar su representatividad a partir
del Coeficiente de Variación.
Propiedades de la Media Aritmética
a) La suma de los desvíos de la variable respecto a la media

es igual acero.
b) La media de una constante es igual a la misma constante.
c) Si los valores de una variable se suman (o restan) a una
constante K, la Media Aritmética es igual a la constante
sumada (o restada) por la media.
d) La media de una variable multiplicada por una constante
es igual a la constante por la media antes de ser
multiplicada.
e) La media aritmética de la suma o resta de dos variables es
igual a la suma o resta de las medias de cada una de las
variables.
Ej.

Mediana. Divide a los datos ordenados en dos, en caso de

muestra para, se saca el promedio de los datos
En un conjunto de datos ordenados se calcula así
Me=(N+1)/2
El resultado es la posición, primer dato, segundo dato, tercer

dato, etc.
1, 3, 9, 14, 16, 15, 50
Me=8/2=4, es el cuarto dato
Si los datos son impares el resultado es la media entre dos datos
1, 3, 9, 14, 16, 15
Me=7/2=3,5 esta entre el tercer y el cuarto dato
La moda es el valor que más se repite
En una distribución simétrica se cumple que:

la Media = Mediana = moda
En la asimétrica sesgada a la derecha la media > mediana >

moda
En la asimétrica sesgada a la izquierda la media <mediana <

moda
Ejercicio. Calcule la media mediana y moda para los siguientes

datos que corresponden a la edad de un grupo de estudiantes:
Ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Xi 18 19 21 22 23 23 24 20 18 18 21 22 22 23 23 24 20 19 19 21 22 22 23 23 24 19 19 23 23 18
La media armónica, geométrica, cuadrática
La media armónica, su virtud radica en que limita la influencia de

los valores extremos.
La media geométrica, se utiliza para para el cálculo de tasas.

Tiene limitaciones, no es posible aplicar cuando una variable es
0, ni cuando existen negativos

La media cuadrática, da relevancia a los datos más grandes.
x 2
i
C 1
N
C>X>G>H
Ejercicio. Analice y reproduzca los ejercicios propuestos en las

páginas 290 a la 296 del libro de Manual de Investigación en
Salud de Galvez y colaboradores (2012)
Ejercicio. A partir de la siguiente tabla de gastos que corresponde

a Gastos mensual en medicamentos de un grupo familias
demuestre que: C>X>G>H
320 158 198 183 210 263 270 197 234 200
175 205 259 261 150 350 199 251 218 240
258 268 230 231 300 240 211 269 190 279
110 120 238 206 260 115 160 288 253 261
Ejercicio. Analice como cambian los resultados si, le informan que
por error de typeo el primer dato de gasto en salud (320) es 3200.
3.200 158 198 183 210 263 270 197 234 200 258 268 230 231 300 240 211 269 190 279
175 205 259 261 150 350 199 251 218 240 110 120 238 206 260 115 160 288 253 261

TEMA:
MEDIDAS DE LOCALIZACIÓN
Fractiles o cuantilas
Dividen a los datos en partes iguales a partir de puntos de corte,

son de gran ayuda el análisis de las variables.
Cuartiles
Dividen los datos en cuatro partes iguales
Ejercicio. Con los datos correspondientes a la variable edad, del

ejercicio anterior, calcule los cuartiles.
Ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Xi 18 19 21 22 23 23 24 20 18 18 21 22 22 23 23 24 20 19 19 21 22 22 23 23 24 19 19 23 23 18
1° Si los cuartiles separan la muestra en cuatro partes iguales, a

manera intuitiva es posible organizar los datos de menor a mayor.
Ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Xi 18 18 18 18 19 19 19 19 19 20 20 21 21 21 22 22 22 22 22 23 23 23 23 23 23 23 23 24 24 24
2° Calculamos el número de datos necesarios en cada cuartil:

30/4 =7,5
3° Identificamos que valores se encuentran en los puntos 7.5, 15,

22,5 estos corresponderán a aquellos valores de la variable edad,
que representan puntos de corte para dividir la muestra o

población en 4 partes iguales., como los valores de la variable
son discretos, se redondea el valor 7,5 a 8 y se considera la
posición 8 para que pertenezca al primer cuartil, 15 el segundo y
23 el tercero.
Ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Xi 18 18 18 18 19 19 19 19 19 20 20 21 21 21 22 22 22 22 22 23 23 23 23 23 23 23 23 24 24 24
En los puntos de corte se hallan los valores: 19, 22 y 23.
4° Contamos la cantidad de datos que existen hasta cada punto

de corte, la cual debería ser simétrica si es que no habría valores
Ejercicio. Con los datos correspondientes a Gastos mensual en

medicamentos, organice los datos en cuartiles y deciles y
localice el percentil 36 y 54. Asimismo interprete los resultados.
Ej.
En SPSS
Analizar / Estadísticos Descriptivos / Frecuencias /Estadisticos
- Cuartiles
Statistics
VAR00001
N Valid 40
Missing 0
Percentiles 25 197,2500
50 232,5000
75 261,0000

VAR00001
Cumulative
Frequency Percent Valid Percent Percent
Valid 110,00 1 2,5 2,5 2,5
115,00 1 2,5 2,5 5,0
120,00 1 2,5 2,5 7,5
150,00 1 2,5 2,5 10,0
158,00 1 2,5 2,5 12,5
160,00 1 2,5 2,5 15,0
175,00 1 2,5 2,5 17,5
183,00 1 2,5 2,5 20,0
190,00 1 2,5 2,5 22,5
197,00 1 2,5 2,5 25,0
198,00 1 2,5 2,5 27,5
199,00 1 2,5 2,5 30,0
200,00 1 2,5 2,5 32,5
205,00 1 2,5 2,5 35,0
206,009 1 2,5 2,5 37,5
210,00 1 2,5 2,5 40,0
211,00 1 2,5 2,5 42,5
218,00 1 2,5 2,5 45,0
230,00 1 2,5 2,5 47,5
231,00 1 2,5 2,5 50,0
234,00 1 2,5 2,5 52,5
238,0010 1 2,5 2,5 55,0
240,00 2 5,0 5,0 60,0
251,00 1 2,5 2,5 62,5
253,00 1 2,5 2,5 65,0
258,00 1 2,5 2,5 67,5
259,00 1 2,5 2,5 70,0
260,00 1 2,5 2,5 72,5
261,00 2 5,0 5,0 77,5
263,00 1 2,5 2,5 80,0
268,00 1 2,5 2,5 82,5

269,00 1 2,5 2,5 85,0
270,00 1 2,5 2,5 87,5

279,00 1 2,5 2,5 90,0
288,00 1 2,5 2,5 92,5
300,00 1 2,5 2,5 95,0
320,00 1 2,5 2,5 97,5
350,00 1 2,5 2,5 100,0
Total 40 100,0 100,0
Deciles
En SPSS
- Deciles
Dividen los datos en diez partes iguales
Statistics
VAR00001
N Valid 40
Missing 0
20 184,4000
25 197,2500
30 199,3000
40 210,4000
50 232,5000
60 246,6000
70 259,7000
75 261,0000
80 267,0000
90 287,1000
Centiles, dividen los valores en cien partes iguales.
9
Entre 206 y 238 existesn 8 datos que corresponde al 18%, ver percentiles
10
Entre 206 y 238 existesn 8 datos que corresponde al 18%, ver percentiles
En SPSS
- Percentiles
o Añadir
o
Statistics
VAR00001
N Valid 40
Missing 0
54 238,2800
En este ejemplo además se observa que entre los valores 205.76 y 238,28 se encuentra un
18% de los datos (54% - 36%)

VAR00001
Cumulative
Frequency Percent Valid Percent Percent
Valid 110,00 1 2,5 2,5 2,5
115,00 1 2,5 2,5 5,0
120,00 1 2,5 2,5 7,5
150,00 1 2,5 2,5 10,0
158,00 1 2,5 2,5 12,5
160,00 1 2,5 2,5 15,0
175,00 1 2,5 2,5 17,5
183,00 1 2,5 2,5 20,0
190,00 1 2,5 2,5 22,5
197,00 1 2,5 2,5 25,0
198,00 1 2,5 2,5 27,5
199,00 1 2,5 2,5 30,0
200,00 1 2,5 2,5 32,5
205,00 1 2,5 2,5 35,0
206,0011 1 2,5 2,5 37,5
210,00 1 2,5 2,5 40,0
211,00 1 2,5 2,5 42,5
218,00 1 2,5 2,5 45,0
230,00 1 2,5 2,5 47,5
231,00 1 2,5 2,5 50,0
234,00 1 2,5 2,5 52,5
238,0012 1 2,5 2,5 55,0
240,00 2 5,0 5,0 60,0
251,00 1 2,5 2,5 62,5
253,00 1 2,5 2,5 65,0
258,00 1 2,5 2,5 67,5
259,00 1 2,5 2,5 70,0
260,00 1 2,5 2,5 72,5
261,00 2 5,0 5,0 77,5
263,00 1 2,5 2,5 80,0
268,00 1 2,5 2,5 82,5

269,00 1 2,5 2,5 85,0
270,00 1 2,5 2,5 87,5

279,00 1 2,5 2,5 90,0
288,00 1 2,5 2,5 92,5
300,00 1 2,5 2,5 95,0
320,00 1 2,5 2,5 97,5
350,00 1 2,5 2,5 100,0
Total 40 100,0 100,0
Ejemplo:
Excluir a los niños con desnutrición severa y normal o sobrepeso

y trabajar con los niños con desnutrición moderada o leve.
Excluir a las personas de altos ingresos y trabajar con las de

ingresos medios o bajos.
11
Entre 206 y 238 existen 8 datos que corresponde al 18%, ver percentiles
12
Entre 206 y 238 existen 8 datos que corresponde al 18%, ver percentiles
TEMA:
MEDIDAS DE DISPERSIÓN
- Es importante saber que tan dispersos son los datos

- Las medidas de tendencia central, muchas veces no
reflejan la realidad, pues existe valores muy por arriba o por
abajo (valores extremos que en la literatura anglosajona se
llaman outliers).
- Permiten establecer el grado de representatividad que
tienen las medidas de ubicación, principalmente la media
aritmética
Elaboración: En base a Raúl López, Wikipedia.

Ej. Calcular la media: Edad de adictos a los videojuegos
18, 7, 12, 15, 90
Rango o recorrido
R = Valor Mayor – Valor Menor
Rango medio del 50% o rango intercuatilico
RM=Q3-Q1
RM=C75-C25
(Dejar a cada extremo el 25%)
Ejercicios. Usando los datos del ejemplo de Gasto en Salud,

calcule el Rango Medio.
RM=261-197.25=63.75
Rango Medio del 80%
RM(80%)=C90-C10
Como será el rango medio del 90%
RM(80%)=C95-C5

Desviación Media
Donde:
DM : Desviación media
Xi : valores de la variable X
X : media aritmética
n : tamaño de la muestra
En el caso de la muestra el denominador N debe ser

reemplazado por: n-1
Desviación Típica o Desviación Estándar
Es la más importante medida de dispersión
Se simboliza con S ó con σ
También simplemente ds

En el caso de la muestra el denominador N debe ser

reemplazado por: n-1, en el caso de una muestrra
En Excel se puede utilizar la opción =+DESVEST.P(Rango de

celdas) o =+DESVEST.M(Rango de celdas), dependiendo si se va
a calcular la desviación estándar de una muestra o una
población.
Ejemplo
Varianza
Es el cuadrado de la desviación típica y es considerada una de

las más importantes medidas de dispersión, se simboliza con S2 o
con σ2

Para una muestra:
 x  x
2
2

i
s
n 1
Para una población:
 x  x 
2
s 2
 i
Ejercicio. Con la información de las edades del grupo de

estudiantes calcule de forma manual: La Media, la desviación
media, la varianza y la desviación estándar
Ejercicio. Calcule, la media, desviación media, varianza y

desviación estándar de los siguientes datos que corresponden al
promedio de notas de defensa de tesis del último mes:
Siguiente las formulas planteadas, se puede obtener los siguientes

resultados.
(Xi-
Xi Xi - Media /Xi-Media/ Media)^2
90 1.5 1.5 2.25
80 -8.5 8.5 72.25
95 6.5 6.5 42.25
100 11.5 11.5 132.25
85 -3.5 3.5 12.25
89 0.5 0.5 0.25
71 -17.5 17.5 306.25
98 9.5 9.5 90.25
Total 708 0 59 658

Si se considera que las medidas de dispersión tienen como base

el promedio, es posible obtener los promedios de cada uno de
los totales.
(Xi-
Xi Xi - Media /Xi-Media/ Media)^2
Promedio Simple para

la Población (N) 88.5 0 7.375 82.25
Con estos resultados obtenemos lo solicitado:

N 8
Media 88.5
Desviacion Media 7.375
Varianza 82.25
Desv. Est. 9.0692
Note que los resultados asumen que los datos son poblacionales,
en caso de datos muestrales el denominador deber ser n – 1
Si se realiza el cálculo en el SPSS, obtiene que:

N Válidos 8
Perdidos 0
Media 88.5000
Mediana 89.5000
Moda 71.00
Desv. típ. 9.69536
Varianza 94.000
Suma 708.00
Estadística en Excel
El programa Excel, tiene la opción de procesar datos y obtener

algunas estadísticas básicas, por ejemplo se puede seleccionar
las celdas en la que se encuentre los datos de notas, e ir a la
opción Datos / Análisis de Datos y seleccionar la opción

Estadística Descriptiva, con lo cual se generara un resumen de
estadísticos descriptivos. Los resultados se muestran a
continuación:
Media 88.5
Error típico 3.4278273
Mediana 89.5
Moda #N/A
Desviación estándar 9.695359715
Varianza de la muestra 94
Curtosis 0.011770032
Coeficiente de asimetría -0.702244253
Rango 29
Mínimo 71
Máximo 100
Suma 708
Cuenta 8
Ejercicio. Con la información del Gasto Mensual en

Medicamentos calcule utilizando el SPSS: La Media, la desviación
media, la varianza y la desviación estándar
Usando los datos del ejemplo tenemos

En SPSS
Analizar/Estadisticos Descriptivos / Frecuencias
- Estadisticos
o Marcar todas las opciones de la Dispersión

Statistics
VAR00001
N Valid 40
Missing 0
Mean 225,7000
Std. Error of Mean 8,50718
Median 232,5000
Mode 240,00a
Std. Deviation 53,80411
Variance 2894,882
Range 240,00
Minimum 110,00
Maximum 350,00
a. Multiple modes exist. The smallest value

is shown
El error típico o el error estándar de la media
Corresponde a variaciones inevitables (Wikipedia, 2019). El error

estándar de la media es la desviación estándar de la muestra
estimación-medio de una población media. (También puede
verse como la desviación estándar del error en la media de la
muestra con respecto a la media verdadera, ya que la media de
la muestra es un estimador.) ESM se estima generalmente por la
estimación de la muestra de la población y está dado por:
Error Standard de la Media (ESM) = S / √ N
Coeficiente de Variación
Las medidas de dispersión sirven para un solo conjunto de datos,

o para conjuntos de datos que tengan las mismas unidades de
medida (edad, talla, peso, distancia interpupilar, etc) y los
tamaños poblaciones sean iguales, pero no permite comparar la
dispersión entre dos unidades de medida diferentes.

Por ejemplo, considere una varianza de 3 para la variable edad

medida en años, y 5 para el peso en kilogramas, ambas unidades
son diferentes, por lo que no es posible comparar cual de las dos
tiene mayor varianza.
A efectos de corregir lo señalado, se propone una usar una

medida de dispersión relativa, como la del coeficiente
variación13 (Desviación Estándar sobre la media), que permita
comparar las desviaciones en términos relativos.
S
CV 
x
Ejercicio. Averigüe en internet que valores son admisibles en el

coeficiente de variación para aceptar que una media refleja
aceptablemente el promedio de los datos.
La media es representativa de la población si el CV es menor a

20%, asimismo es posible interpretar la representatividad del CV
considerando lo siguiente:
Hasta 10% la representatividad es buena
De 11 a 20% es aceptable
Mayor a 20% es no confiable
Ej. Analice los siguientes resultados e interprete la nota al pie del

cuadro relacionada con el CV.
13
El resultado puede ser multiplicado por 100 a objeto de que este expresado en porcentaje

TEMA:
LA DISTRIBUCION NORMAL
Después de analizar varios hechos de la naturaleza, el

matemático Gauss propuso que el polígono de frecuencias de
muchos de estos hechos (por Ej. Peso, Talla) siguen una
distribución similar a una campana, asimismo y considerando que
todos los hechos tenían diferentes unidades de medida propuso
estandarizar la misma en puntuaciones normales (puntuaciones
z), lo cual facilitaría la comparación de los diferentes hechos y
variables.
Ejercicio. Estudie las propiedades de la curva normal del

documento de Villa y colaboradores (2012), correspondiente a
las páginas 222 – 225.
La desviación estándar y lo cantidad de datos alrededor de la

media en una distribución normal.
Fuente: Wikipedia

Nota. La desviación estándar esta simbolizada por σ y la media µ
En una distribución normal:
a) El 68.3 % de los casos están entre la media y más o menos una

desviación estándar, es decir, una desviación a cada lado de la
media.
b) El 95.45% de los casos están entre la media y más o menos dos

desviaciones estándar, es decir dos S a cada lado de la media.
c) El 99.73% de los casos esta entre la media y más o menos tres

desviaciones estándar, es decir, tres S a cada lado de la media.
Ejercicio. Verificar aseveraciones: sumando los valores presentes

en el grafico anterior
Sesgo o Asimetría (Skewness)
Se utiliza para medir el tipo de desplazamiento horizontal que

tiene la distribución de datos a partir de la posición simetrica
Si el Coeficiente de Asimetria es < 0, los datos están sesgado a la

izquierda, es decir tienen asimetría negativa, las desviaciones a la
media son mayores para los valores inferiores a la media. Ej. El
peso de una persona adulta (30 Kg) se ubicara al lado izquierda
de la media y sesgara los resultados de la media, pues un valor
extremo muy bajo.
Si el Coeficiente de Asimetria es = 0 los datos tienen una

distribuidos simetrica, es decir no tienen asimetría
Si el Coeficiente de Asimetria es > 0, los datos están sesgado a la

derecha, es decir, tienen asimetría positiva, las desviaciones a la
media son mayores para los valores superiores a la media. Ej. Una

persona que viva 120 años (valor superior a la media) sesgara la

media de la edad de un grupo de sujetos.
Fuente del Gráfico: http://www.uam.es/personal_pdi/psicologia/carmenx/EsquemaTema7.pdf
Curtosis
El coeficiente de curtosis es una medida de la concentración de

la distribución en torno a la media.
Si la variable sigue una distribución Normal, su valor será igual a

cero.
Si el Coeficiente de Curtosis es < 0, la distribución tiende a

dispersarse en torno a la media, más que una distribución normal.
Si el Coeficiente de Curtosis es = 0, sigue una distribución normal.
Si el Coeficiente de Curtosis es > 0, la distribución tiende a

concentrarse en torno a la media, más que una distribución
normal.
Fuente del Gráfico: http://www.uam.es/personal_pdi/psicologia/carmenx/EsquemaTema7.pdf


En SPSS
Analizar / Estadísticos Descriptivos / Descriptivos
Marcar las casillas: Curtosis y Asimetria
Usar Base Índice cardíaco (l/m2)

Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ. Asimetría Curtosis
Error Error
Estadístic Estadístic Estadístic Estadístic Estadístic Estadístic típic Estadístic típic
o o o o o o o o o
Índice 111 ,73 7,36 2,9356 1,29622 1,067 ,229 1,645 ,455
cardíac
o (l/m2)
N válido 111
(según
lista)

Tipificación de variables z
Es posible convertir los valores que toman un conjunto de datos

en puntuaciones z, para lo cual se pueden ttipificar las variables,
considerando lo siguiente:
xi  x
z
S
La tipificación permitir hallar la equivalencia del dato respecto a

la distribución normal, asimismo después de realizar la tipificación
se puede demostrar que los puntos z hallados, tienen media 0 y
desviación estándar 1, es decir N (0,1)
En SPSS
Transformar/Calcular variable

Con estos valores la media es cero y la desviación típica uno

(0,1)
Estadísticos descriptivos
N Media Desv. típ.
TipificadosIC 111 ,0000 1,00000

N válido (según lista) 111
Graficando el histograma se tiene:

Comparación de valores tipificados (en unidades Z) y valores en

la unidad de medida original.
Si bien los valores de los datos originales son modificados al

convertir los valores a puntos Z, el conjunto de los datos mantiene
el sentido original, por ejemplo, se pude observar que el
histograma de los valores tipificados Z para el Índice Cardiaco y
los valores originales medidos en l/m2, mantienen el sentido
original, al respecto le sugerimos al lector pueda realizar la
comparación de ambos histogramas.

Asumiendo que la distribución de frecuencias siguen una distribución normal, es posible es posible
estimar la cantidad de datos (en porcentaje), que se encuentran sobre la curva normal, a partir de
las puntuaciones Z, esto por ejemplo puede ser útil, al leer un artículo académico en el que se tienen
datos de la media y la desviación estándar y se sabe que la distribución es normal, pero no se tiene
mayor información.
Por ejemplo, asumiendo que Ud., no tiene acceso a la base de datos del estudio anterior y solo
conoce los resultados del mismo: media 2,9356 l/m2 y desviación estándar 1,29622 y sabe que los
valores normales del índice cardiaco están entre 2,6 l/m2 y 3,4 l/m2, , calcule que porcentaje de
sujetos investigados se encuentra por encima de 3,4 l/m2.
Primero se debe convertir el valor esperado en puntos Z.
3,4  2,9356
z  0,35827
1,29622
Este valor debe ser buscado en las tablas de distribución normal (en la columna puntuaciones Z).

Redondeando el punto buscado seria 0,36; el cual tiene tres opciones de área buscada, la que nos
interesa es la que corresponde a la columna B, la cual indica el área que se encuentra entre el punto
Z y los valores superiores a este punto es decir 0,3632 (36,32%) de los sujetos tienes valores
superiores a 3,4 l/m2.
A efectos de verificar lo señalado, se puede consultar la base y contar la cantidad de sujetos que se
encuentran por encima de este valor de 3,4 l/m2, y verificar si este porcentaje coincide, Realizando
el conteo se tiene que 33 sujetos se encuentran por encima de este dato, ordenando los datos se
tiene los siguientes:
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
IC 3,42 3,52 3,53 3,54 3,66 3,67 3,7 3,73 3,8 3,81 3,82 3,88 3,9 3,94 3,97 4

n 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
IC 4,01 4,01 4,08 4,11 4,35 4,37 4,52 4,54 4,58 4,82 5,23 5,84 5,9 6,26 6,77 7,01 7,36
Lo cual representa un 30% de la muestra (33 / 111), valor que se aleja de lo calculado, lo que verifica
que la distribución tiene asimetría positiva y nos hace presumir que la variable analizada no sigue
una distribución normal (esto se podrá verificar más adelante).
Ejercicio de Transformación de variables: Considerando que la transformación de variables es

recurrente y útil, a continuación se presenta un ejercicio de transformación de variables, en la cual
se pide que a partir de los datos de peso y talla se calcule el Índice de masa corporal:
Peso (Kg) 78 66 68 57 58 63 53 65 60 60 60 70 110 68 64

Talla (m) 1,73 1,68 1,56 1,6 1,52 1,62 1,52 1,59 1,65 1,55 1,65 1,65 1,75 1,54 1,58
Realizada la transformación, y reclasificando las variables se tiene los siguientes resultados:

TEMA:
INFERENCIA ESTADISTICA Y PRUEBAS DE HIPOTESIS
La inferencia estadística permite obtener resultados sobre la

población o universo a partir de una muestra, para que esto
suceda, la muestra debe cumplir varias características para que
sea representativa de la población, entre estas se destaca que el
tamaño muestral debe ser lo suficientemente grande para
garantizar la representatividad, asimismo el error muestral debe
ser menor a 5%, asimismo la selección de sujetos de la muestra
debe ser realizada de forma aleatoria, asegurando que todos
ellos tengan la misma probabilidad de ser elegidos.
Cuando se cumplen los requisitos señalados previamente es

posible realizar inferencias sobre la población, por ejemplo: si se
desea conocer la prevalencia de la Violencia Intrafamiliar en una
determinada población (Ej. Ciudad de La Paz), a partir de una
muestra de familias es posible inferir la misma sobre el universo.
Para realizar estas inferencias, se hace necesario estimaciones

puntuales o también denominadas de intervalos y pruebas de
hipótesis.
El intervalo de confianza14
Un procedimiento de la estadística inferencial es el intervalo

donde se localiza un parámetro. Por ejemplo, en lugar de
pretender probar una hipótesis acerca de la media población,
puede buscarse un intervalo donde se ubique dicha media.
14
En base a Hernandez Sampiere et al.
Lo anterior requiere un nivel de confianza, la cual corresponde a

la probabilidad definida de que un parámetro se va a ubicar en
un determinado intervalo.
Los niveles de confianza más comunes en la investigación son

0.95 y 0.99. Su sentido es similar al ya comentado, si es de 0.95;
quiere decir que tenemos 95% en favor de que el parámetro se
localice en el intervalo estimado, contra 5% de elegir un intervalo
equivocado. El nivel de 0.99 señala 99% de probabilidad de
seleccionar el intervalo adecuado. Tales niveles de confianza se
expresan en unidades de desviación estándar. Una vez más se
acude a la distribución muestral, concretamente a la tabla de
áreas bajo la curva normal y se elige la puntuación z
correspondiente al nivel de confianza seleccionado. Una vez
hecho esto, se aplica la siguiente formula:
Donde: S es la desviación estandard de una muestra y el Error

Estándar de la Media (Error Tipico) es = S / √ n
En términos sencillos seria:
Para el Límite Inferior del Intervalo: (Estimador menos

coeficiente de confiabilidad por error estándar)
Para el Límite Superior del Intervalo: (Estimador más coeficiente

de confiabilidad por error estándar)

En la formula, el estadígrafo es la estadística calculada en la

muestra, la puntuación z es 1.96 con un nivel de 0.95 y de 2.58 con
un nivel de 0.99, en tanto que el error estándar depende del
estadígrafo en cuestión.
Ejemplo: Considere los siguientes datos que hacen referencia al

tiempo de espera de resultados de laboratorio en el Seguro Local
de Salud.
Media=2,8 horas
Error Estandar de la Media= 0,2345
(Desviación estándar de la distribución Muestral de la media).
Con los mismos calcule el intervalo de confianza, considerando

como nivel de confianza 95%:
Nivel de confianza = 0,95 (z= 1,96 en tablas)

Intervalo de confianza = 2,8 + (1.96) (0,2345)
= 2,8 + (0,2345)
Intervalo de confianza: la media poblacional esta entre 2,34

(límite inferior) y 3,26 (límite superior) horas de espera de
resultados de laboratorio, con 95% de probabilidades de no
cometer error, es decir si de la población tomaríamos 100
muestras aleatorias, 95 muestras contendrían el verdadero
parámetro poblacional.

En SPSS: Analizar/Estadísticos Descriptivos / Explorar
Utilice el archivo del EDSA: EDSA16_MUJER_ANTECEDENTES.sav, a

partir del mismo (no olvide ponderar las variables y considerar
mujeres mayores a 14 años), elabore el intervalo de confianza
para la variable edad
Resumen del procesamiento de los casos
Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
¿Cuántos años cumplidos 11847 100,0% 0 ,0% 11847 100,0%

tiene usted?

Descriptivos
Estadístico Error típ.
¿Cuántos años cumplidos Media 29,80 ,091

tiene usted? Intervalo de confianza para Límite inferior 29,62
la media al 95% Límite superior 29,98
Media recortada al 5% 29,61
Mediana 29,00
Varianza 97,350
Desv. típ. 9,867
Mínimo 15
Máximo 49
Rango 34
Amplitud intercuartil 17
Asimetría ,220 ,023
Curtosis -1,106 ,045
Con un 95% de confianza se puede afirmar que el promedio de

edad de las mujeres entrevistadas entre mayores a 14 años, se
encuentra entre 29,62 y 29,98 años.
Ejercicio
Con los resultados hallados verifique el cálculo de los límites de

confianza

Realice similar ejercicio con la variable hemoglobina

Descriptives
Statistic Std. Error
Hemoglobina inicial, (gr/100 Mean 14,9954 ,06402

ml) 95% Confidence Interval for Lower Bound 14,8677
Mean Upper Bound 15,1231
5% Trimmed Mean 14,9891
Median 15,0217
Variance ,287
Std. Deviation ,53566
Minimum 13,41
Maximum 16,50
Range 3,08
Interquartile Range ,64
Skewness ,146 ,287
Kurtosis 1,122 ,566

Realice similar ejercicio con la variable Índice Cardiaco
Descriptivos
Estadístico Error típ.
Índice cardíaco (l/m2) Media 2,9356 ,12303
Intervalo de confianza para Límite inferior 2,6918

la media al 95% Límite superior 3,1794
Media recortada al 5% 2,8376
Mediana 2,6983
Varianza 1,680
Desv. típ. 1,29622
Mínimo ,73
Máximo 7,36
Rango 6,63
Amplitud intercuartil 1,59
Asimetría 1,067 ,229
Curtosis 1,645 ,455


La prueba de Hipótesis15
Como se mencionó previamente, otra manera alternativa a los

intervalos de confianza de estimar el parámetro verdadero es a
través la prueba de hipótesis.
Al respecto cabe recordar que una hipótesis, es una a respuesta

tentativa a la pregunta de investigación, la cual está planteada
en forma de proposición, y se apoya en el conocimiento
aportado por el marco teórico o conceptual.
Las investigaciones plantean hipótesis de investigación, las

cuales se traducen en términos matemáticos y estas hipótesis
ajustadas se denominan estadísticas, las cuales corresponden a
proposiciones sobre los parámetros poblacionales.
Las HIPÓTESIS DE INVESTIGACIÓN (Hi), a su vez, pueden ser

Descriptivas, Correlaciónales o Explicativas.
HIPÓTESIS DESCRIPTIVAS.-
Esta hipótesis es usada para ESTIMAR o describir las

características de una variable.
Ejemplo:
PREGUNTA DE INVESTIGACION:
¿Cuál es el promedio de hijos/as que tienen las mujeres del municipio
de Esperanza?
HIPOTESIS CORRELACIONALES.-
Expresan una relación entre dos variables, estas relaciones pueden ser
inversas o directas.
15
En base a Hernandez Sampieri et. al.
Ejemplo:
Hi: “La pobreza está relacionada con los niveles de educación que
alcanzan las personas”.
Si bien esta Hi plantea la relación, no menciona cual es el sentido de

la misma en términos de causalidad, es decir no menciona si la
pobreza afecta a los niveles de educación o los niveles de educación
a la pobreza.
Ejemplo:
Hi: “El inicio de las relaciones sexuales es más temprano en aquellos

municipios con menor grado de escolaridad”
De similar manera, esta hipótesis solo se concentra en medir la

correlación entre dos variables.
HIPÓTESIS DE DIFERENCIA DE GRUPOS.-
Son parte de las hipótesis de investigación correlaciónales, y estas

formulan proposiciones sobre la diferencia o igualdad que pueden
tener dos grupos respecto una variable.
Ejemplo:
Grupo A: Municipio A que participó del programa de desnutrición
Grupo B: Municipio A que no participó del programa de desnutrición
Hi “Los niños del municipio A tienen menores niveles de desnutrición

que los niños del municipio B”.
HIPÓTESIS DE CAUSALIDAD O EXPLICATIVAS.-
Son las hipótesis que tratan de explicar una CAUSA Y UN EFECTO, no

solo se preocupan en las relaciones; también proponen un sentido
de entendimiento.
Ejemplo:
Hi: “A mayor pobreza, mayor tasa de mortalidad infantil”.
La negación de la hipótesis de investigación se denomina

Hipótesis Nula y se representa por Ho y la alternativa a esta

proposición se conoce como Hipótesis Alterna y esta denotada

por Ha o H1.
Las investigaciones pretenden por lo general rechazar la Hipótesis

Nula, siempre y cuando exista el suficiente poder estadístico.
Considerando que es posible probar diferentes tipos de hipótesis
de diferentes tipos de variables, es necesario seleccionar la
prueba adecuada, para lo cual existen dos tipos de análisis
estadísticos que pueden realizarse para probar las hipótesis: los
análisis paramétricos y los no paramétricos.
El análisis estadístico puede ser

Paramétrico No paramétrico
-La distribución de la variable -No requieren presupuestos
dependiente es normal: el acerca de la forma de la
universo tiene una distribución distribución poblacional, es
normal. decir se acepta distribuciones
- El nivel de medición de la no normales.
variable dependiente es -Las variables no
continua necesariamente tiene que
- Cuando dos o más estar medidas en un nivel por
poblaciones son estudiadas, se intervalos o de razón (si se
tiene una varianza quiere estos se resumen a unas
homogénea, es decir las cuantas categorías discretas);
poblaciones en cuestión se puede analizar datos
poseen una dispersión similar nominales u ordinales. Las
en sus distribuciones. variables deben ser
categóricas.
Si se cumple las condiciones las pruebas paramétricas, estas

tienen más potencia que las no paramétricas.
Cada tipo posee sus características y presuposiciones que lo

sustentan; la elección de qué clase de análisis efectuar depende

de estas presuposiciones. De igual forma, cabe destacar que en

una misma investigación es posible llevar a cabo análisis
paramétricos para algunas hipótesis y variables y análisis no
paramétricos para otras. Asimismo, los análisis a realizar
dependen de las hipótesis que hayamos formulado y el nivel de
medición de las variables que las conforman.
Entre las pruebas que se puedan realizar y que están disponibles

en la mayoría de los paquetes estadísticos se encuentran las
siguientes:
Tipo de test estadístico para hacer inferencias (comparaciones entre muestras).

DISTRIBUCION VARIABLE VARIABLE RELACIÓN ENTRE
INDEPENDIENTE DEPENDIENTE LAS MUESTRAS PRUEBA ESTADÍSTICA
(PREDICTORA) (RESULTADO)
Normal Una sola muestra Cuantitativa t-student para una muestra
(Paramétricos) (se compara con
valor teórico)
Dicotómica Categórica No relacionadas No existe (usar Chi-cuadrado de

Pearson)
Relacionadas No existe (usar no paramétricos)
Cuantitativa No relacionadas t-student muestras independientes
Relacionadas t-student muestras relacionadas
Policotómica Categórica No relacionadas No existe (usar Chi-cuadrado de

Pearson)
Cuantitativa No relacionadas ANOVA de una vía
Relacionadas ANOVA de medidas repetidas

No normal Una sola muestra Binomial
(No paramétricos) (se compara con Chi-cuadrado de Pearson
valor teórico) Chi-cuadrado de Mantel-Haenzsel
Prueba de Kolmogorow-Smirnov
Prueba de las Rachas
Dicotómica Categórica Relacionadas Test exacto de McNemar

Prueba de los Signos
No relacionadas Chi-cuadrado de Pearson
Test exacto de Fisher
Test de Wilcoxon
Prueba de los signos
Cuantitativa Relacionadas Mann-Whitney

Mediana
No relacionadas Z Kolmogorov-Smirnov
Rachas de Wald-Wolfowitz
Valores extremos de Moses

Policotómica Categórica No relacionadas Prueba Q de Cochran
Cuantitativa Relacionadas Prueba de Friedman

W de Kendall (concordancia)
No relacionadas Prueba de Kruskal-Wallis
Mediana K variables
ANOVA de dos vías por rangos
COVARIACION (medidas de dos variables en los mismos sujetos o unidades de análisis del estudio)
Paramétrico Cuantitativa Cuantitativa Correlación de Pearson
No paramétrico Cuantitativa Cuantitativa Correlación de Spearman
Fuente: www.ugr.es/~rruizb/cognosfera/sala_de_estudio/estadistica/esquematest.doc
Errores al realizar estadística inferencial16
A pesar de trabajar con altos niveles de confianza o seguridad,

nunca se está completamente seguro de la estimación y aunque
el riesgo es mínimo, podría cometerse un error, en razón de los
diferentes posibles resultados:
1. Aceptar una hipótesis verdadera (decisión correcta).

2. Rechazar una hipótesis falsa (decisión correcta).
3. Aceptar una hipótesis falsa (conocido como error del tipo I
o error alfa), son los Falsos Positivos, Ej. Se considera al
paciente enfermo cuando en realidad está sano.
4. Rechazar una hipótesis verdadera (conocido como error
del tipo II o error beta) o denominados también Falsos
Negativos. Ej. Se considera al paciente sano cuando en
realidad está enfermo.
16
Ibid.
Ho verdadera H0 falsa
Aceptar H0 Decisión acertada Comisión de error de

Tipo II (o Error )
(1-  )
Falsos Negativos
Rechazar H0 Comisión de error de Decisión acertada
Tipo I (o Error  )
(Aceptar H1) (1- )
Falsos Positivos
Ambos tipos de error son indeseables; sin embargo, puede

reducirse la posibilidad de que se presenten mediante:
Para alfa (Error Tipo I):

a) Utilizar valores alfa más reducidos (0.01)
b) Repetir el estudio.
c) Disponer de un marco teórico sólido.
d) Inspección cuidadosa de los datos
e) Selección de las pruebas estadísticas apropiadas
Para beta (Error Tipo II):

f) Muestras representativas probabilísticas, incrementar el
tamaño de la muestra (reducir error B)
g) Mayor conocimiento de la población
h) Incrementar el tamaño del efecto a detectar
i) Incrementar alfa
(1-  ), representa el nivel de confianza de la muestra, es decir la

probabilidad a priori de que el Intervalo de Confianza contenga
el verdadero valor del parámetro, que por lo general se ubica en

95% (1,96 en la curva normal, dejando a ambos lados de la cola

2.5% que totalizan 5% de alfa).
(1- ),representa el poder estadístico de la muestra, es decir

la capacidad del estudio para encontrar diferencias si es
estas existen realmente, en estudios epidemiológicos
debe ser 80% (1,28 en la curva normal, dejando a ambos
lados de la cola 10%, que totalizan 20% de beta), por lo
que debe ser considerado este valor al momento de
seleccionar la muestra.
Contrariamente al error tipo I, en la mayoría de los casos no es

posible calcular la probabilidad del error tipo II. La razón de
esto se encuentra en la manera en que se formulan las
hipótesis en una prueba estadística. Mientras que la hipótesis
nula representa siempre una afirmación enérgica (como por
ejemplo Ho : «Promedio μ = 0» la hipótesis alternativa, debido
a que engloba todas las otras posibilidades, es generalmente
de naturaleza global H1 «Promedio μ ≠ 0» )
- Determinación del tamaño muestral

- Estudios para determinar parámetros poblacionales (sólo
error alfa)
Estimación de una proporción
Estimación de una media
- Estudios para contraste de hipótesis (error alfa y beta)
Comparación de dos proporciones
Comparación de dos medias
Correlación entre dos variables cuantitativas
Significancia estadística

Por convencionalidad se busca que las pruebas arrojen un

resultado p (probabilidad de cometer el error  ) menor a 0.05,
si bien el valor p, puede ser obtenido de las tablas, el mismo
puede estar representado en termino de probabilidad y se busca
p<0.05, con lo que se rechaza la Ho

Lo estadísticamente significativo y lo clínicamente relevante
EJEMPLO LEER PAGINA 245 – 247 De Epidemiologia y Estadistica en Salud

Publica

El “valor de p”, debe ser valorado con precaución y teniendo en cuenta el

contexto del estudio, su diseño, las características de la muestra o la población
analizada, de los potenciales sesgos, etc. Y NUNCA como una cifra mágica que
nos seduzca tanto, que nos invite o autorice a tomar decisiones o cambiar
conductas relacionadas con la práctica clínica cotidiana.
Antes de tomar decisiones o cambiar conductas clínicas basadas en un “valor

de p”, se ha de considerar también la VALIDEZ EXTERNA (generalización de los
resultados obtenidos en ese estudio respecto de la población inicial y, si esas
conclusiones pueden ser extrapoladas a nuestros pacientes o nuestra realidad
laboral (que pueden ser distinta a la descrita en el estudio publicado y valorado
por nosotros.
Por todo ello, es más apropiado que hablar de “SIGNIFICACIÓN STADÍSTICA”

es más correcto utilizar el concepto de “RELEVANCIA CLÍNICA”; porque la
relevancia clínica de un fenómeno va más allá de cálculos matemáticos y
depende de…
1. La gravedad del problema,
2. La morbilidad y mortalidad generada por el mismo,
3. La magnitud de la diferencia,
4. La vulnerabilidad,
5. Los costes involucrados, etc

Fuente:
http://www.bbc.com/mundo/noticias/2014/06/140526_falacias_margarina_
divorcio_finde_dv
Consumo Margarina Divorcios
Si existe correlación pero es

Espuria

NEMO TECNICA
Ho: =
Ha: Diferencia
P menor a 0.05 entonces Rho
P mayor a 0.05 entonces AHo

TEMA:
PRUEBAS DE NORMALIDAD
Para efectuar el test correcto (paramétrico o no paramétrico), es necesario saber

si la muestra es o no normal, para ello se pueden realizar alguna de las siguientes
pruebas:
1) Kolmogorov-Smirnov (para muestras mayores a 30)
2) Kolmogorov-Smirnov (Lilliefors) (para muestras mayores a 50)
3) Shapiro-Wilk (para muestra menores a 50)
Kolmogorov-Smirnov
Es recomendable su uso para muestras mayores a 30, el test otorga un menor peso
a las observaciones extremas (outliers), compara los datos observados con la
distribución normal teórica y mide la distancia máxima entre ambas curvas, el test
prueba la siguiente hipótesis
Ho: x = Distribución Normal

H1: x  Distribución Normal
Si p < 0,05 se rechaza Ho (x no procede de una distribución normal) y por lo tanto

no se pueden usar test paramétricos.

Si p > 0,05 se acepta la Ho (x procede de una distribución normal) y por lo tanto se

pueden usar test paramétricos.
Analizar/Pruebas No Parámetricas / Cuadros de Dialogos Antiguos / K-S de 1

Muestra
H0: IC = Distribución Normal
H1: IC  Distribución Normal
Prueba de Kolmogorov-Smirnov para una muestra
Índice cardíaco
(l/m2)
N 111
Parámetros normalesa,b Media 2,9356
Desviación típica 1,29622
Diferencias más extremas Absoluta ,089
Positiva ,089
Negativa -,065
Z de Kolmogorov-Smirnov ,939
Sig. asintót. (bilateral) ,341
a. La distribución de contraste es la Normal.

b. Se han calculado a partir de los datos.
El valor critico es 0.05 (Con este valor comparamos).
Como el valor de probabilidad asociado al estadígrafo es de 0.341, concluimos que la muestra

procede de una distribución normal
Ejemplo
Edad de Mujeres mayores a 14 años, en la encuesta EDSA

Prueba de Kolmogorov-Smirnov para una muestra
¿Cuántos años
cumplidos tiene
usted?
N 11832
Parámetros normalesa,b Media 29,85
Desviación típica 9,854
Diferencias más extremas Absoluta ,083
Positiva ,083
Negativa -,066
Z de Kolmogorov-Smirnov 9,075
a. La distribución de contraste es la Normal.

b. Se han calculado a partir de los datos.
Como el valor P es 0.00 y es menor a 0.05 entonces se rechaza la Ho,

concluyéndose que la variable edad no sigue una distribución normal.
4) Kolmogorov-Smirnov (Lilliefors)
Contrasta la hipótesis de que una muestra (grande n>50) procede de una población
normal.
Esta prueba es una modificación de la prueba de Kolmogorov-Smirnov y contrasta
la normalidad cuando las medias y las varianzas no son conocidas, sino que son
estimadas a partir de los datos.
Cuando las distribuciones no son normales, es necesario tipificarlas por esta

particularidad puede es necesario generar una nueva variable tipificada,
xi  x
ZX 

Para el caso del ejemplo lo llamaremos ZIC
También se puede tipificar el logaritmo de los valores tipificados

Ln ( ZX i )  ZX
LZX 
 ZX
En SPSS se lo da a través de: Analizar/Calcular Variable
En el caso del ejemplo lo llamaremos ZlnIC

Ejemplo SPSS
Crear Variable LN(IC)
Estadísticos
lnIC
N Válidos 111
Perdidos 0
Media ,9815
Mediana ,9926
Moda -,31a
Desv. típ. ,44799
a. Existen varias modas. Se
mostrará el menor de los valores.

Ejemplo en SPSS prueba Índice cardíaco (l/m2)

Analizar \ Estadísticos descriptivos \ Explorar
- Gráficos con pruebas de normalidad (tickear)
Resultados:
Pruebas de normalidad
Kolmogorov-Smirnova Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
ZIC ,089 111 ,030 ,933 111 ,000

ZlnIC ,070 111 ,200* ,985 111 ,231
a. Corrección de la significación de Lilliefors

*. Este es un límite inferior de la significación verdadera.
Siendo que la muestra corresponde a un tamaño de 111 escogemos la prueba

Kolmogorov-Smirnov (Lilliefors)
La prueba a testear es la siguiente
Para ZIC
H0: ZIC = Distribución Normal

H1: ZIC  Distribución Normal
El valor critico es 0.05, como es el estadígrafo asociado al valor de de probabilidad (p) es MENOR
(0.030) se rechaza la hipótesis nula, por lo tanto se concluye que la muestra no procede de una
distribución normal
ZIC Stem-and-Leaf Plot
Frequency Stem & Leaf
2,00 -1 . 66
17,00 -1 . 00001111222222233
15,00 -0 . 555556666888899
29,00 -0 . 00001111111222222233334444444
19,00 0 . 0000112222223333444
16,00 0 . 5556666777788889
6,00 1 . 012224
1,00 1 . 7
2,00 2 . 22
4,00 Extremes (>=2,6)
Stem width: 1,00

Each leaf: 1 case(s)



Para ZlnIC
H0: ZlnIC = Distribución Normal
H1: ZlnIC  Distribución Normal
El valor critico es 0.05, como es el estadígrafo asociado al valor de probabilidad (p) es MAYOR (,200)
se acepta la hipótesis nula, consecuentemente se concluye que la muestra procede de una
Donde esperamos que los valores estén sobre la línea (fundamentalmente en el rango -1,1), para
inferir que la distribución tiende a una normal.
ZlnIC Stem-and-Leaf Plot
Frequency Stem & Leaf
2,00 Extremes (=<-2,7)

7,00 -1 . 5566679
11,00 -1 . 01122334444
8,00 -0 . 55678889
24,00 -0 . 000000011122222223334444
23,00 0 . 00000001111222233444444
23,00 0 . 55556667777777888899999
6,00 1 . 011123
4,00 1 . 5779
3,00 2 . 012
Stem width: 1,00

Each leaf: 1 case(s)


5) Shapiro-Wilk
Prueba de Shapiro-Wilk: Contrasta la hipótesis de que una muestra (pequeña
n<5017) procede de una población normal.
17
Alguna literatura recomienda su aplicación para valores menores a 30.
TEMA:
PRUEBAS PARAMETRICAS: LA t-STUDENT
Una vez que se ha verificado que las muestras provienen de una distribución normal
entonces podemos llevar a cabo pruebas paramétricas, entre ellas una de las
pruebas más utilizadas corresponde a la t-Student18, la cual puede ser aplicada de
acuerdo a lo siguiente:
Tabla: Pruebas t de Student
Prueba t Objetivo
Una muestra Determinar si la diferencia entre la media de una variable y un

determinado valor teórico es estadísticamente significativa.
Dos muestras
relacionadas Determinar si la diferencia entre las medias de dos variables es
(dependientes) estadísticamente significativa.
Dos muestras No
relacionadas Determinar si la diferencia entre las medias de una variable en dos
(independientes) grupos distintos de individuos es estadísticamente significativa.
Fuente: En base a Magdalena Ferrán Aranaz
18
El presente documento no trabaja con docimas de hipótesis que asumen que la varianza
poblacional S2 (también denominada σ2) es conocida, pues en la práctica este hecho es muy difícil,
pues en la generalidad trabajamos con una muestra.

Paramétrica
CUANTITATIVA
2 grupos 3 o mas grupos
Muestra Muestra Muestra Muestra

Independiente Dependiente Independiente Dependiente
T-estudiante t-pareada ANOVA ANOVA
Fuente: Carlos Tamayo
Prueba t para una muestra
Esta prueba permite probar la media muestral contra un valor hipotético, por ejemplo
si la media que estamos utilizando puede ser comparada con la media de un valor
que se conoce a partir de otro estudio.
0
_
Ho: x =
 0
_
H1: x

Recuerde que:
 Sería la media aritmética poblacional que por intervalos de confianza pueda
_
inferirse de la media aritmética muestral o sea x

_
x
t  0
s
n
Donde:
 0 Sería el valor que se nos da para establecer la comparación o valor teorico.
Ho: Media Aritmética = valor hipotético
H1: Media Aritmética  valor hipotético
Ej. Probar la hipótesis que la hemoglobina proviene de una muestra en que la media
es igual a 15.
Se sospecha que un tratamiento para la artrosis puede producir descenso de

Hemoglobina en los hombres con artrosis, para lo cual se aplica un tratamiento a
100 de estos hombres, antes del tratamiento se encuentra que el nivel de
hemoglobina promedio es 15.
Al finalizar el tratamiento la muestra se reduce a 70 pacientes, siendo que la muestra

se reduce, se desea conocer si el promedio de hemoglobina antes del tratamiento
de estos 70 pacientes es igual al de la muestra original (100 pacientes).
Ej. En SPSS probar la normalidad

Kolmogorov-Smirnova Shapiro-Wilk
Estadístico Gl Sig. Estadístico gl Sig.
Hemoglobina inicial, (gr/100 ,078 70 ,200* ,981 70 ,377

ml)

Luego verificar la hipótesis planteada
En SPSS ir a
Analizar / Comparación de medias / Prueba T para una muestra
Estadísticos para una muestra

Error típ. de la
N Media Desviación típ. media
Hemoglobina inicial, 70 14,9954 ,53566 ,06402
(gr/100 ml)
Prueba para una muestra

Valor de prueba = 15
95% Intervalo de confianza
Diferencia de para la diferencia
t Gl Sig. (bilateral) medias Inferior Superior
Hemoglobina inicial, -,072 69 ,943 -,00461 -,1323 ,1231
(gr/100 ml)

El valor p (Sig. (bilateral)=0.943 ) asociado al estadístico de contraste es mayor

que 0.05, por lo que no se puede rechazar la hipótesis nula.
Manualmente el cálculo sería el siguiente
Estadísticos para una muestra

Desviación Error típ. de
N Media típ. la media
Hemoglobina inicial, 70 14,9954 ,53566 ,06402
(gr/100 ml)
Raiz de n 8,36660027
Valor Hipotetico 15
Valor t -,0046 = -0,07205262

0,06402382
Valor en tablas
t con (70-1 grados de libertad)
con 95% de confianza
Nota.- Los grados de libertad hacen referencia a la forma que toma la curva normal según el
tamaño de la muestra, cuando existen infinitos grados de libertad, la curva de la t-student coincide
con la curva normal.
El valor en tablas se encuentra a continuación:

Continua…..

Al ser el valor absoluto de -0.072 menor que una t de 1.667 que sería el valor
localizado en la tabla t-student para 70-1 grados de libertad con un nivel de
confianza del 95% (de significación del 5%), no se puede rechazar Ho.

Al encontrarse el valor de -0.072 entre los valores t de -1,667 y 1,667 se encuentra

en la zona de aceptación de la Hipotesis Nula
Zona de rechazo de Ho Zona de rechazo de Ho

(tiene un área de 0.025 en (tiene un área de 0.025 en
cada lado de la cola en Zona de Aceptación de cada lado de la cola en
caso de que la aceptación Ho (A un % de caso de que la aceptación
tenga 0.95) confiabilidad, tenga 0.95)
generalmente 95% es
decir 0.95 de área )
Valor t de tablas Valor t de tablas
Valor t calculado, que puede caer en la zona de aceptación o rechazo
La significación en la tabla adjunta esta probada con para t – student de una cola.
Otra forma de llegar a la conclusión es observando el intervalo de confianza, si el

valor de la diferencia de medias -0,00461 está dentro del intervalo que se forma
entre el límite inferior -0,1323 y el límite superior 0,1231, en nuestros resultados
aceptamos la hipótesis nula.
Es importante aclarar con el nivel de confianza del 95 %, nos dice que de cada 100
muestras de tamaño 70 que tomemos, en la población objeto de estudio, en al
menos 95 de ellas obtendremos el mismo resultado.

Prueba t para dos muestras dependientes (relacionadas) - para la

comparación de medias
Generalmente esta prueba se aplica para diseños pre-experimentales,

experimentales o cuasi-experimentales, donde se somete a un grupo de sujetos una
pre prueba, después se les aplica un incentivo (llamado también estimulo o
tratamiento experimental) y luego se vuelve a tomar la prueba y se compara los
resultados que corresponden a los mismos sujetos en dos momentos de tiempo
diferentes.
La prueba asume que las características de los sujetos en las variables de interés
para el estudio son iguales antes y después de la prueba, con excepción de la
variable que se espera sea afectada por la intervención.

Ejemplo de Diseño Pre-experimental.
G O1 X O2
Donde19:
G: Representa al conjunto de sujetos que participaran de la prueba
O1: Representa los resultados de la variable investigada antes de que sea
afectada por el estímulo o la intervención.
O2: Representa los resultados de la variable investigada después de que es
afectada por el estímulo o la intervención.
X: Representa el estímulo o la intervención.
En el caso de experimentos, lo ideal es que los sujetos, se seleccionen al azar.
En este tipo de diseños se prueba que:

Ho: La media de la variable investigada antes de que sea afectada por el estímulo
no tiene diferencia con la media de la misma variable de forma posterior al estudio,
por lo que las muestras proceden de una población con medias iguales.
H1: La media de la variable investigada antes de que sea afectada por el estímulo
tiene diferencia con la media de la misma variable de forma posterior al estudio,
por lo que las muestras proceden de una población con medias iguales.
Formalmente, se prueba la siguiente Hipótesis:
Ho:  x =  y
H1:  x y

Ho: La muestra procede de una población en la que las medias de X e Y son
iguales.
H1: La muestra no procede de una población en la que las medias de X e Y son
iguales.
19
En base a la nomenclatura y símbolos utilizados por Hernandez Sampieri y colaboradores.
Si el valor p (p-value) asociado al estadístico de contraste es menor que α (0,05

generalmente), se rechazara la hipótesis nula al nivel de significación α.
En el SPSS:
Usaremos el archivo
Clase 4_muestras relacionadas.sav
Ir a
Analizar / Comparar Medias / Prueba T para dos muestras relacionadas
- Relacionar las variables: HBI – HBF
Estadísticos de muestras relacionadas
Error típ. de la
Media N Desviación típ. media
Par 1 Hemoglobina inicial, (gr/100 14,9954 70 ,53566 ,06402

ml)
Hemoglobina final, (gr/100 13,5977 70 ,75230 ,08992

ml)

Correlaciones de muestras relacionadas
N Correlación Sig.
Par 1 Hemoglobina inicial, (gr/100 70 ,727 ,000

ml) y Hemoglobina final,
(gr/100 ml)
Prueba de muestras relacionadas
Diferencias relacionadas
95% Intervalo de
Error típ. confianza para la
Desviació de la diferencia Sig.

Media n típ. media Inferior Superior t Gl (bilateral)
Par Hemoglobina 1,397 ,51701 ,06179 1,27444 1,52100 22,61 69 ,000

1 inicial, (gr/100 ml) 72 9
- Hemoglobina
final, (gr/100 ml)
Siendo que el valor p asociado al estadístico de contraste t (Sig bilateral – Sig 2-

tailed) es 0.000 y este valor es menor que 0.05 (al nivel de significación alfa de α =
0.05), se rechazara la hipótesis nula, por lo tanto no se acepta que la hemoglobina
inicial coincida con la hemoglobina final. Por lo que podemos decir que existen
diferencias significativas, para un 95% de confianza (este valor puede ser
modificado en el cuadro del SPSS).
Siendo que la media de hemoglobina final es menor, es posible que el tratamiento

para la artrosis produzca sangrado digestivo
Fórmula de cálculo de t (t calculado):
t
 (x  x ) i j
n ( x  x )  ( ( x  x )
i j
2
i j
2
n 1
O también:

t
 (d )
n d  ( d )
2 2
n 1
Dónde: d es la diferencia, es decir d=xi –xj
Una vez obtenido el calculado, el mismo debe ser contrastado con el t de tablas par
n- 1 grados de libertad, con el valor de tablas se corta a la curva que representa la
distribución t, si el t calculado cae en la zona de aceptación, se acepta la Ho, caso
contrario se la rechaza:
Zona de rechazo de Ho Zona de rechazo de Ho

(tiene un área de 0.025 en (tiene un área de 0.025 en
cada lado de la cola en Zona de Aceptación de cada lado de la cola en
caso de que la aceptación Ho (A un % de caso de que la aceptación
tenga 0.95) confiabilidad, tenga 0.95)
generalmente 95% es
decir 0.95 de área )
Valor t de tablas Valor t de tablas
Valor t calculado, que puede caer en la zona de aceptación o rechazo
Prueba t para dos muestras independientes (no relacionadas) - para la

comparación de medias
Prueba si la diferencia entre las medias de una variable en dos grupos distintos de
individuos es estadísticamente significativa.
Puede Ser
G1 X O1
G2 - O2
Ó también
G1 O1 X O2
G2 O3 - O4
Datos

G: Grupo
O Prueba (puede ser Pre o Post)
X estimulo
La Prueba de Hipótesis es:
Ho:  1=  2
H1: 12
Ho: Las muestras proceden de dos subpoblaciones en las que la media de X es la

misma
H1: Las muestras no proceden de dos subpoblaciones en las que la media de X es
la misma
Si el valor p, asociado al estadístico de contraste es menor que α, se rechazará la

hipótesis nula al nivel de significación α
Procedimiento20.
1. Separar la muestra en dos subpoblaciones, una de ellas con el valor 1 y que

pertenece a la subpoblación 1 y la otra con el valor 2, la cual corresponde a
la subpoblación 2. (verificar que en la bases de datos, se haya usado 1 y 2
para separar los grupos)
2. Contrastar varianzas. Se hace necesario contrastar varianzas en razón de
que las subpoblaciones pueden o no presentar la misma varianza, y por lo
tanto el estadístico puede tomar dos expresiones. Por lo tanto un paso previo
es el contraste de varianzas, para lo cual se utiliza el estadístico de Levene.
La Prueba de Hipótesis es:


Ho: S2A = S2B
20
Recuerde que antes de iniciar con el procedimiento se debe verificar que cada uno de los grupos sigue una
H1: S2A  S2B

Ho: La varianza de las subpoblaciones (A y B) son iguales
H1: La varianza de las subpoblaciones (A y B) son diferentes
Si el valor p, asociado al estadístico de contraste es menor que α, se rechazará la

hipótesis nula al nivel de significación α (0.05).
3. Una vez contrastada las varianzas elegimos el estadístico t que no fue

rechazado.
Ejemplo:
Después de probar en el anterior ejercicio que el tratamiento para la artrosis tiene

un efecto en la hemoglobina (disminución), se sospecha al observar que 28 de ellos
tenía ulcera, que ésta puede ser la razón de la disminución y no el tratamiento.
Para ello se divide el conjunto de datos en dos, unos que tienen ulcera y otros que
no. Para ellos se aplicara la prueba T-student a dos muestras independientes.
En SPSS:
Primero: probar la normalidad
Datos / Segmentar / Archivo

Analizar/Estadísticos Descriptivos / Explorar
Alternativamente se puede separar los casos directamente con la función explorar

y lista de factores:

Resumen del procesamiento de los casos
Ulcera Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
Disminución de Si 28 100,0% 0 ,0% 28 100,0%

hemoglobina (gr/100 ml) dimension1
No 42 100,0% 0 ,0% 42 100,0%
Ulcera Kolmogorov-Smirnova Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Disminución de d
Si ,102 28 ,200* ,977 28 ,768
hemoglobina (gr/100 ml) i No ,088 42 ,200* ,983 42 ,789
m

El test de Shapiro Wilk, arroja una significancia mayor a 0.05, por lo tanto la
distribución de cada uno de los subgrupos es normal.
Segundo: verificar que las varianzas son iguales.
Analizar / Comparar Medias / Prueba T para muestras independientes

Estadísticos de grupo
Ulcera Error típ. de la

N Media Desviación típ. media
Disminución de d
Si 28 1,0110 ,09990 ,01888
hemoglobina (gr/100 ml) i No 42 -,0111 ,12317 ,01900
m

Como 0.138 es mayor que α (0,05), no se puede rechazar la hipótesis de nula

(igualdad de varianzas), es decir se acepta la hipótesis nula.
Tercero: verificar la igualdad de medias.
Entonces se selecciona el estadístico t, de igualdad de varianzas 21, el cual tiene

como valor de significancia 0.000 que es menor que 0.05, por lo que se rechaza la
hipótesis nula de igualdad de medias, con una confianza del 95%.
En este caso la probabilidad de la t de student en ambos casos es 0.000, pero no

siempre será así por lo que la prueba de Levene es importante.
Por lo tanto no se puede aceptar la hipótesis de que la disminución de hemoglobina

sea la misma en ambos grupos, por lo tanto, la media del grupo de pacientes con
ulcera (1.0110) es mayor que la media de pacientes sin ulcera. -0.0111.
Es posible entones que la disminución global de hemoglobina sea debido a la

disminución de pacientes con ulcera.
PROCEDIMIENTO MANUAL
El procedimiento para medir la igualdad de varianzas está dado por:
1° Probar la Normalidad de las Variables
2° Probar si las varianzas de ambas muestras son iguales:
Ho: S2A = S2B
21
En caso de que no exista igualdad de varianzas el estadístico t y su nivel de significancia que se debe
considerar debe corresponder a la segunda fila denominada “No se han asumido varianzas iguales”
H1: S2A  S2B
En caso de que las varianzas sean iguales y estas se dividan, el resultado debería
ser uno, si las varianzas son muy similares el resultado también se encontrara
cercano a uno, por lo que se debe verificar que:
S MG
FMax 
S MP
Dónde: SMG corresponde a la varianza más grande y SMP a la varianza más

pequeña,
El resultado de la división anterior debe ser contrastado con el estadístico F,

proveniente de las tablas, las cuales necesiten como datos dos grados de libertad
uno para el numerador y otro para el denominador, para un determinado nivel de
confianzas (95%):
Grados de libertad para el numerador: gl = n – 1; donde n corresponde al tamaño

de la muestra del grupo
Grados de libertad para el denominador: gl = n – 1
En el caso de buscar un nivel de confianza, en la siguiente tabla se debe buscar

que el are a excluir de la curva corresponda a 5% (0.05)
Ejemplo de distribución F

Si el valor de F Máximo es menor que F Tablas, entonces se acepta la Hipótesis

Nula de Igualdad de varianzas, en razón de que el F máximo cae en la región de
aceptación
3° En caso de que la varianzas sean iguales, se debe calcular el estadístico t a partir

de la siguiente formula:
x A  xB
t
  ( x A ) 2   (  xB ) 2   
   xA 
     
2 2
 x  
  nA   nB   nA  nB 
B
  
n  n  2  n n 
 A B  A B

  
  
4° En caso de que las varianzas sean heterogeneas, se debe calcular el estadístico

t a partir de lo siguiente:
x A  xB
t
(S A )2 (S B )2

nA nB

5° Contrastar los valores t obtenidos con el estadístico de tablas para los grados de
libertad correspondientes, los cuales se calculan de la siguiente manera:
En el caso de las varianzas heterogéneas con t : gl = (nA + nB)/2
En el caso de varianzas homogéneas con t: gl = nA + nB – 2

TEMA:
PRUEBAS PARAMETRICAS: EL ANALISIS DE VARIANZA
Cuando se realiza comparaciones de datos cuantitativos entre más de dos grupos,

se debe utilizar el Análisis de Varianza (ANOVA), este análisis evalúa si existe
igualdad de medias de una variable cuantitativa entre varias muestras
correspondientes a diferentes grupos.
El ANOVA no aumenta la tasa de error tipo I (rechazar Ho siendo verdadera). Los

estudios experimentales con más de dos grupos son los que utilizan generalmente
ANOVA22.
22
Cuando no se puede aplicar ANOVA (por no cumplir las condiciones), se puede usar Kruskal-Wallis para
muestra independientes y la prueba de Friedman para muestras apareadas (ambas pruebas no paramétricas).
Análisis de Varianza de un solo factor o ANOVA23
Para métrica
CUANTITATIVA
Una muestra
2 grupos contra una valor 3 ó mas Grupos
hipotetico
Muestra
ANOVA
Independiente
Muestra
Dependiente
Es una prueba estadística, que sirve para comparar varios grupos de una variable
cuantitativa, puede ser considerada una generalización a más muestras (3 o más)
de la PRUEBA T PARA DOS MUESTRAS INDEPENDIENTES.
En estos casos, a la variable categórica que discrimina los grupos se la llama

variable Independiente y a la variable de intervalo o razón en la que deseamos
comparar los grupos la llamamos Dependiente.
Antes de empezar el análisis es preciso recordar algunas condiciones generales:
I- Tiene que existir Independencia de los errores, es posible lograr esto si

los sujetos muestrales son seleccionados bajo un procedimiento que
asegure la aleatoriedad.
23
De similar manera que los objetivos del resto del módulo, no profundizaremos en las cuestiones
particulares del análisis, el estudiante podrá profundizar estos temas en la amplia bibliografía disponible al
respecto. El documento presentara los aspectos elementales del análisis.
II- Los errores experimentales se distribuyen normalmente. Lo que presume

que cada una de las puntuaciones se distribuyan normalmente (recuerde
utilizar las pruebas aprendidas Shapiro-Wilk o Kolmogorov-Smirnov-
Lilliefors)
III- La varianza de los subgrupos debe ser homogénea, ya que se deben al
error, es decir debe existir Homoscedasticidad (Homogeneidad de
varianzas el cual se puede probar a través del test C de Cochras, Levene
u otros).
Ejemplo24.
Supongamos un estudio que se realiza en paciente con ulcera péptica y se
analiza el tiempo de reaparición de la ulcera (REPARIC) en función al tiempo de
respuesta al tratamiento (RESPUEST). Para determinar si el tiempo de
reaparición de los síntomas es el mismo independientemente de cuál haya sido
el tiempo de respuesta al tratamiento se realiza el análisis de varianza de un solo
factor.
La hipótesis a contrastar seria que la media de la variable tiempo de reaparición

de la ulcera (REAPARIC) es la misma en los cuatro grupos establecidos por la
variables tiempo de respuesta (RESPUEST).
Ho:  Re spuest1 =  Re spuest2 =  Re spuest3 =  Re spuest4
H1:  Re spuest1   Re spuest2   Re spuest3   Re spuest4
En SPSS
Analizar/Comparar Medias / ANOVA de un factor
Además para la prueba de igualdad de varianzas utilizar la prueba Levene, para

ello marcar en opciones Prueba de homogeneidad de las varianzas
24
En base a la base de datos de Magdalena Ferran
ANOVA
Tiempo de reaparición
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 1570,711 3 523,570 140,850 ,000

Intra-grupos 1144,901 308 3,717
Total 2715,612 311
El valor asociado al estadígrafo F es p = 0, por lo que rechazamos la hipótesis nula

de que las medias son iguales.
Test of Homogeneity of Variances

Tiempo de reaparición
Levene Statistic df1 df2 Sig.
10,667 3 308 ,000
No obstante lo anterior, el modelo viola el supuesto de igualdad de varianza debido

a que el valor asociado al estadígrafo de Leven es p = 0, por lo que rechazamos la
hipótesis nula de que las varianzas son iguales.
Ho: S 2 Re spuest1 = S 2 Re spuest2 = S 2 Re spuest 3 = S 2 Re spuest4
H1: S 2 Re spuest1  S 2 Re spuest2  S 2 Re spuest 3  S 2 Re spuest4

Consideraciones de no satisfacer las hipótesis del modelo:
- Es probable que la NO normalidad tenga pocos efectos.
- Si las observaciones No son independientes entonces se debe seleccionar otra

prueba.
- Si las varianzas son heterogeneas (heterosedasticidad), pero el tamaño de los

grupos son iguales, el efecto sobre el estadístico F es menor, sin embargo si las
muestras son desiguales, entonces la probabilidad de rechazar la hipótesis nula
siendo verdadera es mayor
Para lograr homogeneidad de las varianzas es preciso realizar alguna

transformación a la variable seleccionada y probar el estadístico de Levene hasta
encontrar la mayor significancia. Transformar la varianza significa convertirla en otra
por ejemplo pero sin que esto la cambie sustancialmente y con la posibilidad de que
después pueda volver a ser transformada a la original, por ejemplo si se saca su
raíz cuadrada o se aplica logaritmos la variable queda transformada.
Para realizar las pruebas con algunas transformaciones sugeridas en SPSS:
Analizas / Estadisticas Descriptivas / Explorar
- Gráficos:
o Diagrama de caja (ninguno)
o Descriptivos (ninguno)
o En Dispersión seleccionamos varios métodos
 Estimación de Potencia
 Transformados Raiz Cuadrada
 Transformados Logaritmo Natural
 Otros
ESTIMACIÓN DE POTENCIA

Test of Homogeneity of Variance
Tiempo de reaparición Based on Mean 10,667 3 308 ,000
Based on Median 9,781 3 308 ,000
Based on Median and with 9,781 3 254,734 ,000

adjusted df
Based on trimmed mean 10,669 3 308 ,000
La potencia a la cual esta elevada es 0.534
ESTIMACIÓN RAIZ CUADRADA

Tiempo de reaparición Based on Mean 1,984 3 308 ,116
Based on Median 1,835 3 308 ,141
Based on Median and with 1,835 3 289,577 ,141

adjusted df
Based on trimmed mean 1,976 3 308 ,118
ESTIMACIÓN LOGARITMO NATURAL

Tiempo de reaparición Based on Mean ,762 3 308 ,516
Based on Median ,679 3 308 ,565
Based on Median and with ,679 3 285,746 ,565

adjusted df
Based on trimmed mean ,742 3 308 ,528

El test de homogeneidad de varianza de Levene para las muestras transformadas

aplicando raíz cuadrada y logaritmo natural, tiene un valor de significancia mayor
que 0.05 por lo que podemos aceptar la igualdad de varianzas.
De todas las transformaciones realizadas (se puede probar otras también), la

transformación bajo el logaritmo natural presenta la mayor estabilidad, por lo que
elegimos esta.
Ahora procedemos a transformar las variables (Es decir calcular el logaritmo natural
de la variable con la cual estamos trabajando).
En SPSS Transformar / Calcular variables
Luego procedemos con el ANOVA de un factor
Analizar / Comparar medias / ANOVA

ANOVA
LREAPARIC
Sum of Squares df Mean Square F Sig.
Between Groups 29,217 3 9,739 140,403 ,000

Within Groups 21,364 308 ,069
Total 50,581 311
El valor probabilístico asociado al estadígrafo es p = 0, lo que nos dice que hay
diferencia significativas entre los grupos, es decir que las muestras no proceden de
la misma población (Se rechaza la hipótesis nula de igualdad de medias).
El estadístico que se acompaña F, nos dice que mientras más alejado este, mayor
diferencias entre medias habrá.
Por lo que no aceptamos que el tiempo de reaparición de los síntomas sea el mismo
en cada una de las cuatro muestras, sin embargo puede existir diferencias al interior
de los grupos.
Par ver esto puede utilizar el método de Tukey o Scheffe, otra alternativa es realizar
la prueba t para muestras independientes, pero esta no contempla la distribución de
la variable dependiente sobre los restantes grupos.
El de Tukey es más poderoso, sin embargo se tiene que mantener tamaños iguales,
por lo que es recomendable disminuir el tamaño de la muestra.
Como en nuestro caso los tamaños son diferentes usamos el método de Scheffe
En SPSS
Analizar / Comparar medias / Anova de un factor
- Post hoc
o Marcar el metodo Scheffe
o Definir el nivel de significancia

Multiple Comparisons
LREAPARIC
Scheffe
(I) Tiempo de respuesta (J) Tiempo de respuesta Mean 95% Confidence Interval
Difference (I- Std. Lower Upper
J) Error Sig. Bound Bound
2 Semanas 4 Semanas ,37230* ,03623 ,000 ,2704 ,4742
dimension3 6 Semanas ,61124* ,03962 ,000 ,4999 ,7226
8 Semanas ,97268* ,05647 ,000 ,8140 1,1314
4 Semanas 2 Semanas -,37230* ,03623 ,000 -,4742 -,2704
dimension3 6 Semanas ,23895* ,04054 ,000 ,1250 ,3529
8 Semanas ,60038* ,05712 ,000 ,4398 ,7609
dimension2
6 Semanas 2 Semanas -,61124* ,03962 ,000 -,7226 -,4999
dimension3 4 Semanas -,23895* ,04054 ,000 -,3529 -,1250
8 Semanas ,36143* ,05932 ,000 ,1947 ,5282
8 Semanas 2 Semanas -,97268* ,05647 ,000 -1,1314 -,8140
dimension3 4 Semanas -,60038* ,05712 ,000 -,7609 -,4398
6 Semanas -,36143* ,05932 ,000 -,5282 -,1947
*. The mean difference is significant at the 0.05 level.
Por lo que se verifica que existe diferencias entre todos los grupos analizados, o
en aquellos casos que aparezca el asterisco (*) en el cual se menciona la
diferencia para el nivel elegido.

TEMA:
PRUEBAS NO PARAMETRICAS
Las pruebas no paramétricas o de distribución libre, son utilizados para variables categóricas o datos
que no tienen una distribución normal, respecto estas pruebas la literatura sugiere que son menos
potentes que las paramétricas y tienen más posibilidades de cometer el error tipo II o error Beta25,
por lo que para aumentar su potencia se tiende a incrementar el tamaño de la muestra.
A continuación se expondrán las pruebas más utilizadas, el orden de presentación seguir lo

desarrollado hasta ahora, analizaremos las pruebas no para métricas para una muestra, para dos
muestras y para k-muestras26.
25
Por ejemplo, la U de Mann-Whitney tiene una potencia relativa del 95% con respecto a la prueba
paramétrica t de Student lo que significa que con una muestra de 100 sujetos, se consigue la misma
potencia con la U de Mann-Whitney que con 95 sujetos para la t de Student.
(www.ugr.es/~rruizb/cognosfera/sala_de_estudio/estadistica/esquematest.doc)
26
Al igual que varios de los ejemplos utilizados hasta ahora utilizaremos la base de datos con ejemplos en el
area de salud de Magdalena Ferrán
No Paramétrica
Una muestra
2 grupos contra una valor 3 ó mas Grupos
hipotetico
Muestra
Independiente
Muestra
Dependiente
Análisis para el caso de una muestra27
Prueba Tipo de Variable Objetivo

Determinar si las diferencias entre las
proporciones de cada uno de los dos valores
Binominal Cualitativa: 2 valores de la variable y unas determinadas
proporciones teóricas son estadísticamente
significativas.
Determinar si las diferencias entre las

cualitativa: k > 2
Chi-cuadrado frecuencias de cada uno de los valores de la
valores
variable y unas determinadas frecuencias
teóricas son estadísticamente significativas.
Prueba de la binomial.
Es muy utilizada sobre todo en aquellos ejemplos entendidos como éxitos o fracasos.
27
Las pruebas analizadas son conocidas también como pruebas de bondad de ajuste, las dos analizadas
corresponden a la bondad de ajuste para muestras no paramétricas, en el caso de las parametricas tenemos
a la de K-S y K-S con corrección Llifiefors,
Es una prueba de bondad de ajuste que se utiliza para contrastar la hipótesis nula de que la muestra
procede de una población en la que la proporciones de individuos que presentan los valores x1 y x2,
son iguales a pe y a qe = 1 + pe respectivamente, recuerde 1 = pe + qe
Ho: p = pe y q = qe
H1 p pe
Ho: La proporción de la muestra p es igual a la proporción esperada pe de la población.
Ho: La proporción de la muestra p es diferente a la proporción esperada pe de la población.
Si el valor p asociado al estadístico de contraste es menor que alfa, se rechaza la hipótesis nula al
nivel de significación de alfa (p menor a 0.05).
Ejemplo 1
Se desea comprobar que en términos de representatividad de la población, la proporción de

pacientes tratados con el fármaco es igual a la proporción de pacientes tratados con el placebo, es
decir ambos grupos son iguales (ambos tiene una proporción del 50% de la muestra, tamaño
muestral que alcanza a 79 pacientes), no obstante a ello se aclara que originalmente el estudio
contaba con 100 pacientes de los cuales 50 fueron tratados con el fármaco y 50 con el placebo.
Ho: p = p (FARMACO = 1) = 0,5
Si uno tuviera que partir la muestra en grupos iguales tendría una cantidad esperada n * pe = 79 *
0.5 = 39.5, lo que se contrasta con la cantidad de datos en el grupo 1 (41)
En SPSS
Analizar / Pruebas no paramétricas / Cuadros de Dialogo Antiguos / Binomial
Llenar el campo de proporción de prueba con 0.5

Binomial Test
Categoría N Proporción Prop. de Sig. asintót.
observada prueba (bilateral)
Paciente tratado con el Group 1 Si 41 ,52 ,50 ,822a

fármaco Group 2 No 38 ,48
Total 79 1,00
a. Based on Z Approximation.
Dado que el valor 0.822 es mayor que 0.05 no se puede rechazar la hipotesis nula, es decir la
proporción de pacientes tratados con el fármaco es igual a la proporción de pacientes tratados con
el placebo, dicho de otra manera, la diferencia entre lo observado en la muestra y lo esperado no
es estadísticamente significativa.
Ejemplo 2
Se desea valorar un tratamiento en 100 pacientes de los cuales 80 son fumadores y 20 no son
fumadores, al finalizar el estudio existió una mortalidad experimental y solo quedaron 79 pacientes
de los cuales 53 son fumadores y 26 no fumadores, por lo que se desea contrastar la prueba de que
los pacientes que quedan mantiene la proporción de la población original.
Ho: p = p (FUMADOR= 1) = 0,8
Analizar / Pruebas no paramétricas / Cuadros de Dialogo Antiguos / Binomial
Llenar el campo de proporción de prueba con 0.8

Prueba binomial
Proporción Sig. asintót.

Categoría N observada Prop. de prueba (unilateral)
Fumador Grupo 1 Si 53 ,7 ,8 ,005a,b
Grupo 2 No 26 ,3
Total 79 1,0
a. La hipótesis alternativa establece que la proporción de casos del primer grupo sea < .8.
b. Basado en la aproximación Z.
Como el valor p 0.005 es menor que 0.05 rechazamos la hipótesis nula y se concluye que la
muestra no es representativa de la población objeto de estudio.
Prueba Chi Cuadrada para una muestra
La Chi Cuadrada para una muestra es frecuentemente utilizada para comparar las frecuencias
observadas con frecuencias teóricas (Ej. Lo que hubiera sucedido), en algunos capítulos adelante el
lector podrá apreciar que esta prueba se generaliza en el caso de se tenga una tabla de contingencia
mediante el cual se disponga el cruce de dos variables (tabla de contingencia de doble entrada).
Ho: p1 = p1e y p2 = p2e y p3 = p3e y …….pk = pke
H1: p1  p1e y p2  p2e y p3  p3e y …….pk  pke
Ho: La muestra procede de una población en la que proporción esperada de la submuestra 1 es

igual a la proporción esperada para la submuestra 2 y submuestra k respectivamente
H1: La muestra procede de una población en la que proporción esperada de la submuestra 1 es

diferente a la proporción esperada para la submuestra 2 y submuestra k respectivamente
Ejemplo 3
En la prueba de un tratamiento administrado de forma aleatoria a 50 sujetos el tratamiento A, a

50 el tratamiento B y a 50 un placebo. Al finalizar el tratamiento, solo quedaron 103 sujetos, por
lo que se desea comprobar si la proporción que queda en la muestra representa 1/3 de la
población original.

Ho: La muestra procede de una población en la que proporción esperada de pacientes tratados
con el fármaco A, con el fármaco B y con el placebo es la misma.
H1: La muestra procede de una población en la que proporción esperada de pacientes tratados
con el fármaco A, con el fármaco B y con el placebo es diferente.
En SPSS
Analizar / Pruebas No Parametricas / Chi Cuadrado

Fármaco recetado
N observado N esperado Residual
Fármaco A 34 34,3 -,3

Fármaco B 37 34,3 2,7
Placebo 32 34,3 -2,3
Total 103
Estadísticos de contraste
Fármaco
recetado
Chi-cuadrado ,369a
gl 2
Sig. asintót. ,832
a. 0 casillas (.0%) tienen

frecuencias esperadas menores
que 5. La frecuencia de casilla
esperada mínima es 34.3.
El valor p de 0.832 es mayor que 0.05, por lo que no se puede rechazar la hipotesis nula, dado que
las diferencias entre lo observado en la muestra y lo esperado bajo la hipotesis nula son
estadisticamente significativas, se puede aceptar que la proporción de pacientes tratados con el
fármaco A, B y placebo es la misma, por lo tanto que la muestra es representativa de la población.
Ejemplo 4
Además de separar en muestras iguales, se puede asignar una proporción diferente a cada uno de
los subgrupos que tiene la muestra por ejemplo:
Ho: p1 = p(INFARTO = 1) = 2/6
P2 = p(INFARTO = 1) = 2/6
P3 = p(INFARTO = 1) = 1/6
P4 = p(INFARTO = 1) = 1/6
Note que la suma de las proporciones tiene que dar 1 o sea 100%

De la misma manera que en la prueba anterior se desea compara que las proporciones que
mantiene la muestra son los que originalmente tenia la población.
En SPSS
Analizar / Pruebas No Parametricas / Chi cuadrado
Notese que se añadió valores 2, 2, 1 , 1; los cuales corresponderán al orden de las variables
categóricas: Anterior = 1, Inferior =2, Lateral =3 y Posterior = 4.
Localización del infarto de miocardio
N observado N esperado Residual
Anterior 33 34,3 -1,3

Inferior 34 34,3 -,3
Lateral 17 17,2 -,2
Posterior 19 17,2 1,8
Total 103

Estadísticos de contraste
Localización del
infarto de
miocardio
Chi-cuadrado ,252a
gl 3
Sig. asintót. ,969
a. 0 casillas (.0%) tienen

frecuencias esperadas menores
que 5. La frecuencia de casilla
esperada mínima es 17.2.
Al igual que en el caso anterior siendo que el valor p 0.969 es mayor que 0.05 se acepta la
hipótesis nula, por lo tanto la muestra es representativa de la población.

Pruebas no paramétricas para muestras relacionadas (dependientes)
Pruebas no paramétricas para muestras relacionadas (dependientes)
Num. De
Prueba Variables Objetivo
grupos
McNemar 2 Cualitativas: 2 Determinar si la diferencia entre las
valores (nominal) distribuciones de frecuencias de los
valores de las dos variables es
estadísticamente significativa.
Signos 2 En escala al Determinar si la diferencia entre el

menos ordinal numero de veces en que el valor de una
variable es mayor que el de la otra y el
numero de veces en que es menor es
estadísticamente significativa
Wilcoxon 2 En escala Determinar si la diferencia entre la
(continuas) o al magnitud de las diferencias positivas
menos ordinal entre los valores de las dos variables y la
magnitud de las diferencias negativas es
Q de Cochran p > 2 Cualitativas: 2 Determinar si las diferencias entre las
valores distribuciones de frecuencias de los
valores de las p variables son
estadísticamente significativas.
F de p >2 En escala al Determinar si las diferencias entre las
Friedman menos ordinal distribuciones de las p variables son
Concordancia p En escala al
Medir el grado de concordancia entre los
de Kendall menos ordinal
elementos de la muestra respecto a las
puntuaciones de las p variables.

Prueba de Wilcoxon
Ho: Dx antes = Dx después
H1: Dx antes  Dx después
La distribución antes y después
Para variables cuantitativas continuas que no siguen una distribución normal o con valores
discretos, también se aplica para variables categóricas al menos ordinales.
Ej . Libro pg 289
Rangos
Rango Suma de
N promedio rangos
Despues – Antes Rangos negativos 6a 4,17 25,00
Rangos positivos 1b 3,00 3,00
Empates 0c
Total 7
a. Despues < Antes

b. Despues > Antes
c. Despues = Antes
Estadísticos de contrasteb
Despues –
Antes
Z -1,859a
a. Basado en los rangos positivos.

b. Prueba de los rangos con signo de
Wilcoxon

Prueba de Signos y de Wilcoxon
Ejemplo 5
Se desea probar si el colesterol ha disminuido después del cambio de dieta en un grupo de 42

pacientes
G O1 X O2
En la prueba de los rangos con signo se contrastara la siguiente hipotesis.
Ho: p(X>Y) =p(X<Y)
Ho: p(X>Y)  p(X<Y)
La muestra procede de una población en la que la probabilidad de que X sea mayor que Y es igual
a la misma de que sea menor.
Ho: p(COLEST_I >COLETS_F) =p(COLEST_I<COLEST_F)
En la prueba de los signos la Hipotesis nula es la siguiente
Ho: m+ = m-
La magnitud de las diferencias positivas y negativas entre los valores de las variables X e Y es la
misma.
Ho: m(COLEST_I-COLETS_F)+ =m(COLEST_I-COLEST_F)-28
En SPSS
Analizar / Pruebas No parametricas /
- Tipo de prueba Signos – Wilcoxon
28
Ejemplo 5.4 en Ferran

PRUEBA DE LOS SIGNOS PRUEBA DE WILCOXON

Ranks
Frequencies Mean Sum of
N N Rank Ranks
Colesterol Final - Negative 29 Colesterol Negative 29a 18,88 547,50
Colesterol Inicial Differencesa Final - Ranks
Positive 13 Colesterol Positive 13b 27,35 355,50
Differencesb Inicial Ranks
Tiesc 0 Ties 0c
Total 42 Total 42
a. Colesterol Final < Colesterol Inicial a. Colesterol Final < Colesterol Inicial
b. Colesterol Final > Colesterol Inicial b. Colesterol Final > Colesterol Inicial
c. Colesterol Final = Colesterol Inicial c. Colesterol Final = Colesterol Inicial
Test Statisticsa Test Statisticsb

Colesterol Final Colesterol Final
- Colesterol - Colesterol
Inicial Inicial
Z -2,315 Z -1,200a
Asymp. Sig. (2-tailed) ,021 Asymp. Sig. (2-tailed) ,230
a. Sign Test a. Based on positive ranks.
b. Wilcoxon Signed Ranks Test
INTERPRETACIÓN INTERPRETACIÓN
Como el valor p, 0.021 es menor que 0.05 se Como el valor 0.230 es mayor que 0.05 se
rechaza la Hipotesis Nula, por lo que el acepta la Hipótesis Nula, por lo que la
colesterol ha disminuido. magnitud de colesterol antes y después es el
29 Sujetos refuerzan esta idea. mismo.
Esto puede ser explicado por que los sujetos
que aumentaron su nivel de colesterol
tuvieron una magnitud mayor (comieron el
doble por ejemplo) que los que disminuyeron.
En la generalidad de los estudios ambos estudios arrojan los mismos resultados, pero en nuestro
caso no.
Interpretación de las sumas negativas y positivas

ini FIN FIN-ini ABS RANGOS

1,64 1,42 -0,22 0,22 1
3,27 3 -0,27 0,27 2
3,81 3,53 -0,28 0,28 3
2,22 1,9 -0,32 0,32 4
3,99 3,66 -0,33 0,33 5
7,94 7,58 -0,36 0,36 6
2,94 2,54 -0,4 0,4 7
2,8 2,34 -0,46 0,46 8
2,88 2,3 -0,58 0,58 9
2,26 1,55 -0,71 0,71 10
3,62 2,9 -0,72 0,72 11
3,11 2,18 -0,93 0,93 12
2,7 1,66 -1,04 1,04 13
2,71 1,62 -1,09 1,09 14
5,42 6,51 1,09 1,09 15
3,83 5,05 1,22 1,22 16
5,94 7,17 1,23 1,23 17
2,6 1,35 -1,25 1,25 18
2,64 3,91 1,27 1,27 19
4,75 3,46 -1,29 1,29 20
2,54 1,15 -1,39 1,39 21
4,28 5,69 1,41 1,41 22
3,78 5,21 1,43 1,43 23
2,82 4,3 1,48 1,48 24
2,81 1,26 -1,55 1,55 25
3,44 1,83 -1,61 1,61 26
3,03 1,41 -1,62 1,62 27
5,19 3,55 -1,64 1,64 28
4,28 2,58 -1,7 1,7 29
2,41 0,66 -1,75 1,75 30
4,71 2,91 -1,8 1,8 31
3,28 5,26 1,98 1,98 32
2,68 4,69 2,01 2,01 33
3,65 1,43 -2,22 2,22 34
3,3 0,92 -2,38 2,38 35
3,47 6,35 2,88 2,88 36
4,1 1,1 -3 3 37
2,73 5,97 3,24 3,24 38
1,75 5,05 3,3 3,3 39
7,02 2,94 -4,08 4,08 40
6,88 1,07 -5,81 5,81 41
2,73 8,63 5,9 5,9 42
Total 903
Suma positiv os 356,0
Suma negativ os 547,0
En caso de contradicción, a efectos de disminuir la magnitud de las variables, es posible

transformarlas y volver a probar los test, por ejemplo se puede transformar las variables en
logaritmos y se pude volver a realizar las pruebas:

Prueba de McNemar
Es una variante de la prueba Chi Cuadrada, se utiliza para comparar una misma variable cualitativa
(categorica) en una población relacionada, por ejemplo medir el efecto de una intervención (pre
experimental o experimental) en dos momentos al mismo grupo29; antes de la intervención y
después de la intervención.
La idea es verificar si producto de la intervención existe algún cambio significativo en la variable de

intervención, la prueba concentra su atención en los sujetos que cambiaron y no en los que no
tuvieron cambios, para el test es requisito contar con valores dicotómicos y para dos grupos,
asimismo es necesario que la frecuencia dispuesta en cada una de las casillas de la tabla de
contingencia sea mayor a 1030, la tabla de contingencia que se valora es la siguiente:
Tabla de contingencia (2x2)
Característica después de la Prueba

Presente Ausente
Sin cambios Cambio de Presente a Ausente
Presente (a) (b)
Caracteristica Cambio de Ausente a Presente Sin cambios
antes Ausente (c) (d)
La prueba de hipótesis es:
Ho: Probabilidad de Cambio Antes = Probabilidad de Cambio Después
H1: Probabilidad de Cambio Antes  Probabilidad de Cambio Después
O también:
Ho: Los cambios en ambos sentidos son iguales, por lo que la intervención no origino cambios
H1: Los cambios en ambos sentidos son diferentes, por lo que la intervención origino cambios
La Fórmula que se utiliza es:
29
Si la variable se mide en más de dos momentos Ej. G 01 x 02 x 03 se debe usar la Q de Cochran
30
En caso de que el valor presente en alguna de las celdas sea menor que 10 se debe realizar la corrección
yates, siendo que la interpretación es la misma:
Correcion de Yates = (((b-c)-1)2 ) / (b + c)
(b  c) 2
  2
bc
La Chi cuadrado de Mc Nemar calculada se contrasta con la de tablas para un grado de libertad31
para un valor alfa de 0.05 (p < 0.05), por lo que se contrastara siempre con 3.841, cuando el valor
calculado sea mayor que el de tablas se rechaza Ho. Asimismo en los paquetes estadísticos recuerde
si el p < 0.05 se rechazara la Ho.
Ejemplo de Distribucion Chi - cuadrada y tabla.
31
Los grados de libertad para la Chi cuadrado es = (número de filas – 1 ) * (número de columnas – 1)
Ejemplo Calcule el Ejercicio Pg. 303
En SPSS
Pruebas no paramétricas / Cuadros de dialogo antiguos / Prueba para dos muestras

relacionadas/McNemar

Antes Educacion y Despues Educacion
Antes Educacion Despues Educacion
Aprobado No Aprobado
Aprobado 80 100
dimension0
No Aprobado 180 30
Estadísticos de contrasteb
Antes
Educacion y
Despues
Educacion
N 390
Chi-cuadradoa 22,289
Sig. asintót. ,000
a. Corregido por continuidad

b. Prueba de McNemar
Se rechaza Ho, dado el valor p de 0.000 que es menor a 0.05

Pruebas No Paramétricas para dos Muestras Independientes
Entre estas pruebas se tiene las siguientes
Num. De Variable
Prueba Objetivo
grupos dependiente
Mann- 2 En escala al Determinar si la diferencia entre el
Whitney menos ordinal número de veces en que el valor de la
variable en un grupo es mayor que en el
otro y el número de veces en que es
menor es estadísticamente significativa.
Kolmogorov- 2 En escala al Determinar si la diferencia entre las

Smirnov menos ordinal funciones de distribución empíricas de la
variable en cada uno de los dos grupos es
Wald- 2 En escala al Determinar si la diferencia entre la

Wolfowitz menos ordinal secuencia de observaciones
pertenecientes a uno y otro grupo y la
secuencia correspondiente a
observaciones completamente
mezcladas es estadísticamente
significativa.
Mediana K En escala al Determinar si las diferencias entre las

menos ordinal frecuencias de observaciones en cada
uno de los k grupos con valor igual o por
debajo de la mediana de la variable sin
distinguir grupos y las frecuencias
esperadas supuesto que la mediana
fuera la misma en los k grupos son
Kruskal-Wallis K En escala al Determinar si las diferencias entre las
menos ordinal medias de los rangos (asignados a las
observaciones ordenadas) en los k
grupos son estadísticamente
significativas.
Fuente: En Base a Magdalena Ferran

Prueba de U de Mann-Whitney para dos grupos independientes
Cuando la variable medida es cuantitativa (incluso continua pero que no sigue una distribución
normal) o es ordinal discreta se puede utilizar la prueba U de Mann Whitney32, en este caso la
hipótesis está dada por (Villa Romero):
Ho: Dx = Dy
H1: Dx Dy
Otra forma de definer (wikipedia), estaria dado por:
Ho: P(X>Y) = P(Y>X)
H1: P(X>Y)+0.5P(X=Y) >0,5
Ho: La distribución de partida de ambos grupos es la misma
H1: Los valores de una muestra tienden a exceder a otra.
Ejemplo
Revisar resultados de pg 273 de Villo Romero et al.
Prueba U de Mann-Whitney, de Kolmogorov-Smirnov y de Wald-Walfowitz para dos grupos

independientes
Ejemplo
Se desea analizar el efecto del fármaco A (se añade al tratamiento habitual-ordinal), con el
tratamiento habitual de pacientes con Fracción de Eyección del Ventriculo Izquierdo (FEVI)
deprimida en grado severo, para lo cual se aplicara las tres pruebas citadas. Al final de seis meses
se compara el FEVI entre los dos grupos de pacientes (con tratamiento habitual y tratamiento
novedoso).
G1 X1 O1
G2 X2 O2
32
La prueba, en variables continuas que no siguen una distribución normal, resulta una alternativa a la
comparación de dos promedios independientes realizada con la t de student
Mann-Whitney Kolmogorov-Smirnov Wald-Walfowitz

Ho: Px1<x2 = Px1>X2 Ho: F1 = F2 Ho: Las muestras proceden de
Ho: Las muestras provienen Ho: La distribución es la dos subplaciones en las que
de dos subpoblaciones en las misma en las dos los valores de la variable que
que la probabilidad de subpobaciones esta siendo analizada, no
obtener un resultado X en la tienden a ser menores ni
primera subpoblación que sea mayores en una de las
menor que en la segunda, es subpoblaciones con respecto
igual la probabilidad de que el a la otra, si no que se
resultado X de la primera encuentran mezcladas
subpoblación sea mayor que
en la segunda
Ho: PFEVI(TRATAMIE=1)< (TRATAMIE=2) = Ho: FTRATAMIE=1 = F TRATAMIE=2
P(TRATAMIE=1)>(TRATAMIE=2)
Ho: las muestras proceden de La distribución de la variable
Las muestras proceden de dos
dos subpoblaciones en las que analizada X es la misma en las
subpoblaciones en la que los
la probabilidad de obtener en dos subpoblaciones valores de la variable
la primera el resultado de X analizada no tienden a ser
menor que en la segunda es mayores ni menores en una
igual a la probabilida de de las subpoblaciones, sino
obtener el resultado mayor. que, por el contrario, están
completamente mezclados
con los de la otra
subpoblación
Si el valor p asociado al estadístico de contraste es menor que alfa (0.05), se rechazara la
hipótesis nula al nivel de significancia de alfa.
En SPSS
Analizar / Pruebas No Parametrica / 2 Muestras Independientes
Mann-Whitney Test

Ranks
Tratamiento aplicado N Mean Rank Sum of Ranks
FEVI al final del periodo de Tratamiento habitual 12 11,50 138,00

observación d
T. hab. + Fármaco A 11 12,55 138,00

i
Total 23
Test Statisticsb
FEVI al final del

periodo de
observación
Mann-Whitney U 60,000
Wilcoxon W 138,000
Z -,370
Asymp. Sig. (2-tailed) ,712
Exact Sig. [2*(1-tailed Sig.)] ,740a
a. Not corrected for ties.

b. Grouping Variable: Tratamiento aplicado
Two-Sample Kolmogorov-Smirnov Test

Frequencies
Tratamiento aplicado N
FEVI al final del periodo de d

Tratamiento habitual 12
observación n
T. hab. + Fármaco A 11
1 Total 23
Test Statisticsa
FEVI al final del

periodo de
observación
Most Extreme Differences Absolute ,273
Positive ,273
Negative -,106
Kolmogorov-Smirnov Z ,653
Asymp. Sig. (2-tailed) ,787
a. Grouping Variable: Tratamiento aplicado

Wald-Wolfowitz Test
Frequencies
Tratamiento aplicado N
FEVI al final del periodo de Tratamiento habitual 12

d
observación T. hab. + Fármaco A 11

i
m
Total 23
Test Statisticsb,c
Exact Sig. (1-

Number of Runs Z tailed)
FEVI al final del periodo de Exact Number of Runs 11a -,418 ,335
observación
a. No inter-group ties encountered.

b. Wald-Wolfowitz Test
c. Grouping Variable: Tratamiento aplicado
En este ultimo caso, si el número de empates (ties encountered) es grande, el resultado seria
difícilmente interpretable por lo que se debería optar por otra prueba.
Con las tres pruebas se verifica que el valor estadístico de contraste es mayor que 0.05 por lo que
se acepta la hipótesis nula, por lo tanto el fármaco no aporta mejores resultados.

TEMA:
COMPARACION ENTRE POBLACIONES NO RELACIONADAS: LA CHI

CUADRADA DE PEARSON,
Permite la comparación entre dos variables categorizadas entre poblaciones con observaciones no
relacionadas (independientes), es utilizada para valorar la dependencia (asociación) o
independencia entre dos grupos de variables categóricas que pueden ser nominales u ordinales.
Medidas de asociación para tablas de contingencia
Prueba Descripción
Chi -cuadrado Determinar si las diferencias entre las frecuencias observadas en la tabla
de Pearson de contingencia correspondiente al cruce de los valores de las dos
variables y las frecuencias esperadas, supuestos que las variables son
independientes, son estadísticamente significativas. (Se involucra a dos
variables)
Fuente: En Base a Magdalena Ferran
Contrasta la hipótesis nula de independencia entre dos variables con más de dos categorías. No
mide la fuerza de la asociación, donde:
Ho: Las variables X e Y son independientes33
H1: Existe dependencia o asociación entre las variables X e Y
Si el valor p asociado al estadístico de contraste es menor que alfa, se rechaza la hipótesis nula al
nivel de significancia alfa
Recuerde que las frecuencias esperadas de las celdas de la tabla de contingencia deben ser mayores
que 5, en una tabla de 2x2 solo se puede permitir una celda menor a 5, siempre y cuando sea mayor
que 0, es decir el 75% de las celdas (3 celdas de 4) deben ser mayores que 5, esta proporción debe
mantenerse para tablas mayores que 2x2, siempre y cuando los valores sean mayores que 0., en
caso contrario y cuando los valores de la celda están entre 3 y 5 se recomienda usar la corrección
de Yates34, cuando los valores están entre 0 y 2 se debe usar la prueba exacta de Fisher35
33
La Ho en alguna literatura también puede ser: Las variables en filas y columnas no están asociadas. Esto
debido a que la tabla de contingencia expone los datos ordenados en filas y columnas.
34
Ó corrección por continuidad, reduce el valor de la Chi cuadrado.
35
Para variables docotomicas en muestras pequeñas
Ver ejemplo libro: Villaromero y colaboradores, pg.296
Procedimiento
1. Construir la tabla de contingencia de valores observados
Tabla de contingencia (i filas x j columnas)
Caracteristica Y
1 2 …. J Totales
1 fo11 fo12 fo1… fo1j Total Fila 1
Caracteristica 2 fo21 fo22 fo2… fo2j Total Fila 2
X …. fo...1 fo…2 fo…… fo…j Total Fila …
i foi1 foi1 foi… foij Total Fila i
Total Total Total Total Total
Totales Columna 1 Columna 2 Columna … Columna j n
2. Construir la tabla de contingencia de valores esperados (i filas x j columnas)
Caracteristica Y
1 2 …. j Totales
fe11= fe12= fe1…= fe1j= Total Fila
(Tot.Fila1xTot.Colum1) (Tot.Fila1xTot.Colum2) (Tot.Fila1xTot.Colum…) (Tot.Fila1xTot.Columj) Esperada
1 N N N N 1
fe21= fe22= fe2…= fe2j= Total Fila
(Tot.Fila2xTot.Colum1) (Tot.Fila2xTot.Colum2) (Tot.Fila2xTot.Colum…) (Tot.Fila2xTot.Columj) Esperada
2 N N N N 2
Caracteristica
Total Fila
X Esperada
fe..1= fe…1= fe…= fe…j=
Tot.Fila..,xTot.Colum1) (Tot.Fila..,xTot.Colum2) (Tot.Fila..,xTot.Colum…) (Tot.Fila..,xTot.Columj) …
…. N N N N
fei1= fei1= fei…= feij= Total Fila
(Tot.FilaixTot.Colum1) (Tot.FilaixTot.Colum2) (Tot.FilaixTot.Colum…) (Tot.FilaixTot.Columj) Esperada
i N n N n i
Total
Total Columna Total Columna Total Columna Total Columna n
Totales Esperada 1 Esperada 2 Esperada … Esperada j
Note que el Total de la Columna Observada y la Columna esperada es el mismo.

3. Construir una nueva tabla que incluya el valor de la Chi cuadrado para cada casilla
Caracteristica Y
1 2 …. j
( fo11  fe11 ) 2
( fo12  fe12 ) 2
( fo1 j  fe1 j ) 2
112  122  12j 
1 fe11 fe12 … fe1 j
( fo21  fe21 ) 2 ( fo21  fe21 ) 2 ( fo2 j  fe2 j ) 2
Caracteristica  212   212   22 j 
2 fe21 fe21 … fe2 j
X
…. …. … … …
( foi1  fei1 ) 2
( foi 2  fei 2 ) 2
( foij  feij ) 2
 i21   i22   ij2 
I fei1 fei 2 … feij
4. Sumar los valores de cada casilla de la tabla

( foij  feij ) 2
Calculada
2
 
i j feij
( foij  feij ) 2
 2
Calculada    112   21
2
 .... ij2
i j feij
5. Comparar el valor obtenido (calculado) con el de tablas (para p menor a 0.05)
Recuerde que para encontrar el valor en tablas antes se debe calcular los grados de libertad,
los cuales están dados por>
gl  ( filas  1) x ( columnas  1)  ( i  1) x ( j  1)
 Calculada
2
  tablas
2
 Aceptar Ho

Ejemplo de Distribucion Chi - cuadrada y tabla.
Ejemplo
Verifique si existe relación entre tres tipos de tratamiento contra el acné (Tratamiento A, B y C) y
la percepción del tratamiento que declaran los pacientes (siente mejoras con el tratamiento -M,
no siente mejoras con el tratamiento - I), para el siguiente grupo de pacientes entre 15 y 17 años.

TRATAMIENTO
TRATAMIENTO
TRATAMIENTO
TRATAMIENTO
TRATAMIENTO
TRATAMIENTO
TRATAMIENTO
PERCEPCION
PERCEPCION
PERCEPCION
PERCEPCION
PERCEPCION
PERCEPCION
PERCEPCION
SUJETO
SUJETO
SUJETO
SUJETO
SUJETO
SUJETO
SUJETO
1 A M 11 A M 21 A I 31 B M 41 B I 51 C M 61 C M
2 A M 12 A M 22 A I 32 B M 42 B I 52 C M 62 C M
3 A M 13 A M 23 A I 33 B M 43 B I 53 C M 63 C I
4 A M 14 A M 24 A I 34 B M 44 B I 54 C M 64 C I
5 A M 15 A I 25 A I 35 B I 45 B I 55 C M 65 C I
6 A M 16 A I 26 A I 36 B I 46 B I 56 C M 66 C I
7 A M 17 A I 27 B M 37 B I 47 B I 57 C M 67 C I
8 A M 18 A I 28 B M 38 B I 48 B I 58 C M 68 C I
9 A M 19 A I 29 B M 39 B I 49 B I 59 C M 69 C I
10 A M 20 A I 30 B M 40 B I 50 B I 60 C M 70 C I
1. Construir la tabla de contingencia de valores observados
Tabla de contingencia
TRATAMENTO * PERCEPCION
Valores Observados
PERCEPCION
M I Total
TRATAMENTO A 14 12 26
B 8 16 24
C 12 8 20
Total 34 36 70
2. Construir la tabla de contingencia de valores esperados (i filas x j columnas)

Valores Esperados
PERCEPCION
M I Total
TRATAMENTO A 12,63 13,37 26
B 11,66 12,34 24
C 9,71 10,29 20
Total 34 36 70
3. Construir una nueva tabla que incluya el valor de la Chi cuadrado para cada casilla
Componentes Chi Cuadrado
PERCEPCION
M I Total
TRATAMENTO A 0,149 0,141 0,290
B 1,147 1,084 2,231
C 0,538 0,508 1,046

Total 1,834 1,732 3,57
4. Sumar los valores de cada casilla de la tabla
( foij  feij ) 2
 2
Calculada    0,290  2,231  1,046  3,567
i j feij
5. Comparar el valor obtenido (calculado) con el de tablas (para p menor a 0.05)

Recuerde que para encontrar el valor en tablas antes se debe calcular los grados de libertad,
los cuales están dados por:

gl  ( filas  1) x ( columnas  1)  ( 3  1) x ( 2  1)  2
 Calculada
2
  tablas
2
 Aceptar Ho
3,567  5,991  Acepta Ho
En SPSS
Analizar / Estadísticos Descriptivos / Tablas de Contingencia
Pruebas de chi-cuadrado
Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 3,566a 2 ,168

Razón de verosimilitudes 3,621 2 ,164
Asociación lineal por lineal ,073 1 ,788
N de casos válidos 70
a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La

frecuencia mínima esperada es 9,71.
Como el valor de significancia 0,168 es mayor que 0.05 se acepta Ho.
La razón de verosimilitud (Likelihood Ratio en ingles), es una alternativa al estadístico de la chi

cuadrado de pearson, para contrastar la hipótesis de independencia entre variables, mientras que
el estadístico de Chi cuadrado de Pearson se basa en las diferencias entre las frecuencias observadas
y esperadas, la razón de verosimilitud se basa en el cociente entre ellas.
En nuestro ejemplo el cociente de la razón de verosimilitud es 0,164 es decir mayor que 0.05 por lo
que también se acepta la hipótesis nula.
En el caso de que ambos estadísticos sean contradictorios, se debe optar por el más conservador,
es decir el que presente el menor valor p.

Ejemplo 7
Analizar si el efecto del tratamiento dermatológico (A, B, C) para el acné (TRATAMIENTO) depende
del tipo de presentación (PRESENTA).
Después de la aplicación del tratamiento en sus diferentes presentaciones a grupos iguales, se

valora los resultados favorables.
Analizar / Estadísticos Descriptivos / Tablas de Contingencia

Además se debe marcar en Estadisticos Chi cuadrado:
Tratamiento dermatológico * Presentación del tratamiento Crosstabulation
Presentación del tratamiento
Crema Comprimido Polvo Líquido Total
Tratamiento dermatológico A Count 17 4 19 25 65
Expected Count 15,7 16,1 15,4 17,8 65,0
Residual 1,3 -12,1 3,6 7,2
Std. Residual ,3 -3,0 ,9 1,7
B Count 6 22 20 15 63
Expected Count 15,3 15,6 14,9 17,2 63,0
Residual -9,3 6,4 5,1 -2,2
Std. Residual -2,4 1,6 1,3 -,5
C Count 23 21 6 12 62
Expected Count 15,0 15,3 14,7 17,0 62,0
Residual 8,0 5,7 -8,7 -5,0
Std. Residual 2,1 1,4 -2,3 -1,2

Total Count 46 47 45 52 190
Expected Count 46,0 47,0 45,0 52,0 190,0

Chi-Square Tests
Asymp. Sig. (2-

Value Df sided)
Pearson Chi-Square 36,151a 6 ,000

Likelihood Ratio 41,793 6 ,000
Linear-by-Linear Association 11,518 1 ,001
N of Valid Cases 190
a. 0 cells (,0%) have expected count less than 5. The minimum expected
count is 14,68.
Como el valor p, Sig. Asintótica bilateral es 0.000 es menor que 0.05 se rechaza la hipótesis nula,
no se puede aceptar que la probabilidad de obtener un resultado favorable con un tratamiento es
independiente de cual sea la presentación.
La razón de verosimilitud de Ji Cuadrado (Likelihood Ratio), es una alternativa al estadístico de la

chi cuadrado de pearson, para contrastar la hipótesis de independencia entre variables, mientras
que el estadístico de Chi cuadrado de Pearson se basa en las diferencias entre las frecuencias
observadas y esperadas, la razón de verosimilitud se basa en el cociente entre ellas.
En nuestro ejemplo el cociente de la razón de verosimilitud es 0.000 es decir menor que 0.05 por
lo que también se rechazara la hipótesis nula.
En el caso de que ambos estadísticos sean contradictorios, se debe optar por el más conservador,
es decir el que presente el menor valor p.

TEMA:
EL COEFICIENTE DE CORRELACION DE PEARSON Y SPEARMAN
El Coeficiente de correlación de Pearson y Spearman, tiene una frecuente utilización en tablas de

contingencia y en estudios ecológicos, buscan establecer el grado de relación lineal entre dos
variables cuantitativas, para el caso de Spearman que sean continuas y tengan una distribución
normal, para el caso de Spearman que sean continuas o categóricas pero ordinales.
Medida de Escala de
Observaciones
Asociación medida
Correlación intervalo  Son medidas del grado de asociación lineal entre
de Pearson (continuo con las dos variables.
distribución  Los coeficientes de correlación de Pearson y de
normal) Spearman toman valores comprendidos entre -1
y 1, que indican máximo grado de asociación
lineal negativa y positiva, respectivamente.
Correlación intervalo (u  La correlación de Sperman es la correlación de
de Spearman ordinal) Pearson entre los rangos asignados a los valores
ordenados.
 La medida de asociación lineal de Mantel-
Haenszel se define como el cuadrado del
coeficiente de correlación de Pearson
multiplicado por (N-1), siendo N el tamaño
muestral.
Fuente: En base a Magdalena Ferran
Prueba de Hipótesis
Ho: rxy = 0
H1: rxy 0
En caso del coeficiente de correlacion de Spearman se usa el símbolo:
Ho: rsxy = 0
H1: rsxy 0
Lo cual se interpreta como:
Ho: No existe relación entre la variable X y Y
H1: Existe relación entre la variable X y Y

Covarianza
Una medida alternativa para analizar si existe asociación es la covarianza la cual se constituye
también en un insumo para el cálculo del coeficiente de correlación y posteriormente para las
regresiones.
covarianza es un valor que indica el grado de variación conjunta de dos variables aleatorias
respecto a sus medias. Es el dato básico para determinar si existe una dependencia entre ambas
variables y además es el dato necesario para estimar otros parámetros básicos, como el
coeficiente de correlación lineal o la recta de regresión.
Cuando los valores altos de una de las variables suelen mayoritariamente corresponderse con los
valores altos de la otra, y lo mismo se verifica para los pequeños valores de una con los de la otra,
se corrobora que tienden a mostrar similar comportamiento lo que se refleja en un valor positivo
de la covarianza1
Por el contrario, cuando a los mayores valores de una variable suelen corresponder en general los
menores de la otra, expresando un comportamiento opuesto, la covarianza es negativa.
 Xi  X Yi  Y 
n
S xy  i 1
 Xi  X Yi  Y 
n
Sxy  i 1
n
n
x y i i
Sxy  i 1
 X ·Y
n
Interpretación:
Sxy positivo: covarianza positiva
Sxy negativo: covarianza negativa
Sxy cero: ausencia de covariación
Propiedades
1. El índice es capaz de discriminar entre los tres tipos de relación lineal
2. Problemas en la interpretación:
a) Depende de las unidades de medida de las variables (no permite comparar)
b) Es un valor no acotado (carece de máximos y mínimos estables) con lo cual no tenemos

información sobre su cuantía y es difícil su interpretación
Solución: Coeficiente de correlación de Pearson (Rxy)
Coeficiente de Correlacion de Pearson
n XiYi   Xi  Yi 
rxy 
n Xi 2   Xi  n Yi 2   Yi 
2 2
rxy 
x yi
i·
n·Sx·Sy
Sxy
rxy 
Sx·Sy
El coeficiente varía entre -1 y 1, cuando es negativo la relación es inversa y cuando es positivo la

relación es directa, cuando se acerca a 0 no hay relación entre variables.
DIRECTAS.- Cuando una variable sube, también sube la otra variable. Ejemplo: La
relación entre el grado de educación X y el estado de Salud den General Y.
X - Y
INVERSAS.- Cuando una variable sube, la otra baja, o viceversa. Ejemplo:

Cuando se reduce la pobreza X, se mejora el estado de salud Y.
X - Y

Cuando el coeficiente de correlación se eleva al cuadrado se obtiene el coeficiente de

determinación, el cual mide la asociación entre variables, el mismo va desde 0 hasta 1, en 0
mantiene la interpretación, referida a que no existe relación entre variables y con 1 la relación es
perfecta.
Coeficiente de Correlacion de Spearman
Es aplicado en variables cuantitativas discretas, ordinales, es recomendable usar el coeficiente

de correlación de Sparman, el cual tiene la misma interpretación que el coeficiente de
correlacion de Pearson
6 d 2
rs xy  1 
n(n  1)(n  1)
Donde d, corresponde a la diferencia de rangos.
x y Rangos x Rangos y Diferencia de

(orden de (orden de Rangos
menor a menor a d2
mayor) mayor) (d)
Ej.
2 1 1 1
1 2 -1 1
3 3 0
4 5 -1
5 4 1
… … ..
n n 0
Suma d2
 En la interpretación de Rxy hay que separar dos aspectos distintos: su cuantía y su

sentido. La cuantía se refiere al grado en que la relación entre dos variables queda bien

definida con un índice de asociación lineal como R. Mientras que el sentido se refiere al
tipo de relación lineal: positiva (directa), negativa (inversa) o nula (no hay relación).
Una relación de tipo lineal entre las variables no implica relación de tipo causal (X no tiene por
qué causar a Y, aunque estén relacionadas linealmente).
Ejemplo: Ver Villa Romero Et Al. Pg.307
Procedimiento
En el SPSS
Analizar / Estadisticos Descriptivos / Tablas de contingencia
Si p es menor que 0.05 se rechaza Ho.
De la misma manea se puede obtener en SPSS las correlaciones en
Analizar / Correlaciones / Bivariadas
Tickear Pearson y/o Spearman


TEMA:
OTRAS MEDIDAS DE ASOCIACION PARA TABLAS DE CONTINGENCIA
Medida de Escala de
Tabla Observaciones
asociación medida
Phi Coeficiente 2x2rxc nominales  Son medidas basadas en el estadístico Ji- cuadrado.
de nominales  Toman valores comprendidos entre 0 y 1, que
contingencia indican mínimo y máximo grado de asociación,
respectivamente.
V de Cramer Rxc nominales  Phi presenta el inconveniente de que puede
alcanzar valores superiores a 1 en tablas r x c; el
coeficiente de contingencia depende de una cota
superior y la V de Cramer tiende a subestimar la
asociación. Además, pueden tomar el mismo valor
en muestras con tamaños muy diferentes.
 Son útiles para comparar grados de asociación
entre pares de variables observadas sobre un
mismo conjunto de individuos.
Riesgo Relativo 2x2 nominales  Toma valores positivos. Si las variables son
independientes su valor será próximo a 1.
 Compara los dos grupos establecidos por los
valores de una de las variables en términos de la
frecuencia con que presentan cada uno de los
valores de la otra.
 Admite la posibilidad de distinguir entre grupo de
control y experimental.
Medidas de asociación para tablas de contingencia (continuación)

Medida de Escala de
Tabla Observaciones
asociación medida
Lambda Rxc nominales  Toman valores comprendidos
entre 0 y 1, que indican
mínimo y máximo grado de
asociación, respectivamente.
Coeficiente Rxc nominales  Disponen de versión
de asimétrica.
incertidumbre  Lambda es fácil de interpretar
en términos de la proporción
en que se reduce el error en la
predicción del valor de una
variable a partir de los valores
de la otra, sin embargo, puede
tomar el mínimo valor en
tablas con asociación.
 El coeficiente de
incertidumbre únicamente
toma el valor cero en tablas
con no asociación; sin
embargo, su valor es mas
difícil de interpretar que el de
Lambda.

Kappa Rxr ordinales  Los posibles valores de las dos

variables son los mismos.
 Toma valores comprendidos entre -1
y 1, que indican, respectivamente,
mínimo y máximo grado de acuerdo
entre los valores de las dos variables.
Gamma Rxc ordinales  Toman valores comprendidos entre -
1 y 1, que indican máximo grado de
asociación negativa y positiva,
respectivamente.
Tau b de Rxc ordinales  Gamma es fácil de interpretar, pero
Kendall puede alcanzar valores extremos en
tablas en las que la asociación no es
total.
Tau c de Rxc ordinales
 Tau b únicamente alcanza valores
Kendall extremos en tablas con asociación
total sin embargo, si r es distinto de c
no puede alcanzarlo.
D de Somers Rxc ordinales  Tau c puede alcanzar valores
extremos aun en el caso de que r sea
distinto de c sin embargo, tiende a
subestimar la asociación.
 D dispone de versión asimétrica; sin

embargo, puede alcanzar valores
extremos en tablas en las que la
asociación no es total.
Medidas de asociación para escala de intervalo o de razón
Medida de Escala de
Observaciones
Asociación medida
Eta V.D.: intervalo  Los valores de la variable independiente
V.I.: nominal establecen grupos en la población.
 Toma valores entre 0 y 1.
 Cuanto mas próximo a 1 sea su valor mas
diferenciados estarán los grupos en términos de
las puntuaciones de la variable dependiente
(mayor será la dependencia de las puntuaciones
respecto de los grupos).

Correlación intervalo  Son medidas del grado de asociación lineal entre

de Pearson las dos variables.
Correlación intervalo (u  Los coeficientes de correlación de Pearson y de
de Spearman ordinal) Sperman toman valores comprendidos entre -1 y
1, que indican máximo grado de asociación lineal
negativa y positiva, respectivamente.
Asociación lineal intervalo  La correlación de Sperman es la correlación de
Mantel- Haensel Pearson entre los rangos asignados a los valores
ordenados.
 La medida de asociación lineal de Mantel-
Haenszel se define como el cuadrado del
coeficiente de correlación de Pearson
multiplicado por (N-1), siendo N el tamaño
muestral.
Fuente: Magdalena Ferran


Apuntes Estadistica Vs14

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes Estadistica Vs14

Cargado por

Copyright:

Formatos disponibles

APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Una propuesta para su aplicación en la Salud Pública

Vicente Waldo Aguirre Tarquino

Vicente Waldo Aguirre Tarquino 1

COMPARACION ENTRE POBLACIONES NO RELACIONADAS: LA CHI CUADRADA

Una propuesta para su aplicación en la Salud Pública

Vicente Waldo Aguirre Tarquino

- Estadística viene del vocablo Estado (por los primeros

Vicente Waldo Aguirre Tarquino 2

- Proporciona a la Epidemiologia objetividad.

- Permite al Epidemiólogo y Salubrista encontrar respuestas a

Estadística Aplicada Definición

- Metodología de trabajo científico que utiliza métodos

Vicente Waldo Aguirre Tarquino 3

- La población (denominada N) es el conjunto de todos los

- Estadística Descriptiva e Inferencia Estadística

Vicente Waldo Aguirre Tarquino 4

Resume, Clasifica: Var. Cuantivativas Var. Cualititativas Generliza datos

Medidas de Tendencia Estima parametros

Medidas de Localización Prueba Hipotesis

- Estadística Clásica y Estadística Bayesiana

Vicente Waldo Aguirre Tarquino 5

Método para organizar y analizar la información (en base a Cruz

RECOLECCION CLASIFICACION PRESENTACION DESRIPCION ANALISIS

1. Recolección. Proceso de obtención de información, que

Se aclara que el proceso de recolección implica la

errores en la obtención de la información, por lo cual el

2. Clasificación. Implica la organización de la información, se

3. Presentación. Implica organizar la información en Tablas,

- Presentación de los datos estadísticos

4. Descripción. Implica el cálculo de medidas descriptivas

Recuerde que las medidas obtenidas de la población se

5. Análisis. En este acápite se procede a la realización de las

Vicente Waldo Aguirre Tarquino 8

Las variables son atributos, características de las cosas, animales,

Momento en que deben ser definidas las variables.

En los estudios cuantitativos las variables surgen al momento

Vicente Waldo Aguirre Tarquino 9

o Cualitativa6, cualidad que se describe, se define y

Asimismo metodológicamente se pueden clasificar en cuanto a

Planteamiento del problema, hipótesis, tipos de variables y su

Las preguntas de investigación generan hipótesis, las cuales

Ejercicio. Estudie las páginas 335 a la 337 del Manual de

Vicente Waldo Aguirre Tarquino 10

Vicente Waldo Aguirre Tarquino 11

¿Cuál es el efecto de la Violencia Intrafamiliar sobre los Ingresos

Los Ingresos de las Familias que sufren Violencia Intrafamiliar

V1: Ingresos Económicos de las Familias

V2: Violencia Intrafamiliar.

Vicente Waldo Aguirre Tarquino 12

VARIABLE: Ingresos de las Familias

DEFINICIÓN DEFINICIÓN OPERATIVA

Cantidad de Sueldos y Suma de la Valor

Ejercicio. Lea y revise teoría sobre la definición de Violencia

VARIABLE: Violencia Intrafamiliar

DEFINICIÓN DEFINICIÓN OPERATIVA

Para el caso de la Variable Ingresos Económicos, a su vez la

Ejercicio. Para el trabajo de investigación que está llevando o

Vicente Waldo Aguirre Tarquino 14

DEFINICIÓN DEFINICIÓN OPERATIVA

Para las dimensiones identificadas, complete el cuadro de

Vicente Waldo Aguirre Tarquino 15

Recuerde que un insumo importante, para llenar el cuadro es el

Vicente Waldo Aguirre Tarquino 16