Está en la página 1de 172

APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

ESTADISTICA APLICADA

Una propuesta para su aplicación en la Salud Pública

Vicente Waldo Aguirre Tarquino

Contenido
TEMA .................................................................................................................................................. 2
CONCEPTOS BASICOS ................................................................................................................... 2
TEMA: ................................................................................................................................................. 9
LAS VARIABLES ................................................................................................................................ 9
TEMA: ............................................................................................................................................... 17
TABLAS ESTADISTICAS: LA DISTRIBUCION DE FRECUENCIAS .............................................. 17
TEMA: ............................................................................................................................................... 32
MEDIDAS DE TENDENCIA CENTRAL........................................................................................... 32
TEMA: ............................................................................................................................................... 37
MEDIDAS DE LOCALIZACIÓN ..................................................................................................... 37
TEMA: ............................................................................................................................................... 44
MEDIDAS DE DISPERSIÓN ............................................................................................................ 44
TEMA: ............................................................................................................................................... 54
LA DISTRIBUCION NORMAL ........................................................................................................ 54
TEMA: .............................................................................................................................................. 66
INFERENCIA ESTADISTICA Y PRUEBAS DE HIPOTESIS ................................................. 66
TEMA: .............................................................................................................................................. 85
PRUEBAS DE NORMALIDAD .................................................................................................... 85
TEMA: .............................................................................................................................................. 97
PRUEBAS PARAMETRICAS: LA t-STUDENT ........................................................................ 97
TEMA: ............................................................................................................................................ 119
PRUEBAS PARAMETRICAS: EL ANALISIS DE VARIANZA ............................................ 119
TEMA: ............................................................................................................................................ 128
PRUEBAS NO PARAMETRICAS ............................................................................................. 128
TEMA: ............................................................................................................................................ 152

Vicente Waldo Aguirre Tarquino 1


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

COMPARACION ENTRE POBLACIONES NO RELACIONADAS: LA CHI CUADRADA


DE PEARSON, ............................................................................................................................. 152
TEMA: ............................................................................................................................................ 162
EL COEFICIENTE DE CORRELACION DE PEARSON Y SPEARMAN ........................... 162
TEMA: ............................................................................................................................................ 168
OTRAS MEDIDAS DE ASOCIACION PARA TABLAS DE CONTINGENCIA .................. 168

ESTADISTICA APLICADA

Una propuesta para su aplicación en la Salud Pública

Vicente Waldo Aguirre Tarquino

TEMA

CONCEPTOS BASICOS
Introducción

- Estadística viene del vocablo Estado (por los primeros


registros)
- Estadística sitial privilegiado
- Permite romper las fronteras del conocimiento
- Discrimina entre opiniones arbitrarias.
- Se fundamenta el ciencia matemática
- Se relaciona con los diferentes fenómenos sociales y
naturales
- Se aplica en el análisis de la investigación
- Le interesa el conjunto de datos y no los hechos aislados,
en la metodología, le interesa el aspecto cuantitativo y
cualitativo.
- Amplia bibliografía y especialidad

Vicente Waldo Aguirre Tarquino 2


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Estadística y Epidemiologia

- Proporciona a la Epidemiologia objetividad.


- Prueba relaciones lógicas. Ej.
o Enfermedad = f (x, y, z); donde x, y, z representan
factores de riesgo para que esté presente la
enfermedad.

- Permite al Epidemiólogo y Salubrista encontrar respuestas a


preguntas como:
- ¿Qué factores aumentan la probabilidad de contraer la
enfermedad x?
- ¿Cuál es la eficacia de un nuevo fármaco o tecnología
médica?
- ¿Existe relación entre algún habito de vida “x” y la
enfermedad “y”?

Estadística Aplicada Definición

- Metodología de trabajo científico que utiliza métodos


propios, mediante los cuales se recopilan organizan,
presentan, analizan, contrastan e interpretan los datos
estadísticos, que se refieren a un hecho cuantificado.
- Tomar decisiones (algunas de ellas en condiciones de
incertidumbre)
- Determinar afirmaciones sobre un conjunto de datos
llamados población (enfoque deductivo).
- La notación matemática se minimiza, lo que importa es la
aplicación de tópicos.
- Son aplicaciones directas a un conjunto de conocimientos
específico.

Vicente Waldo Aguirre Tarquino 3


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Población y Muestra

- La población (denominada N) es el conjunto de todos los


datos.
- La muestra (n) es una parte de los elementos de la
población, es decir un subconjunto de la población (tiene
utilidad práctica y económica),
o Los datos estadísticos es el conjunto de datos que
pueden ser clasificados, comparados, analizados y
del resultado del análisis se pueden interpretar los
datos o inferir resultados

- Estadística Descriptiva e Inferencia Estadística


o ED: parte de la estadística que tiene por objeto
recopilar, resumir, clasificar, presentar y describir los
datos.
 Deduce sobre su estructura y composición
o IE. Toma decisiones con respecto a una población,
basadas en una muestra de la población, como esta
se realizan en condiciones de incertidumbre se utiliza
la teoría de la probabilidad.

Vicente Waldo Aguirre Tarquino 4


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

ESTADISTICA

DESCRIPTIVA INFEREENCIAL

Resume, Clasifica: Var. Cuantivativas Var. Cualititativas Generliza datos

Medidas de Tendencia Estima parametros


Central (Puntuales y de Intervalo

Medidas de Localización Prueba Hipotesis

Medidas de Dispersion

- Estadística Clásica y Estadística Bayesiana


o EC: Excluye todo juicio personal
o EB: Incorpora juicios personales (Ej. Dilema del
prisionero).

Vicente Waldo Aguirre Tarquino 5


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Método para organizar y analizar la información (en base a Cruz


et. al.)

RECOLECCION CLASIFICACION PRESENTACION DESRIPCION ANALISIS

1. Recolección. Proceso de obtención de información, que


puede ser realizado a través de medidas directas e
indirectas o la combinación de ambas. La obtención de
medidas indirectas se la realiza a través de instrumentos:
Marcadores Biometricos, Glucometros, Balanzas,
Tensiometros, etc. Las indirectas se consiguen a través de
cuestionarios (fuentes primarias), o fuentes de información
secundarias1.

Se aclara que el proceso de recolección implica la


aplicación de técnicas de recolección a objeto de evitar

1
Por ejemplo: Una buena fuente para investigaciones las constituyen las bases de datos del Instituto Nacional
de Estadística, la Información proporcionada por el Sistema Nacional de Información en Salud, las encuestas
generadas por los institutos de investigaciónón, etc.
Vicente Waldo Aguirre Tarquino 6
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

errores en la obtención de la información, por lo cual el


equipo debe capacitar sobre el uso de los instrumentos, la
aplicación del cuestionario, la revisión de los mismos a
objeto de usar preguntas estandarizadas y la realización de
aplicaciones piloto a objeto de identificar errores y prevenir
los mismos en las pruebas definitivas.

2. Clasificación. Implica la organización de la información, se


la puede clasificar según el ámbito, la unidad muestral, y se
la organiza por ejemplo de mayor a menor. Esta etapa
incluye la tabulación2 de la información que permita
organizar la misma. La misma puede ser manual o utilizando
algún software estadístico.

3. Presentación. Implica organizar la información en Tablas,


Gráficos, Infogramas, etc3. En el campo de la estadística los
más frecuentes son:

- Presentación de los datos estadísticos


o Representaciones Graficas
 Histograma
 Polígono de frecuencias
 Barras
 Barras de componentes
 Barras de comparación
 Líneas
 Tortas

2
A efectos de asegurar la tabulación de datos, se debe aplicar herramientas que permitan identificar y
corregir errores, por ejemplo la tabulación por doble ciego.
3
Las tablas y gráficos deben tener: Titulo (incluye la/s variable/s, lugar, año), Subtitulo que referencia la
unidad de medida de la variable o su escala, el detalle de datos estadísticos con la debida referencia (Ej, en
caso de cuadro títulos de columnas y filas, en caso de graficos referencias a los signos o colores), fuente y
elaboración, notas que expliquen las abreviaturas y símbolos utilizados.
Vicente Waldo Aguirre Tarquino 7
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

 Dispersión
 Telaraña
 Diagrama de tallos y hojas
 Diagrama de cajas
o Tablas estadísticas
 Frecuencias absolutas y relativas
 Cuadros de distribución de frecuencias
 Polígono de frecuencias

4. Descripción. Implica el cálculo de medidas descriptivas


para las variables (Medidas de tendencia central, de
posición, de dispersión, razones, tasas, proporciones, etc).

Recuerde que las medidas obtenidas de la población se


llaman parámetros, y los de la muestra estimadores o
estadísticos.

5. Análisis. En este acápite se procede a la realización de las


pruebas de hipótesis y la toma de decisiones en base a la
significancia de la prueba.

Vicente Waldo Aguirre Tarquino 8


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

TEMA:

LAS VARIABLES

Definición.

Las variables son atributos, características de las cosas, animales,


de las personas y sujetos de investigación en general
(denominados unidad de observación), que tienen la propiedad
de variar (cambiar)4.

Momento en que deben ser definidas las variables.

En los estudios cuantitativos las variables surgen al momento


definir la o las hipótesis de investigación5, las mismas que deben
ser ajustadas para operar y se basan en el marco teórico que
sustentara la investigación, sin embargo en los estudios
cualitativos, generalmente de tipo analítico (correlacional o
explicativo) pueden ser definidas durante la investigación. No
obstante lo mencionado, es recomendable que siempre sean
definidas antes del levantamiento de información.

Tipos de variables:

- Cuantitativas o cualitativas
o Cuantitativas: atributo que puede medirse, a su vez
son:
 Discreta (No existe un valor intermedio)
 Continua

4
Pueden encontrarse en un estado constante y no cambiar, pero deja de ser variable. Ejemplo: Las
características de las mujeres que sufren violencia intrafamiliar pueden ser: Edad, estado civil, número de
hijos, escolaridad. Pudiendo cambiar todas estas características pero no la constante, que es el hecho de ser
“mujer”.
5
La hipótesis es la respuesta tentativa a la pregunta de investigación (pueden ser varias), las mismas están
planteadas en forma de proposición, y se apoyan en el conocimiento aportado por el marco teórico, se
verifican en la investigación, pudiendo ser aceptadas o rechazadas las proposiciones

Vicente Waldo Aguirre Tarquino 9


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

o Cualitativa6, cualidad que se describe, se define y


mesura de la definición operativa, pueden a su vez
ser:
 Ordinales
o Dicotómicas
o Polinómicas
 Nominales
o Dicotómicas
o Polinómicas

Asimismo metodológicamente se pueden clasificar en cuanto a


cuál de las variables es la causa (independiente), o si son el
efecto (dependiente), o también en exógenas (no controladas)
o endógenas (controladas).

Planteamiento del problema, hipótesis, tipos de variables y su


operacionalización.

Las preguntas de investigación generan hipótesis, las cuales


contienen variables, al ser definidas las variables en términos
operativos, surgen dimensiones, indicadores y valores, estos
valores representan las características de las variables y sus
dimensiones (que pueden también representar otras variables),
esta definición resulta importante a efectos de poder desarrollar
los instrumentos y herramientas de recolección de información.

Ejercicio. Estudie las páginas 335 a la 337 del Manual de


Investigación en Salud (De la Galvez, Pando, Padilla y Pérez. 2012)
y la página 218 del libro Epidemiologia y Estadística en Salud
Pública (Villa, Moreno y García. 2011).

6
No confundir la investigación cualitativa y cuantitativa con las variables cuantitativas y
cualitativas.

Vicente Waldo Aguirre Tarquino 10


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Vicente Waldo Aguirre Tarquino 11


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Ejemplo.

Pregunta de Investigación

¿Cuál es el efecto de la Violencia Intrafamiliar sobre los Ingresos


y Patrimonio Económico de las Familias que son víctimas?

Hipótesis:

Los Ingresos de las Familias que sufren Violencia Intrafamiliar


disminuyen.

Variables:

V1: Ingresos Económicos de las Familias

V2: Violencia Intrafamiliar.

Vicente Waldo Aguirre Tarquino 12


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

VARIABLE: Ingresos de las Familias

DEFINICIÓN DE LA VARIABLE

DEFINICIÓN DEFINICIÓN OPERATIVA


CONCEPTUAL
DIMENSIÓN INDICADOR VALORES

Cantidad de Sueldos y Suma de la Valor


dinero en salarios cantidad de continuo
Bolivianos que Dinero que mayor o igual
todos los miembros percibieron a “0”
de una familia todos los
Jornales
perciben, por miembros de la
concepto de familia por cada
sueldos, salarios, uno de los
jornales, utilidades Utilidades del conceptos
del negocio negocio detallados en la
familiar, rentas dimensión
(alquiler o durante el
dividendos de Rentas por último año (de
activos), en un alquiler enero a
año. diciembre)

Nota. No incluye
aquellos recursos Rentas por
derivados de la acciones
venta de activos
que son parte del
patrimonio ni
proveniente de
préstamos. 7

Ejercicio. Lea y revise teoría sobre la definición de Violencia


Intrafamiliar y complete el siguiente cuadro.

7
En algunos casos la nota puede ser innecesaria en razón de que la definición no considera estos aspectos.
Vicente Waldo Aguirre Tarquino 13
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

VARIABLE: Violencia Intrafamiliar

DEFINICIÓN DE LA VARIABLE

DEFINICIÓN DEFINICIÓN OPERATIVA


CONCEPTUAL
DIMENSIÓN INDICADOR VALORES

Para el caso de la Variable Ingresos Económicos, a su vez la


misma tiene varias dimensiones, las cuales pueden ser
desarrolladas en preguntas, las cuales contienen variables que
debemos definirlas

Ejercicio. Para el trabajo de investigación que está llevando o


llevara a cabo complete el siguiente cuadro:

VARIABLE:

Vicente Waldo Aguirre Tarquino 14


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

DEFINICIÓN DE LA VARIABLE

DEFINICIÓN DEFINICIÓN OPERATIVA


CONCEPTUAL
DIMENSIÓN INDICADOR VALORES

Para las dimensiones identificadas, complete el cuadro de


clasificación de variables.
Varia Instrum Clasificación Clasificación Estadística
ble ento de Definición Metodológica
Medició (marcar una x)
n Concep Operaci Dependi Independ Cuantitativa Cualitativa
(Descri tual onal ente iente (Describir la (Describir
ba el unidad de los valores
instrum (Exógen (Endóge medida) que puede
ento y la a, que na, que tomar)
pregunt no puede Conti Discr Nomi Ordi
a) puede ser nua eta nal nal
ser controlad
controla a)
da)
Consu Cuestion Fumar Es la X Si
mo de ario: es una aceptaci y
Tabac ¿Fumo práctica ón (si) o No
o durante donde negació
el se n (no) al
embaraz quema hecho
o? o inhala de fumar
tabaco en el
embaraz
o

Vicente Waldo Aguirre Tarquino 15


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Recuerde que un insumo importante, para llenar el cuadro es el


marco teórico, el cual nos brindara información por ejemplo,
sobre las definiciones, como en otras experiencias se ha medido
la variable, etc. No es recomendable completar el cuadro y
aplicarlo sin revisar la literatura existente.

Vicente Waldo Aguirre Tarquino 16


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

TEMA:

TABLAS ESTADISTICAS: LA DISTRIBUCION DE FRECUENCIAS

Frecuencias absolutas y relativas

- Resumen la información.
- Parte de Datos Brutos, pues estos no se encuentran
clasificados (utilizando frecuencias).
- Cuando las tablas se acompañan de frecuencias reciben
el nombre de TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS

Frecuencia Absoluta: Número de veces que se repite un


determinado valor de una variable: fi

Frecuencias Relativas: Porcentaje que corresponde a cada


valor que toma la variable: hi

Frecuencia Absoluta Acumulada: Es la suma de frecuencias


absolutas hasta una determinada frecuencia relativa: Fi

Frecuencia Relativa Acumulada: Es la suma de frecuencias


relativas hasta una determinada frecuencia relativa: Hi

Vicente Waldo Aguirre Tarquino 17


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Ejemplo:

Variable Edad

Ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Xi 18 19 21 22 23 23 24 20 18 18 21 22 22 23 23

Ni 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Xi 24 20 19 19 21 22 22 23 23 24 19 19 23 23 18

Ejercicio

Xi: Número de Hijos


Ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Xi 1 2 3 3 2 5 6 1 2 3 2 5 6 3 2 2 1 1 2 3 5 4 3 3 2 2 1 2 2 3

Ejercicio

Xi: Número de Hijos

Vicente Waldo Aguirre Tarquino 18


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Edad fi Fi hi Hi
18 4 4 0,13 0,13

19 5 9 0,17 0,30

20 2 11 0,07 0,37

21 3 14 0,10 0,47

22 5 19 0,17 0,63

23 8 27 0,27 0,90

24 3 30 0,10 1,00

Total 30 1,00

(En algunos textos se simboliza ni )

N = Total datos observados (Población N o en caso de muestra


n)

Algunas Formulas

hi=fi / N

f1 + f2 + f3 + f4 + fk = N

La suma de las F. Absolutas es igual a la totalidad de datos


observados
k

f
i 1
i N

La suma de las F. Relativas es igual a 1 ó al 100%:

Vicente Waldo Aguirre Tarquino 19


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

h
i 1
i 1

Cuando la variable asume muchos valores se debe agruparlo


en intervalos y el número de intervalos no debe exceder de 10
preferentemente.

En caso de variables continuas es recomendable su utilización.

Contienen un Límite Inferior (Li-1)y un Limite Superior (Li), estos se


constituyen en pares ordenados.

Se utiliza algunas fórmulas para su construcción

Rango especifico (Re) = Valor Máximo – Valor Mínimo + 1

Número de intervalos8

k n

También se puede usar la fórmula propuesta por Sturges:

K=1+3.322 (log10 n)

Usar según corresponda n o N

Usar un máximo de 10 intervalos, si el resultado de k valor es


mayor a 10 se recomienda usar 10.

Amplitud del intervalo (anchura de un intervalo):

Ci = Re / k

Ci =Li- Li-1

Marca de clase

8
En este libro se propone dos maneras, pero existen varias, incluso se pueden elaborar histogramas
agrupando las variables por conveniencia Ej. Población por grupos etarios importantes para salud.
Vicente Waldo Aguirre Tarquino 20
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

L i-1  L i
x
2

La demás simbología es la misma; fi, hi, Fi, Hi

Ejemplo:

Fuente: Presupuesto Público para niños, niñas y adolescentes en


Bolivia. UNICEF. MEFP, Red parlamentaria por la niñez y
adolescencia.

Ejercicio. Analice y reproduzca la tabla de distribución de


frecuencias de la página 215 del libro de Epidemiologia y
Estadística de Villa, Romero y García (2011)

Vicente Waldo Aguirre Tarquino 21


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Ejercicio. Elabore una tabla de distribución de frecuencias de la


siguiente variable que corresponde al Gasto Mensual en
Medicamentos de un grupo de familias (En Bolivianos).

320 158 198 183 210 263 270 197 234 200 258 268 230 231 300 240 211 269 190 279
175 205 259 261 150 350 199 251 218 240 110 120 238 206 260 115 160 288 253 261

Vicente Waldo Aguirre Tarquino 22


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Resultado Manual
Marca de
Li-1 Li
Clase Xi Fi

Note que el Limite Superior (Li), no contiene al valor Li, solo hasta
valores menores, es decir el primer intervalo va de 110 hasta
valores menores a 150 y el segundo de 150 hasta valores menores
a 190 y así sucesivamente.

Histograma y polígono de frecuencias

18

16

14

12

10

0
110-150 150-190 190-230 230-270 270-310 310-350

Vicente Waldo Aguirre Tarquino 23


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

18

16

14

12

10

0
130 170 210 250 290 330

Ejercicio:

Observando el grafico de barras y la distribución de frecuencias


interprete los resultados.

Ejemplo EDSA 2016

Vicente Waldo Aguirre Tarquino 24


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

En SPSS

Ir a Transformar / Agrupación visual /Crear puntos de corte,

Luego calcular:

Posición del primer punto de corte = Amplitud del Intervalo más


Valor Mínimo

C=Re / k = 40

Número de puntos de corte = k-1 (6-1=5)

Número de intervalos deseados menos 1

La anchura se calcula automáticamente

Luego crear etiquetas y poner nombre

Vicente Waldo Aguirre Tarquino 25


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Luego obtener la distribución de frecuencias

Ir a Analizar/ Estadisticos Descriptivos /Frecuencias

Seleccionar la variable creada y presionar aceptar

Resultado SPSS

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado

Válidos <= 150,00 4 10,0 10,0 10,0

151,00 - 190,00 5 12,5 12,5 22,5

191,00 - 230,00 10 25,0 25,0 47,5

231,00 - 270,00 16 40,0 40,0 87,5

271,00 - 310,00 3 7,5 7,5 95,0

311,00+ 2 5,0 5,0 100,0

Total 40 100,0 100,0

Note que con el cálculo manual hay una pequeña diferencia,


debido a los límites usados.

También puede generarse automáticamente los puntos de


corte, usando percentiles, por ejemplo agrupando en cada
20%, se tendría 4 puntos de corte:

Vicente Waldo Aguirre Tarquino 26


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Después de presionar aplicar, se debe incluir crear etiquetas y


poner nombre a la nueva variable

Histograma

Puede ser definido como un gráfico de barras, en el cual en el


centro lleva la marca de clase en el eje de las Abscisas (X) y en
su longitud se tiene el intervalo de clase y los rectángulos
alcanzan la altura de las frecuencias.

En SPSS se debe ir a:

Analizar / Estadísticos Descriptivos / Frecuencias / Gráficos /


Histogramas / Marcar Mostrar curva normal

Vicente Waldo Aguirre Tarquino 27


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Como el grafico no permite visualizar valores, es necesario usar


la opción grafico de barras y marcar como valores del gráfico:
frecuencias

Distribución de Frecuencias por Conveniencia

El investigador, puede querer exponer los datos de acuerdo a


algún criterio técnico, por ejemplo agrupar las edades, de

Vicente Waldo Aguirre Tarquino 28


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

acuerdo a los grupos etareos en salud, para ello, de forma


manual se debe agrupar los datos.

Transformar / Recodificar en distinta variable / Valores Antiguos


Nuevos

Por ejemplo se puede recodificar la edad, a efectos de que


responda al interés de salubrista, en la cual le interese la
población menor a la de 5 años.

De 0 a 5 años, con el valor 1 (opción de rango)

Vicente Waldo Aguirre Tarquino 29


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Antes de finalizar se apunta el nombre de la variable, se


presiona cambiar y aceptar

Esto genera una nueva variable “AgrupSalud”, a la cual se le


debe asignar valores.

Vicente Waldo Aguirre Tarquino 30


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Y finalmente, se obtiene las frecuencias analizadas

AgrupSAlud

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado

Válidos Menores de 5 años 5 7,7 7,7 7,7

Niños de 6 a 14 4 6,2 6,2 13,8

Adolescentes de 15 a 20 3 4,6 4,6 18,5

Resto 53 81,5 81,5 100,0

Total 65 100,0 100,0

Vicente Waldo Aguirre Tarquino 31


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

TEMA:

MEDIDAS DE TENDENCIA CENTRAL

Media Aritmética

Permite resumir un conjunto de datos de manera que estos


queden representados por un valor que resulta ser el promedio
de estos.

La Media para una muestra estaría dada por:


n

x i
x1  x 2  .... x n
x 1

n n

La Media para la Población:


n

x i
x1  x 2  .... x n
x 1

N N

En el caso de datos agrupados se debe multiplicar fi


n

x f i i
x1 f1  x 2 f 2  .... x n f n
x 1

n n

Vicente Waldo Aguirre Tarquino 32


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

x f i i
x1 f1  x 2 f 2  .... x n f n
x 1

N N

Media Aritmética Ponderada

Si bien la media puede representar al conjunto de datos, a veces


puede estar afectada por la varianza de los mismos o por valores
extremos, por lo que se debe probar su representatividad a partir
del Coeficiente de Variación.

Propiedades de la Media Aritmética

a) La suma de los desvíos de la variable respecto a la media


es igual acero.
b) La media de una constante es igual a la misma constante.
c) Si los valores de una variable se suman (o restan) a una
constante K, la Media Aritmética es igual a la constante
sumada (o restada) por la media.
d) La media de una variable multiplicada por una constante
es igual a la constante por la media antes de ser
multiplicada.
e) La media aritmética de la suma o resta de dos variables es
igual a la suma o resta de las medias de cada una de las
variables.
Ej.

Vicente Waldo Aguirre Tarquino 33


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Mediana. Divide a los datos ordenados en dos, en caso de


muestra para, se saca el promedio de los datos

En un conjunto de datos ordenados se calcula así

Me=(N+1)/2

El resultado es la posición, primer dato, segundo dato, tercer


dato, etc.

1, 3, 9, 14, 16, 15, 50

Me=8/2=4, es el cuarto dato

Si los datos son impares el resultado es la media entre dos datos

1, 3, 9, 14, 16, 15

Me=7/2=3,5 esta entre el tercer y el cuarto dato

La moda es el valor que más se repite

En una distribución simétrica se cumple que:


Vicente Waldo Aguirre Tarquino 34
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

la Media = Mediana = moda

En la asimétrica sesgada a la derecha la media > mediana >


moda

En la asimétrica sesgada a la izquierda la media <mediana <


moda

Ejercicio. Calcule la media mediana y moda para los siguientes


datos que corresponden a la edad de un grupo de estudiantes:
Ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Xi 18 19 21 22 23 23 24 20 18 18 21 22 22 23 23 24 20 19 19 21 22 22 23 23 24 19 19 23 23 18

La media armónica, geométrica, cuadrática

La media armónica, su virtud radica en que limita la influencia de


los valores extremos.

La media geométrica, se utiliza para para el cálculo de tasas.


Tiene limitaciones, no es posible aplicar cuando una variable es
0, ni cuando existen negativos

Vicente Waldo Aguirre Tarquino 35


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

La media cuadrática, da relevancia a los datos más grandes.

x 2
i

C 1
N
C>X>G>H

Ejercicio. Analice y reproduzca los ejercicios propuestos en las


páginas 290 a la 296 del libro de Manual de Investigación en
Salud de Galvez y colaboradores (2012)

Ejercicio. A partir de la siguiente tabla de gastos que corresponde


a Gastos mensual en medicamentos de un grupo familias
demuestre que: C>X>G>H

320 158 198 183 210 263 270 197 234 200
175 205 259 261 150 350 199 251 218 240
258 268 230 231 300 240 211 269 190 279
110 120 238 206 260 115 160 288 253 261
Ejercicio. Analice como cambian los resultados si, le informan que
por error de typeo el primer dato de gasto en salud (320) es 3200.

3.200 158 198 183 210 263 270 197 234 200 258 268 230 231 300 240 211 269 190 279
175 205 259 261 150 350 199 251 218 240 110 120 238 206 260 115 160 288 253 261

Vicente Waldo Aguirre Tarquino 36


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

TEMA:

MEDIDAS DE LOCALIZACIÓN

Fractiles o cuantilas

Dividen a los datos en partes iguales a partir de puntos de corte,


son de gran ayuda el análisis de las variables.

Cuartiles

Dividen los datos en cuatro partes iguales

Ejercicio. Con los datos correspondientes a la variable edad, del


ejercicio anterior, calcule los cuartiles.
Ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Xi 18 19 21 22 23 23 24 20 18 18 21 22 22 23 23 24 20 19 19 21 22 22 23 23 24 19 19 23 23 18

1° Si los cuartiles separan la muestra en cuatro partes iguales, a


manera intuitiva es posible organizar los datos de menor a mayor.
Ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Xi 18 18 18 18 19 19 19 19 19 20 20 21 21 21 22 22 22 22 22 23 23 23 23 23 23 23 23 24 24 24

2° Calculamos el número de datos necesarios en cada cuartil:


30/4 =7,5

3° Identificamos que valores se encuentran en los puntos 7.5, 15,


22,5 estos corresponderán a aquellos valores de la variable edad,
Vicente Waldo Aguirre Tarquino 37
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

que representan puntos de corte para dividir la muestra o


población en 4 partes iguales., como los valores de la variable
son discretos, se redondea el valor 7,5 a 8 y se considera la
posición 8 para que pertenezca al primer cuartil, 15 el segundo y
23 el tercero.
Ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Xi 18 18 18 18 19 19 19 19 19 20 20 21 21 21 22 22 22 22 22 23 23 23 23 23 23 23 23 24 24 24

En los puntos de corte se hallan los valores: 19, 22 y 23.

4° Contamos la cantidad de datos que existen hasta cada punto


de corte, la cual debería ser simétrica si es que no habría valores

Ejercicio. Con los datos correspondientes a Gastos mensual en


medicamentos, organice los datos en cuartiles y deciles y
localice el percentil 36 y 54. Asimismo interprete los resultados.

Ej.
En SPSS
Analizar / Estadísticos Descriptivos / Frecuencias /Estadisticos
- Cuartiles

Statistics
VAR00001

N Valid 40

Missing 0
Percentiles 25 197,2500

50 232,5000

75 261,0000

Vicente Waldo Aguirre Tarquino 38


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

VAR00001

Cumulative
Frequency Percent Valid Percent Percent

Valid 110,00 1 2,5 2,5 2,5

115,00 1 2,5 2,5 5,0

120,00 1 2,5 2,5 7,5

150,00 1 2,5 2,5 10,0

158,00 1 2,5 2,5 12,5

160,00 1 2,5 2,5 15,0

175,00 1 2,5 2,5 17,5

183,00 1 2,5 2,5 20,0

190,00 1 2,5 2,5 22,5

197,00 1 2,5 2,5 25,0

198,00 1 2,5 2,5 27,5

199,00 1 2,5 2,5 30,0

200,00 1 2,5 2,5 32,5

205,00 1 2,5 2,5 35,0

206,009 1 2,5 2,5 37,5

210,00 1 2,5 2,5 40,0

211,00 1 2,5 2,5 42,5

218,00 1 2,5 2,5 45,0

230,00 1 2,5 2,5 47,5

231,00 1 2,5 2,5 50,0

234,00 1 2,5 2,5 52,5

238,0010 1 2,5 2,5 55,0

240,00 2 5,0 5,0 60,0

251,00 1 2,5 2,5 62,5

253,00 1 2,5 2,5 65,0

258,00 1 2,5 2,5 67,5

259,00 1 2,5 2,5 70,0

260,00 1 2,5 2,5 72,5

261,00 2 5,0 5,0 77,5

263,00 1 2,5 2,5 80,0

268,00 1 2,5 2,5 82,5


269,00 1 2,5 2,5 85,0

270,00 1 2,5 2,5 87,5

Vicente Waldo Aguirre Tarquino 39


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

279,00 1 2,5 2,5 90,0

288,00 1 2,5 2,5 92,5

300,00 1 2,5 2,5 95,0

320,00 1 2,5 2,5 97,5

350,00 1 2,5 2,5 100,0

Total 40 100,0 100,0

Deciles
En SPSS
Analizar / Estadísticos Descriptivos / Frecuencias /Estadisticos
- Deciles

Dividen los datos en diez partes iguales

Statistics
VAR00001

N Valid 40

Missing 0
Percentiles 10 150,8000

20 184,4000

25 197,2500

30 199,3000

40 210,4000

50 232,5000

60 246,6000

70 259,7000

75 261,0000

80 267,0000

90 287,1000

Centiles, dividen los valores en cien partes iguales.

9
Entre 206 y 238 existesn 8 datos que corresponde al 18%, ver percentiles
10
Entre 206 y 238 existesn 8 datos que corresponde al 18%, ver percentiles
Vicente Waldo Aguirre Tarquino 40
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

En SPSS
Analizar / Estadísticos Descriptivos / Frecuencias /Estadisticos
- Percentiles
o Añadir
o

Statistics
VAR00001

N Valid 40

Missing 0
Percentiles 36 205,7600

54 238,2800

En este ejemplo además se observa que entre los valores 205.76 y 238,28 se encuentra un
18% de los datos (54% - 36%)

Vicente Waldo Aguirre Tarquino 41


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

VAR00001

Cumulative
Frequency Percent Valid Percent Percent

Valid 110,00 1 2,5 2,5 2,5

115,00 1 2,5 2,5 5,0

120,00 1 2,5 2,5 7,5

150,00 1 2,5 2,5 10,0

158,00 1 2,5 2,5 12,5

160,00 1 2,5 2,5 15,0

175,00 1 2,5 2,5 17,5

183,00 1 2,5 2,5 20,0

190,00 1 2,5 2,5 22,5

197,00 1 2,5 2,5 25,0

198,00 1 2,5 2,5 27,5

199,00 1 2,5 2,5 30,0

200,00 1 2,5 2,5 32,5

205,00 1 2,5 2,5 35,0

206,0011 1 2,5 2,5 37,5

210,00 1 2,5 2,5 40,0

211,00 1 2,5 2,5 42,5

218,00 1 2,5 2,5 45,0

230,00 1 2,5 2,5 47,5

231,00 1 2,5 2,5 50,0

234,00 1 2,5 2,5 52,5

238,0012 1 2,5 2,5 55,0

240,00 2 5,0 5,0 60,0

251,00 1 2,5 2,5 62,5

253,00 1 2,5 2,5 65,0

258,00 1 2,5 2,5 67,5

259,00 1 2,5 2,5 70,0

260,00 1 2,5 2,5 72,5

261,00 2 5,0 5,0 77,5

263,00 1 2,5 2,5 80,0

268,00 1 2,5 2,5 82,5


269,00 1 2,5 2,5 85,0

270,00 1 2,5 2,5 87,5

Vicente Waldo Aguirre Tarquino 42


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

279,00 1 2,5 2,5 90,0

288,00 1 2,5 2,5 92,5

300,00 1 2,5 2,5 95,0

320,00 1 2,5 2,5 97,5

350,00 1 2,5 2,5 100,0

Total 40 100,0 100,0

Ejemplo:

Excluir a los niños con desnutrición severa y normal o sobrepeso


y trabajar con los niños con desnutrición moderada o leve.

Excluir a las personas de altos ingresos y trabajar con las de


ingresos medios o bajos.

11
Entre 206 y 238 existen 8 datos que corresponde al 18%, ver percentiles
12
Entre 206 y 238 existen 8 datos que corresponde al 18%, ver percentiles
Vicente Waldo Aguirre Tarquino 43
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

TEMA:

MEDIDAS DE DISPERSIÓN

- Es importante saber que tan dispersos son los datos


- Las medidas de tendencia central, muchas veces no
reflejan la realidad, pues existe valores muy por arriba o por
abajo (valores extremos que en la literatura anglosajona se
llaman outliers).
- Permiten establecer el grado de representatividad que
tienen las medidas de ubicación, principalmente la media
aritmética

Elaboración: En base a Raúl López, Wikipedia.

Vicente Waldo Aguirre Tarquino 44


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Ej. Calcular la media: Edad de adictos a los videojuegos

18, 7, 12, 15, 90

Rango o recorrido

R = Valor Mayor – Valor Menor

Rango medio del 50% o rango intercuatilico

RM=Q3-Q1

RM=C75-C25

(Dejar a cada extremo el 25%)

Ejercicios. Usando los datos del ejemplo de Gasto en Salud,


calcule el Rango Medio.

RM=261-197.25=63.75

Rango Medio del 80%

RM(80%)=C90-C10

(Dejar a cada extremo el 10%)

Como será el rango medio del 90%

(Dejar a cada extremo el 5%)

RM(80%)=C95-C5

Vicente Waldo Aguirre Tarquino 45


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Desviación Media

Donde:

DM : Desviación media

Xi : valores de la variable X

X : media aritmética

n : tamaño de la muestra

En el caso de la muestra el denominador N debe ser


reemplazado por: n-1

Desviación Típica o Desviación Estándar

Es la más importante medida de dispersión

Se simboliza con S ó con σ

También simplemente ds

Vicente Waldo Aguirre Tarquino 46


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

En el caso de la muestra el denominador N debe ser


reemplazado por: n-1, en el caso de una muestrra

En Excel se puede utilizar la opción =+DESVEST.P(Rango de


celdas) o =+DESVEST.M(Rango de celdas), dependiendo si se va
a calcular la desviación estándar de una muestra o una
población.

Ejemplo

Varianza

Es el cuadrado de la desviación típica y es considerada una de


las más importantes medidas de dispersión, se simboliza con S2 o
con σ2

Vicente Waldo Aguirre Tarquino 47


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Para una muestra:

 x  x
2
2

i
s
n 1

Para una población:

 x  x 
2

s 2
 i

Ejercicio. Con la información de las edades del grupo de


estudiantes calcule de forma manual: La Media, la desviación
media, la varianza y la desviación estándar

Ejercicio. Calcule, la media, desviación media, varianza y


desviación estándar de los siguientes datos que corresponden al
promedio de notas de defensa de tesis del último mes:

Siguiente las formulas planteadas, se puede obtener los siguientes


resultados.
(Xi-
Xi Xi - Media /Xi-Media/ Media)^2
90 1.5 1.5 2.25
80 -8.5 8.5 72.25
95 6.5 6.5 42.25
100 11.5 11.5 132.25
85 -3.5 3.5 12.25
89 0.5 0.5 0.25
71 -17.5 17.5 306.25
98 9.5 9.5 90.25
Total 708 0 59 658

Vicente Waldo Aguirre Tarquino 48


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Si se considera que las medidas de dispersión tienen como base


el promedio, es posible obtener los promedios de cada uno de
los totales.

(Xi-
Xi Xi - Media /Xi-Media/ Media)^2

Promedio Simple para


la Población (N) 88.5 0 7.375 82.25

Con estos resultados obtenemos lo solicitado:


N 8
Media 88.5
Desviacion Media 7.375
Varianza 82.25
Desv. Est. 9.0692

Note que los resultados asumen que los datos son poblacionales,
en caso de datos muestrales el denominador deber ser n – 1

Si se realiza el cálculo en el SPSS, obtiene que:


N Válidos 8
Perdidos 0
Media 88.5000
Mediana 89.5000

Moda 71.00
Desv. típ. 9.69536
Varianza 94.000
Suma 708.00

Estadística en Excel

El programa Excel, tiene la opción de procesar datos y obtener


algunas estadísticas básicas, por ejemplo se puede seleccionar
las celdas en la que se encuentre los datos de notas, e ir a la
Vicente Waldo Aguirre Tarquino 49
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

opción Datos / Análisis de Datos y seleccionar la opción


Estadística Descriptiva, con lo cual se generara un resumen de
estadísticos descriptivos. Los resultados se muestran a
continuación:

Media 88.5
Error típico 3.4278273
Mediana 89.5
Moda #N/A
Desviación estándar 9.695359715
Varianza de la muestra 94
Curtosis 0.011770032
Coeficiente de asimetría -0.702244253
Rango 29
Mínimo 71
Máximo 100
Suma 708
Cuenta 8

Ejercicio. Con la información del Gasto Mensual en


Medicamentos calcule utilizando el SPSS: La Media, la desviación
media, la varianza y la desviación estándar

Usando los datos del ejemplo tenemos


En SPSS
Analizar/Estadisticos Descriptivos / Frecuencias
- Estadisticos
o Marcar todas las opciones de la Dispersión

Vicente Waldo Aguirre Tarquino 50


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Statistics
VAR00001

N Valid 40

Missing 0
Mean 225,7000
Std. Error of Mean 8,50718
Median 232,5000
Mode 240,00a
Std. Deviation 53,80411
Variance 2894,882
Range 240,00
Minimum 110,00
Maximum 350,00

a. Multiple modes exist. The smallest value


is shown

El error típico o el error estándar de la media

Corresponde a variaciones inevitables (Wikipedia, 2019). El error


estándar de la media es la desviación estándar de la muestra
estimación-medio de una población media. (También puede
verse como la desviación estándar del error en la media de la
muestra con respecto a la media verdadera, ya que la media de
la muestra es un estimador.) ESM se estima generalmente por la
estimación de la muestra de la población y está dado por:

Error Standard de la Media (ESM) = S / √ N

Coeficiente de Variación

Las medidas de dispersión sirven para un solo conjunto de datos,


o para conjuntos de datos que tengan las mismas unidades de
medida (edad, talla, peso, distancia interpupilar, etc) y los
tamaños poblaciones sean iguales, pero no permite comparar la
dispersión entre dos unidades de medida diferentes.

Vicente Waldo Aguirre Tarquino 51


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Por ejemplo, considere una varianza de 3 para la variable edad


medida en años, y 5 para el peso en kilogramas, ambas unidades
son diferentes, por lo que no es posible comparar cual de las dos
tiene mayor varianza.

A efectos de corregir lo señalado, se propone una usar una


medida de dispersión relativa, como la del coeficiente
variación13 (Desviación Estándar sobre la media), que permita
comparar las desviaciones en términos relativos.
S
CV 
x

Ejercicio. Averigüe en internet que valores son admisibles en el


coeficiente de variación para aceptar que una media refleja
aceptablemente el promedio de los datos.

La media es representativa de la población si el CV es menor a


20%, asimismo es posible interpretar la representatividad del CV
considerando lo siguiente:

Hasta 10% la representatividad es buena

De 11 a 20% es aceptable

Mayor a 20% es no confiable

Ej. Analice los siguientes resultados e interprete la nota al pie del


cuadro relacionada con el CV.

13
El resultado puede ser multiplicado por 100 a objeto de que este expresado en porcentaje
Vicente Waldo Aguirre Tarquino 52
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Vicente Waldo Aguirre Tarquino 53


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

TEMA:

LA DISTRIBUCION NORMAL

Después de analizar varios hechos de la naturaleza, el


matemático Gauss propuso que el polígono de frecuencias de
muchos de estos hechos (por Ej. Peso, Talla) siguen una
distribución similar a una campana, asimismo y considerando que
todos los hechos tenían diferentes unidades de medida propuso
estandarizar la misma en puntuaciones normales (puntuaciones
z), lo cual facilitaría la comparación de los diferentes hechos y
variables.

Ejercicio. Estudie las propiedades de la curva normal del


documento de Villa y colaboradores (2012), correspondiente a
las páginas 222 – 225.

La desviación estándar y lo cantidad de datos alrededor de la


media en una distribución normal.

Fuente: Wikipedia

Vicente Waldo Aguirre Tarquino 54


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Nota. La desviación estándar esta simbolizada por σ y la media µ

En una distribución normal:

a) El 68.3 % de los casos están entre la media y más o menos una


desviación estándar, es decir, una desviación a cada lado de la
media.

b) El 95.45% de los casos están entre la media y más o menos dos


desviaciones estándar, es decir dos S a cada lado de la media.

c) El 99.73% de los casos esta entre la media y más o menos tres


desviaciones estándar, es decir, tres S a cada lado de la media.

Ejercicio. Verificar aseveraciones: sumando los valores presentes


en el grafico anterior

Sesgo o Asimetría (Skewness)

Se utiliza para medir el tipo de desplazamiento horizontal que


tiene la distribución de datos a partir de la posición simetrica

Si el Coeficiente de Asimetria es < 0, los datos están sesgado a la


izquierda, es decir tienen asimetría negativa, las desviaciones a la
media son mayores para los valores inferiores a la media. Ej. El
peso de una persona adulta (30 Kg) se ubicara al lado izquierda
de la media y sesgara los resultados de la media, pues un valor
extremo muy bajo.

Si el Coeficiente de Asimetria es = 0 los datos tienen una


distribuidos simetrica, es decir no tienen asimetría

Si el Coeficiente de Asimetria es > 0, los datos están sesgado a la


derecha, es decir, tienen asimetría positiva, las desviaciones a la
media son mayores para los valores superiores a la media. Ej. Una

Vicente Waldo Aguirre Tarquino 55


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

persona que viva 120 años (valor superior a la media) sesgara la


media de la edad de un grupo de sujetos.

Fuente del Gráfico: http://www.uam.es/personal_pdi/psicologia/carmenx/EsquemaTema7.pdf

Curtosis

El coeficiente de curtosis es una medida de la concentración de


la distribución en torno a la media.

Si la variable sigue una distribución Normal, su valor será igual a


cero.

Si el Coeficiente de Curtosis es < 0, la distribución tiende a


dispersarse en torno a la media, más que una distribución normal.

Si el Coeficiente de Curtosis es = 0, sigue una distribución normal.

Si el Coeficiente de Curtosis es > 0, la distribución tiende a


concentrarse en torno a la media, más que una distribución
normal.

Fuente del Gráfico: http://www.uam.es/personal_pdi/psicologia/carmenx/EsquemaTema7.pdf

Vicente Waldo Aguirre Tarquino 56


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Vicente Waldo Aguirre Tarquino 57


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

En SPSS

Analizar / Estadísticos Descriptivos / Descriptivos

Marcar las casillas: Curtosis y Asimetria

Usar Base Índice cardíaco (l/m2)

Vicente Waldo Aguirre Tarquino 58


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Estadísticos descriptivos

N Mínimo Máximo Media Desv. típ. Asimetría Curtosis

Error Error
Estadístic Estadístic Estadístic Estadístic Estadístic Estadístic típic Estadístic típic
o o o o o o o o o
Índice 111 ,73 7,36 2,9356 1,29622 1,067 ,229 1,645 ,455
cardíac
o (l/m2)
N válido 111
(según
lista)

Vicente Waldo Aguirre Tarquino 59


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Tipificación de variables z

Es posible convertir los valores que toman un conjunto de datos


en puntuaciones z, para lo cual se pueden ttipificar las variables,
considerando lo siguiente:

xi  x
z
S

La tipificación permitir hallar la equivalencia del dato respecto a


la distribución normal, asimismo después de realizar la tipificación
se puede demostrar que los puntos z hallados, tienen media 0 y
desviación estándar 1, es decir N (0,1)

En SPSS

Transformar/Calcular variable

Vicente Waldo Aguirre Tarquino 60


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Con estos valores la media es cero y la desviación típica uno


(0,1)

Estadísticos descriptivos

N Media Desv. típ.

TipificadosIC 111 ,0000 1,00000


N válido (según lista) 111

Graficando el histograma se tiene:

Vicente Waldo Aguirre Tarquino 61


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Comparación de valores tipificados (en unidades Z) y valores en


la unidad de medida original.

Si bien los valores de los datos originales son modificados al


convertir los valores a puntos Z, el conjunto de los datos mantiene
el sentido original, por ejemplo, se pude observar que el
histograma de los valores tipificados Z para el Índice Cardiaco y
los valores originales medidos en l/m2, mantienen el sentido
original, al respecto le sugerimos al lector pueda realizar la
comparación de ambos histogramas.

Vicente Waldo Aguirre Tarquino 62


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Asumiendo que la distribución de frecuencias siguen una distribución normal, es posible es posible
estimar la cantidad de datos (en porcentaje), que se encuentran sobre la curva normal, a partir de
las puntuaciones Z, esto por ejemplo puede ser útil, al leer un artículo académico en el que se tienen
datos de la media y la desviación estándar y se sabe que la distribución es normal, pero no se tiene
mayor información.

Por ejemplo, asumiendo que Ud., no tiene acceso a la base de datos del estudio anterior y solo
conoce los resultados del mismo: media 2,9356 l/m2 y desviación estándar 1,29622 y sabe que los
valores normales del índice cardiaco están entre 2,6 l/m2 y 3,4 l/m2, , calcule que porcentaje de
sujetos investigados se encuentra por encima de 3,4 l/m2.

Primero se debe convertir el valor esperado en puntos Z.

3,4  2,9356
z  0,35827
1,29622

Este valor debe ser buscado en las tablas de distribución normal (en la columna puntuaciones Z).

Vicente Waldo Aguirre Tarquino 63


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Redondeando el punto buscado seria 0,36; el cual tiene tres opciones de área buscada, la que nos
interesa es la que corresponde a la columna B, la cual indica el área que se encuentra entre el punto
Z y los valores superiores a este punto es decir 0,3632 (36,32%) de los sujetos tienes valores
superiores a 3,4 l/m2.

A efectos de verificar lo señalado, se puede consultar la base y contar la cantidad de sujetos que se
encuentran por encima de este valor de 3,4 l/m2, y verificar si este porcentaje coincide, Realizando
el conteo se tiene que 33 sujetos se encuentran por encima de este dato, ordenando los datos se
tiene los siguientes:

n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
IC 3,42 3,52 3,53 3,54 3,66 3,67 3,7 3,73 3,8 3,81 3,82 3,88 3,9 3,94 3,97 4

Vicente Waldo Aguirre Tarquino 64


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

n 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
IC 4,01 4,01 4,08 4,11 4,35 4,37 4,52 4,54 4,58 4,82 5,23 5,84 5,9 6,26 6,77 7,01 7,36

Lo cual representa un 30% de la muestra (33 / 111), valor que se aleja de lo calculado, lo que verifica
que la distribución tiene asimetría positiva y nos hace presumir que la variable analizada no sigue
una distribución normal (esto se podrá verificar más adelante).

Ejercicio de Transformación de variables: Considerando que la transformación de variables es


recurrente y útil, a continuación se presenta un ejercicio de transformación de variables, en la cual
se pide que a partir de los datos de peso y talla se calcule el Índice de masa corporal:

Peso (Kg) 78 66 68 57 58 63 53 65 60 60 60 70 110 68 64


Talla (m) 1,73 1,68 1,56 1,6 1,52 1,62 1,52 1,59 1,65 1,55 1,65 1,65 1,75 1,54 1,58

Realizada la transformación, y reclasificando las variables se tiene los siguientes resultados:

Vicente Waldo Aguirre Tarquino 65


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

TEMA:

INFERENCIA ESTADISTICA Y PRUEBAS DE HIPOTESIS

La inferencia estadística permite obtener resultados sobre la


población o universo a partir de una muestra, para que esto
suceda, la muestra debe cumplir varias características para que
sea representativa de la población, entre estas se destaca que el
tamaño muestral debe ser lo suficientemente grande para
garantizar la representatividad, asimismo el error muestral debe
ser menor a 5%, asimismo la selección de sujetos de la muestra
debe ser realizada de forma aleatoria, asegurando que todos
ellos tengan la misma probabilidad de ser elegidos.

Cuando se cumplen los requisitos señalados previamente es


posible realizar inferencias sobre la población, por ejemplo: si se
desea conocer la prevalencia de la Violencia Intrafamiliar en una
determinada población (Ej. Ciudad de La Paz), a partir de una
muestra de familias es posible inferir la misma sobre el universo.

Para realizar estas inferencias, se hace necesario estimaciones


puntuales o también denominadas de intervalos y pruebas de
hipótesis.

El intervalo de confianza14

Un procedimiento de la estadística inferencial es el intervalo


donde se localiza un parámetro. Por ejemplo, en lugar de
pretender probar una hipótesis acerca de la media población,
puede buscarse un intervalo donde se ubique dicha media.

14
En base a Hernandez Sampiere et al.
Vicente Waldo Aguirre Tarquino 66
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Lo anterior requiere un nivel de confianza, la cual corresponde a


la probabilidad definida de que un parámetro se va a ubicar en
un determinado intervalo.

Los niveles de confianza más comunes en la investigación son


0.95 y 0.99. Su sentido es similar al ya comentado, si es de 0.95;
quiere decir que tenemos 95% en favor de que el parámetro se
localice en el intervalo estimado, contra 5% de elegir un intervalo
equivocado. El nivel de 0.99 señala 99% de probabilidad de
seleccionar el intervalo adecuado. Tales niveles de confianza se
expresan en unidades de desviación estándar. Una vez más se
acude a la distribución muestral, concretamente a la tabla de
áreas bajo la curva normal y se elige la puntuación z
correspondiente al nivel de confianza seleccionado. Una vez
hecho esto, se aplica la siguiente formula:

Donde: S es la desviación estandard de una muestra y el Error


Estándar de la Media (Error Tipico) es = S / √ n

En términos sencillos seria:

Para el Límite Inferior del Intervalo: (Estimador menos


coeficiente de confiabilidad por error estándar)

Para el Límite Superior del Intervalo: (Estimador más coeficiente


de confiabilidad por error estándar)

Vicente Waldo Aguirre Tarquino 67


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

En la formula, el estadígrafo es la estadística calculada en la


muestra, la puntuación z es 1.96 con un nivel de 0.95 y de 2.58 con
un nivel de 0.99, en tanto que el error estándar depende del
estadígrafo en cuestión.

Ejemplo: Considere los siguientes datos que hacen referencia al


tiempo de espera de resultados de laboratorio en el Seguro Local
de Salud.

Media=2,8 horas
Error Estandar de la Media= 0,2345
(Desviación estándar de la distribución Muestral de la media).

Con los mismos calcule el intervalo de confianza, considerando


como nivel de confianza 95%:

Nivel de confianza = 0,95 (z= 1,96 en tablas)


Intervalo de confianza = 2,8 + (1.96) (0,2345)
= 2,8 + (0,2345)

Intervalo de confianza: la media poblacional esta entre 2,34


(límite inferior) y 3,26 (límite superior) horas de espera de
resultados de laboratorio, con 95% de probabilidades de no
cometer error, es decir si de la población tomaríamos 100
muestras aleatorias, 95 muestras contendrían el verdadero
parámetro poblacional.

Vicente Waldo Aguirre Tarquino 68


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

En SPSS: Analizar/Estadísticos Descriptivos / Explorar

Utilice el archivo del EDSA: EDSA16_MUJER_ANTECEDENTES.sav, a


partir del mismo (no olvide ponderar las variables y considerar
mujeres mayores a 14 años), elabore el intervalo de confianza
para la variable edad

Resumen del procesamiento de los casos

Casos

Válidos Perdidos Total

N Porcentaje N Porcentaje N Porcentaje

¿Cuántos años cumplidos 11847 100,0% 0 ,0% 11847 100,0%


tiene usted?

Vicente Waldo Aguirre Tarquino 69


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Descriptivos

Estadístico Error típ.

¿Cuántos años cumplidos Media 29,80 ,091


tiene usted? Intervalo de confianza para Límite inferior 29,62
la media al 95% Límite superior 29,98

Media recortada al 5% 29,61

Mediana 29,00

Varianza 97,350

Desv. típ. 9,867

Mínimo 15

Máximo 49

Rango 34

Amplitud intercuartil 17

Asimetría ,220 ,023

Curtosis -1,106 ,045

Con un 95% de confianza se puede afirmar que el promedio de


edad de las mujeres entrevistadas entre mayores a 14 años, se
encuentra entre 29,62 y 29,98 años.

Ejercicio

Con los resultados hallados verifique el cálculo de los límites de


confianza

Vicente Waldo Aguirre Tarquino 70


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Realice similar ejercicio con la variable hemoglobina


Descriptives

Statistic Std. Error

Hemoglobina inicial, (gr/100 Mean 14,9954 ,06402


ml) 95% Confidence Interval for Lower Bound 14,8677
Mean Upper Bound 15,1231

5% Trimmed Mean 14,9891

Median 15,0217

Variance ,287

Std. Deviation ,53566

Minimum 13,41

Maximum 16,50

Range 3,08

Interquartile Range ,64

Skewness ,146 ,287

Kurtosis 1,122 ,566


Realice similar ejercicio con la variable Índice Cardiaco
Descriptivos

Estadístico Error típ.

Índice cardíaco (l/m2) Media 2,9356 ,12303

Intervalo de confianza para Límite inferior 2,6918


la media al 95% Límite superior 3,1794

Media recortada al 5% 2,8376

Mediana 2,6983

Varianza 1,680

Desv. típ. 1,29622

Mínimo ,73

Máximo 7,36

Rango 6,63

Amplitud intercuartil 1,59

Asimetría 1,067 ,229

Curtosis 1,645 ,455

Vicente Waldo Aguirre Tarquino 71


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Vicente Waldo Aguirre Tarquino 72


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

La prueba de Hipótesis15

Como se mencionó previamente, otra manera alternativa a los


intervalos de confianza de estimar el parámetro verdadero es a
través la prueba de hipótesis.

Al respecto cabe recordar que una hipótesis, es una a respuesta


tentativa a la pregunta de investigación, la cual está planteada
en forma de proposición, y se apoya en el conocimiento
aportado por el marco teórico o conceptual.

Las investigaciones plantean hipótesis de investigación, las


cuales se traducen en términos matemáticos y estas hipótesis
ajustadas se denominan estadísticas, las cuales corresponden a
proposiciones sobre los parámetros poblacionales.

Las HIPÓTESIS DE INVESTIGACIÓN (Hi), a su vez, pueden ser


Descriptivas, Correlaciónales o Explicativas.

HIPÓTESIS DESCRIPTIVAS.-

Esta hipótesis es usada para ESTIMAR o describir las


características de una variable.

Ejemplo:
PREGUNTA DE INVESTIGACION:
¿Cuál es el promedio de hijos/as que tienen las mujeres del municipio
de Esperanza?

HIPOTESIS CORRELACIONALES.-
Expresan una relación entre dos variables, estas relaciones pueden ser
inversas o directas.

15
En base a Hernandez Sampieri et. al.
Vicente Waldo Aguirre Tarquino 73
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Ejemplo:

Hi: “La pobreza está relacionada con los niveles de educación que
alcanzan las personas”.

Si bien esta Hi plantea la relación, no menciona cual es el sentido de


la misma en términos de causalidad, es decir no menciona si la
pobreza afecta a los niveles de educación o los niveles de educación
a la pobreza.

Ejemplo:

Hi: “El inicio de las relaciones sexuales es más temprano en aquellos


municipios con menor grado de escolaridad”

De similar manera, esta hipótesis solo se concentra en medir la


correlación entre dos variables.

HIPÓTESIS DE DIFERENCIA DE GRUPOS.-

Son parte de las hipótesis de investigación correlaciónales, y estas


formulan proposiciones sobre la diferencia o igualdad que pueden
tener dos grupos respecto una variable.

Ejemplo:

Grupo A: Municipio A que participó del programa de desnutrición

Grupo B: Municipio A que no participó del programa de desnutrición

Hi “Los niños del municipio A tienen menores niveles de desnutrición


que los niños del municipio B”.

HIPÓTESIS DE CAUSALIDAD O EXPLICATIVAS.-

Son las hipótesis que tratan de explicar una CAUSA Y UN EFECTO, no


solo se preocupan en las relaciones; también proponen un sentido
de entendimiento.

Ejemplo:

Hi: “A mayor pobreza, mayor tasa de mortalidad infantil”.

La negación de la hipótesis de investigación se denomina


Hipótesis Nula y se representa por Ho y la alternativa a esta

Vicente Waldo Aguirre Tarquino 74


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

proposición se conoce como Hipótesis Alterna y esta denotada


por Ha o H1.

Las investigaciones pretenden por lo general rechazar la Hipótesis


Nula, siempre y cuando exista el suficiente poder estadístico.
Considerando que es posible probar diferentes tipos de hipótesis
de diferentes tipos de variables, es necesario seleccionar la
prueba adecuada, para lo cual existen dos tipos de análisis
estadísticos que pueden realizarse para probar las hipótesis: los
análisis paramétricos y los no paramétricos.

El análisis estadístico puede ser


Paramétrico No paramétrico
-La distribución de la variable -No requieren presupuestos
dependiente es normal: el acerca de la forma de la
universo tiene una distribución distribución poblacional, es
normal. decir se acepta distribuciones
- El nivel de medición de la no normales.
variable dependiente es -Las variables no
continua necesariamente tiene que
- Cuando dos o más estar medidas en un nivel por
poblaciones son estudiadas, se intervalos o de razón (si se
tiene una varianza quiere estos se resumen a unas
homogénea, es decir las cuantas categorías discretas);
poblaciones en cuestión se puede analizar datos
poseen una dispersión similar nominales u ordinales. Las
en sus distribuciones. variables deben ser
categóricas.

Si se cumple las condiciones las pruebas paramétricas, estas


tienen más potencia que las no paramétricas.

Cada tipo posee sus características y presuposiciones que lo


sustentan; la elección de qué clase de análisis efectuar depende

Vicente Waldo Aguirre Tarquino 75


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

de estas presuposiciones. De igual forma, cabe destacar que en


una misma investigación es posible llevar a cabo análisis
paramétricos para algunas hipótesis y variables y análisis no
paramétricos para otras. Asimismo, los análisis a realizar
dependen de las hipótesis que hayamos formulado y el nivel de
medición de las variables que las conforman.

Entre las pruebas que se puedan realizar y que están disponibles


en la mayoría de los paquetes estadísticos se encuentran las
siguientes:

Tipo de test estadístico para hacer inferencias (comparaciones entre muestras).


DISTRIBUCION VARIABLE VARIABLE RELACIÓN ENTRE
INDEPENDIENTE DEPENDIENTE LAS MUESTRAS PRUEBA ESTADÍSTICA
(PREDICTORA) (RESULTADO)
Normal Una sola muestra Cuantitativa t-student para una muestra
(Paramétricos) (se compara con
valor teórico)

Dicotómica Categórica No relacionadas No existe (usar Chi-cuadrado de


Pearson)
Relacionadas No existe (usar no paramétricos)

Cuantitativa No relacionadas t-student muestras independientes

Relacionadas t-student muestras relacionadas

Policotómica Categórica No relacionadas No existe (usar Chi-cuadrado de


Pearson)
Cuantitativa No relacionadas ANOVA de una vía

Relacionadas ANOVA de medidas repetidas


No normal Una sola muestra Binomial
(No paramétricos) (se compara con Chi-cuadrado de Pearson
valor teórico) Chi-cuadrado de Mantel-Haenzsel
Prueba de Kolmogorow-Smirnov
Prueba de las Rachas

Dicotómica Categórica Relacionadas Test exacto de McNemar


Prueba de los Signos
No relacionadas Chi-cuadrado de Pearson
Test exacto de Fisher
Test de Wilcoxon
Prueba de los signos

Cuantitativa Relacionadas Mann-Whitney


Mediana
No relacionadas Z Kolmogorov-Smirnov
Rachas de Wald-Wolfowitz
Valores extremos de Moses

Vicente Waldo Aguirre Tarquino 76


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Policotómica Categórica No relacionadas Prueba Q de Cochran

Cuantitativa Relacionadas Prueba de Friedman


W de Kendall (concordancia)
No relacionadas Prueba de Kruskal-Wallis
Mediana K variables
ANOVA de dos vías por rangos
COVARIACION (medidas de dos variables en los mismos sujetos o unidades de análisis del estudio)
Paramétrico Cuantitativa Cuantitativa Correlación de Pearson
No paramétrico Cuantitativa Cuantitativa Correlación de Spearman

Fuente: www.ugr.es/~rruizb/cognosfera/sala_de_estudio/estadistica/esquematest.doc

Errores al realizar estadística inferencial16

A pesar de trabajar con altos niveles de confianza o seguridad,


nunca se está completamente seguro de la estimación y aunque
el riesgo es mínimo, podría cometerse un error, en razón de los
diferentes posibles resultados:

1. Aceptar una hipótesis verdadera (decisión correcta).


2. Rechazar una hipótesis falsa (decisión correcta).
3. Aceptar una hipótesis falsa (conocido como error del tipo I
o error alfa), son los Falsos Positivos, Ej. Se considera al
paciente enfermo cuando en realidad está sano.
4. Rechazar una hipótesis verdadera (conocido como error
del tipo II o error beta) o denominados también Falsos
Negativos. Ej. Se considera al paciente sano cuando en
realidad está enfermo.

16
Ibid.
Vicente Waldo Aguirre Tarquino 77
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Ho verdadera H0 falsa

Aceptar H0 Decisión acertada Comisión de error de


Tipo II (o Error )
(1-  )
Falsos Negativos
Rechazar H0 Comisión de error de Decisión acertada
Tipo I (o Error  )
(Aceptar H1) (1- )
Falsos Positivos

Ambos tipos de error son indeseables; sin embargo, puede


reducirse la posibilidad de que se presenten mediante:

Para alfa (Error Tipo I):


a) Utilizar valores alfa más reducidos (0.01)
b) Repetir el estudio.
c) Disponer de un marco teórico sólido.
d) Inspección cuidadosa de los datos
e) Selección de las pruebas estadísticas apropiadas

Para beta (Error Tipo II):


f) Muestras representativas probabilísticas, incrementar el
tamaño de la muestra (reducir error B)
g) Mayor conocimiento de la población
h) Incrementar el tamaño del efecto a detectar
i) Incrementar alfa

(1-  ), representa el nivel de confianza de la muestra, es decir la


probabilidad a priori de que el Intervalo de Confianza contenga
el verdadero valor del parámetro, que por lo general se ubica en

Vicente Waldo Aguirre Tarquino 78


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

95% (1,96 en la curva normal, dejando a ambos lados de la cola


2.5% que totalizan 5% de alfa).

(1- ),representa el poder estadístico de la muestra, es decir


la capacidad del estudio para encontrar diferencias si es
estas existen realmente, en estudios epidemiológicos
debe ser 80% (1,28 en la curva normal, dejando a ambos
lados de la cola 10%, que totalizan 20% de beta), por lo
que debe ser considerado este valor al momento de
seleccionar la muestra.

Contrariamente al error tipo I, en la mayoría de los casos no es


posible calcular la probabilidad del error tipo II. La razón de
esto se encuentra en la manera en que se formulan las
hipótesis en una prueba estadística. Mientras que la hipótesis
nula representa siempre una afirmación enérgica (como por
ejemplo Ho : «Promedio μ = 0» la hipótesis alternativa, debido
a que engloba todas las otras posibilidades, es generalmente
de naturaleza global H1 «Promedio μ ≠ 0» )

- Determinación del tamaño muestral


- Estudios para determinar parámetros poblacionales (sólo
error alfa)
Estimación de una proporción
Estimación de una media
- Estudios para contraste de hipótesis (error alfa y beta)
Comparación de dos proporciones
Comparación de dos medias
Correlación entre dos variables cuantitativas

Significancia estadística

Vicente Waldo Aguirre Tarquino 79


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Por convencionalidad se busca que las pruebas arrojen un


resultado p (probabilidad de cometer el error  ) menor a 0.05,
si bien el valor p, puede ser obtenido de las tablas, el mismo
puede estar representado en termino de probabilidad y se busca
p<0.05, con lo que se rechaza la Ho

Vicente Waldo Aguirre Tarquino 80


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Lo estadísticamente significativo y lo clínicamente relevante

EJEMPLO LEER PAGINA 245 – 247 De Epidemiologia y Estadistica en Salud


Publica

Vicente Waldo Aguirre Tarquino 81


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

El “valor de p”, debe ser valorado con precaución y teniendo en cuenta el


contexto del estudio, su diseño, las características de la muestra o la población
analizada, de los potenciales sesgos, etc. Y NUNCA como una cifra mágica que
nos seduzca tanto, que nos invite o autorice a tomar decisiones o cambiar
conductas relacionadas con la práctica clínica cotidiana.

Antes de tomar decisiones o cambiar conductas clínicas basadas en un “valor


de p”, se ha de considerar también la VALIDEZ EXTERNA (generalización de los
resultados obtenidos en ese estudio respecto de la población inicial y, si esas
conclusiones pueden ser extrapoladas a nuestros pacientes o nuestra realidad
laboral (que pueden ser distinta a la descrita en el estudio publicado y valorado
por nosotros.

Por todo ello, es más apropiado que hablar de “SIGNIFICACIÓN STADÍSTICA”


es más correcto utilizar el concepto de “RELEVANCIA CLÍNICA”; porque la
relevancia clínica de un fenómeno va más allá de cálculos matemáticos y
depende de…
1. La gravedad del problema,
2. La morbilidad y mortalidad generada por el mismo,
3. La magnitud de la diferencia,
4. La vulnerabilidad,
5. Los costes involucrados, etc

Vicente Waldo Aguirre Tarquino 82


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Fuente:
http://www.bbc.com/mundo/noticias/2014/06/140526_falacias_margarina_
divorcio_finde_dv
Consumo Margarina Divorcios

Si existe correlación pero es


Espuria

Vicente Waldo Aguirre Tarquino 83


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

NEMO TECNICA

Ho: =

Ha: Diferencia

P menor a 0.05 entonces Rho

P mayor a 0.05 entonces AHo

Vicente Waldo Aguirre Tarquino 84


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

TEMA:

PRUEBAS DE NORMALIDAD

Para efectuar el test correcto (paramétrico o no paramétrico), es necesario saber


si la muestra es o no normal, para ello se pueden realizar alguna de las siguientes
pruebas:

1) Kolmogorov-Smirnov (para muestras mayores a 30)

2) Kolmogorov-Smirnov (Lilliefors) (para muestras mayores a 50)

3) Shapiro-Wilk (para muestra menores a 50)

Kolmogorov-Smirnov

Es recomendable su uso para muestras mayores a 30, el test otorga un menor peso
a las observaciones extremas (outliers), compara los datos observados con la
distribución normal teórica y mide la distancia máxima entre ambas curvas, el test
prueba la siguiente hipótesis

Ho: x = Distribución Normal


H1: x  Distribución Normal

Si p < 0,05 se rechaza Ho (x no procede de una distribución normal) y por lo tanto


no se pueden usar test paramétricos.

Vicente Waldo Aguirre Tarquino 85


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Si p > 0,05 se acepta la Ho (x procede de una distribución normal) y por lo tanto se


pueden usar test paramétricos.

Analizar/Pruebas No Parámetricas / Cuadros de Dialogos Antiguos / K-S de 1


Muestra

H0: IC = Distribución Normal

H1: IC  Distribución Normal

Prueba de Kolmogorov-Smirnov para una muestra

Índice cardíaco
(l/m2)

N 111
Parámetros normalesa,b Media 2,9356
Desviación típica 1,29622
Diferencias más extremas Absoluta ,089
Positiva ,089
Negativa -,065
Z de Kolmogorov-Smirnov ,939
Sig. asintót. (bilateral) ,341

a. La distribución de contraste es la Normal.


b. Se han calculado a partir de los datos.

El valor critico es 0.05 (Con este valor comparamos).

Como el valor de probabilidad asociado al estadígrafo es de 0.341, concluimos que la muestra


procede de una distribución normal

Ejemplo
Edad de Mujeres mayores a 14 años, en la encuesta EDSA

Vicente Waldo Aguirre Tarquino 86


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Prueba de Kolmogorov-Smirnov para una muestra

¿Cuántos años
cumplidos tiene
usted?

N 11832
Parámetros normalesa,b Media 29,85
Desviación típica 9,854
Diferencias más extremas Absoluta ,083
Positiva ,083
Negativa -,066
Z de Kolmogorov-Smirnov 9,075
Sig. asintót. (bilateral) ,000

a. La distribución de contraste es la Normal.


b. Se han calculado a partir de los datos.

Como el valor P es 0.00 y es menor a 0.05 entonces se rechaza la Ho,


concluyéndose que la variable edad no sigue una distribución normal.

4) Kolmogorov-Smirnov (Lilliefors)
Contrasta la hipótesis de que una muestra (grande n>50) procede de una población
normal.
Esta prueba es una modificación de la prueba de Kolmogorov-Smirnov y contrasta
la normalidad cuando las medias y las varianzas no son conocidas, sino que son
estimadas a partir de los datos.

Cuando las distribuciones no son normales, es necesario tipificarlas por esta


particularidad puede es necesario generar una nueva variable tipificada,
xi  x
ZX 

Para el caso del ejemplo lo llamaremos ZIC

También se puede tipificar el logaritmo de los valores tipificados

Vicente Waldo Aguirre Tarquino 87


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Ln ( ZX i )  ZX
LZX 
 ZX

En SPSS se lo da a través de: Analizar/Calcular Variable

En el caso del ejemplo lo llamaremos ZlnIC


Ejemplo SPSS
Crear Variable LN(IC)

Estadísticos
lnIC

N Válidos 111

Perdidos 0
Media ,9815
Mediana ,9926
Moda -,31a
Desv. típ. ,44799
a. Existen varias modas. Se
mostrará el menor de los valores.

Vicente Waldo Aguirre Tarquino 88


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Ejemplo en SPSS prueba Índice cardíaco (l/m2)


Analizar \ Estadísticos descriptivos \ Explorar
- Gráficos con pruebas de normalidad (tickear)

Resultados:

Pruebas de normalidad

Kolmogorov-Smirnova Shapiro-Wilk

Estadístico gl Sig. Estadístico gl Sig.

ZIC ,089 111 ,030 ,933 111 ,000


ZlnIC ,070 111 ,200* ,985 111 ,231

a. Corrección de la significación de Lilliefors


*. Este es un límite inferior de la significación verdadera.

Siendo que la muestra corresponde a un tamaño de 111 escogemos la prueba


Kolmogorov-Smirnov (Lilliefors)

La prueba a testear es la siguiente

Para ZIC

H0: ZIC = Distribución Normal

Vicente Waldo Aguirre Tarquino 89


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

H1: ZIC  Distribución Normal

El valor critico es 0.05, como es el estadígrafo asociado al valor de de probabilidad (p) es MENOR
(0.030) se rechaza la hipótesis nula, por lo tanto se concluye que la muestra no procede de una
distribución normal

ZIC Stem-and-Leaf Plot

Frequency Stem & Leaf

2,00 -1 . 66
17,00 -1 . 00001111222222233
15,00 -0 . 555556666888899
29,00 -0 . 00001111111222222233334444444
19,00 0 . 0000112222223333444
16,00 0 . 5556666777788889
6,00 1 . 012224
1,00 1 . 7
2,00 2 . 22
4,00 Extremes (>=2,6)

Stem width: 1,00


Each leaf: 1 case(s)

Vicente Waldo Aguirre Tarquino 90


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Vicente Waldo Aguirre Tarquino 91


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Vicente Waldo Aguirre Tarquino 92


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Para ZlnIC
H0: ZlnIC = Distribución Normal

H1: ZlnIC  Distribución Normal

El valor critico es 0.05, como es el estadígrafo asociado al valor de probabilidad (p) es MAYOR (,200)
se acepta la hipótesis nula, consecuentemente se concluye que la muestra procede de una
distribución normal

Donde esperamos que los valores estén sobre la línea (fundamentalmente en el rango -1,1), para
inferir que la distribución tiende a una normal.

ZlnIC Stem-and-Leaf Plot

Frequency Stem & Leaf

2,00 Extremes (=<-2,7)


7,00 -1 . 5566679
11,00 -1 . 01122334444
Vicente Waldo Aguirre Tarquino 93
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

8,00 -0 . 55678889
24,00 -0 . 000000011122222223334444
23,00 0 . 00000001111222233444444
23,00 0 . 55556667777777888899999
6,00 1 . 011123
4,00 1 . 5779
3,00 2 . 012

Stem width: 1,00


Each leaf: 1 case(s)

Vicente Waldo Aguirre Tarquino 94


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Vicente Waldo Aguirre Tarquino 95


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

5) Shapiro-Wilk
Prueba de Shapiro-Wilk: Contrasta la hipótesis de que una muestra (pequeña
n<5017) procede de una población normal.

17
Alguna literatura recomienda su aplicación para valores menores a 30.
Vicente Waldo Aguirre Tarquino 96
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

TEMA:

PRUEBAS PARAMETRICAS: LA t-STUDENT

Una vez que se ha verificado que las muestras provienen de una distribución normal
entonces podemos llevar a cabo pruebas paramétricas, entre ellas una de las
pruebas más utilizadas corresponde a la t-Student18, la cual puede ser aplicada de
acuerdo a lo siguiente:

Tabla: Pruebas t de Student

Prueba t Objetivo

Una muestra Determinar si la diferencia entre la media de una variable y un


determinado valor teórico es estadísticamente significativa.
Dos muestras
relacionadas Determinar si la diferencia entre las medias de dos variables es
(dependientes) estadísticamente significativa.
Dos muestras No
relacionadas Determinar si la diferencia entre las medias de una variable en dos
(independientes) grupos distintos de individuos es estadísticamente significativa.
Fuente: En base a Magdalena Ferrán Aranaz

18
El presente documento no trabaja con docimas de hipótesis que asumen que la varianza
poblacional S2 (también denominada σ2) es conocida, pues en la práctica este hecho es muy difícil,
pues en la generalidad trabajamos con una muestra.

Vicente Waldo Aguirre Tarquino 97


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Paramétrica
CUANTITATIVA

2 grupos 3 o mas grupos

Muestra Muestra Muestra Muestra


Independiente Dependiente Independiente Dependiente

T-estudiante t-pareada ANOVA ANOVA

Fuente: Carlos Tamayo

Prueba t para una muestra

Esta prueba permite probar la media muestral contra un valor hipotético, por ejemplo
si la media que estamos utilizando puede ser comparada con la media de un valor
que se conoce a partir de otro estudio.

0
_

Ho: x =

 0
_

H1: x

Vicente Waldo Aguirre Tarquino 98


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Recuerde que:
 Sería la media aritmética poblacional que por intervalos de confianza pueda
_

inferirse de la media aritmética muestral o sea x


_
x
t  0
s
n

Donde:

 0 Sería el valor que se nos da para establecer la comparación o valor teorico.

Ho: Media Aritmética = valor hipotético

H1: Media Aritmética  valor hipotético

Ej. Probar la hipótesis que la hemoglobina proviene de una muestra en que la media
es igual a 15.

Se sospecha que un tratamiento para la artrosis puede producir descenso de


Hemoglobina en los hombres con artrosis, para lo cual se aplica un tratamiento a
100 de estos hombres, antes del tratamiento se encuentra que el nivel de
hemoglobina promedio es 15.

Al finalizar el tratamiento la muestra se reduce a 70 pacientes, siendo que la muestra


se reduce, se desea conocer si el promedio de hemoglobina antes del tratamiento
de estos 70 pacientes es igual al de la muestra original (100 pacientes).

Ej. En SPSS probar la normalidad

Vicente Waldo Aguirre Tarquino 99


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Pruebas de normalidad

Kolmogorov-Smirnova Shapiro-Wilk

Estadístico Gl Sig. Estadístico gl Sig.

Hemoglobina inicial, (gr/100 ,078 70 ,200* ,981 70 ,377


ml)

a. Corrección de la significación de Lilliefors


*. Este es un límite inferior de la significación verdadera.

Luego verificar la hipótesis planteada

En SPSS ir a

Analizar / Comparación de medias / Prueba T para una muestra

Estadísticos para una muestra


Error típ. de la
N Media Desviación típ. media
Hemoglobina inicial, 70 14,9954 ,53566 ,06402
(gr/100 ml)

Prueba para una muestra


Valor de prueba = 15
95% Intervalo de confianza
Diferencia de para la diferencia
t Gl Sig. (bilateral) medias Inferior Superior
Hemoglobina inicial, -,072 69 ,943 -,00461 -,1323 ,1231
(gr/100 ml)

Vicente Waldo Aguirre Tarquino 100


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

El valor p (Sig. (bilateral)=0.943 ) asociado al estadístico de contraste es mayor


que 0.05, por lo que no se puede rechazar la hipótesis nula.

Manualmente el cálculo sería el siguiente

Estadísticos para una muestra


Desviación Error típ. de
N Media típ. la media
Hemoglobina inicial, 70 14,9954 ,53566 ,06402
(gr/100 ml)
Raiz de n 8,36660027

Valor Hipotetico 15

Valor t -,0046 = -0,07205262


0,06402382

Valor en tablas
t con (70-1 grados de libertad)
con 95% de confianza
Nota.- Los grados de libertad hacen referencia a la forma que toma la curva normal según el
tamaño de la muestra, cuando existen infinitos grados de libertad, la curva de la t-student coincide
con la curva normal.

El valor en tablas se encuentra a continuación:

Vicente Waldo Aguirre Tarquino 101


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Continua…..

Vicente Waldo Aguirre Tarquino 102


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Al ser el valor absoluto de -0.072 menor que una t de 1.667 que sería el valor
localizado en la tabla t-student para 70-1 grados de libertad con un nivel de
confianza del 95% (de significación del 5%), no se puede rechazar Ho.

Vicente Waldo Aguirre Tarquino 103


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Al encontrarse el valor de -0.072 entre los valores t de -1,667 y 1,667 se encuentra


en la zona de aceptación de la Hipotesis Nula

Zona de rechazo de Ho Zona de rechazo de Ho


(tiene un área de 0.025 en (tiene un área de 0.025 en
cada lado de la cola en Zona de Aceptación de cada lado de la cola en
caso de que la aceptación Ho (A un % de caso de que la aceptación
tenga 0.95) confiabilidad, tenga 0.95)
generalmente 95% es
decir 0.95 de área )

Valor t de tablas Valor t de tablas

Valor t calculado, que puede caer en la zona de aceptación o rechazo

La significación en la tabla adjunta esta probada con para t – student de una cola.

Otra forma de llegar a la conclusión es observando el intervalo de confianza, si el


valor de la diferencia de medias -0,00461 está dentro del intervalo que se forma
entre el límite inferior -0,1323 y el límite superior 0,1231, en nuestros resultados
aceptamos la hipótesis nula.

Es importante aclarar con el nivel de confianza del 95 %, nos dice que de cada 100
muestras de tamaño 70 que tomemos, en la población objeto de estudio, en al
menos 95 de ellas obtendremos el mismo resultado.

Vicente Waldo Aguirre Tarquino 104


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Prueba t para dos muestras dependientes (relacionadas) - para la


comparación de medias

Generalmente esta prueba se aplica para diseños pre-experimentales,


experimentales o cuasi-experimentales, donde se somete a un grupo de sujetos una
pre prueba, después se les aplica un incentivo (llamado también estimulo o
tratamiento experimental) y luego se vuelve a tomar la prueba y se compara los
resultados que corresponden a los mismos sujetos en dos momentos de tiempo
diferentes.

La prueba asume que las características de los sujetos en las variables de interés
para el estudio son iguales antes y después de la prueba, con excepción de la
variable que se espera sea afectada por la intervención.

Vicente Waldo Aguirre Tarquino 105


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Ejemplo de Diseño Pre-experimental.

G O1 X O2

Donde19:
G: Representa al conjunto de sujetos que participaran de la prueba
O1: Representa los resultados de la variable investigada antes de que sea
afectada por el estímulo o la intervención.
O2: Representa los resultados de la variable investigada después de que es
afectada por el estímulo o la intervención.
X: Representa el estímulo o la intervención.
En el caso de experimentos, lo ideal es que los sujetos, se seleccionen al azar.

En este tipo de diseños se prueba que:


Ho: La media de la variable investigada antes de que sea afectada por el estímulo
no tiene diferencia con la media de la misma variable de forma posterior al estudio,
por lo que las muestras proceden de una población con medias iguales.

H1: La media de la variable investigada antes de que sea afectada por el estímulo
tiene diferencia con la media de la misma variable de forma posterior al estudio,
por lo que las muestras proceden de una población con medias iguales.

Formalmente, se prueba la siguiente Hipótesis:

Ho:  x =  y
H1:  x y

Ho: La muestra procede de una población en la que las medias de X e Y son
iguales.
H1: La muestra no procede de una población en la que las medias de X e Y son
iguales.

19
En base a la nomenclatura y símbolos utilizados por Hernandez Sampieri y colaboradores.
Vicente Waldo Aguirre Tarquino 106
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Si el valor p (p-value) asociado al estadístico de contraste es menor que α (0,05


generalmente), se rechazara la hipótesis nula al nivel de significación α.

En el SPSS:
Usaremos el archivo
Clase 4_muestras relacionadas.sav

Ir a
Analizar / Comparar Medias / Prueba T para dos muestras relacionadas
- Relacionar las variables: HBI – HBF

Estadísticos de muestras relacionadas

Error típ. de la
Media N Desviación típ. media

Par 1 Hemoglobina inicial, (gr/100 14,9954 70 ,53566 ,06402


ml)

Hemoglobina final, (gr/100 13,5977 70 ,75230 ,08992


ml)

Vicente Waldo Aguirre Tarquino 107


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Correlaciones de muestras relacionadas

N Correlación Sig.

Par 1 Hemoglobina inicial, (gr/100 70 ,727 ,000


ml) y Hemoglobina final,
(gr/100 ml)

Prueba de muestras relacionadas

Diferencias relacionadas

95% Intervalo de

Error típ. confianza para la

Desviació de la diferencia Sig.


Media n típ. media Inferior Superior t Gl (bilateral)

Par Hemoglobina 1,397 ,51701 ,06179 1,27444 1,52100 22,61 69 ,000


1 inicial, (gr/100 ml) 72 9
- Hemoglobina
final, (gr/100 ml)

Siendo que el valor p asociado al estadístico de contraste t (Sig bilateral – Sig 2-


tailed) es 0.000 y este valor es menor que 0.05 (al nivel de significación alfa de α =
0.05), se rechazara la hipótesis nula, por lo tanto no se acepta que la hemoglobina
inicial coincida con la hemoglobina final. Por lo que podemos decir que existen
diferencias significativas, para un 95% de confianza (este valor puede ser
modificado en el cuadro del SPSS).

Siendo que la media de hemoglobina final es menor, es posible que el tratamiento


para la artrosis produzca sangrado digestivo

Fórmula de cálculo de t (t calculado):

t
 (x  x ) i j

n ( x  x )  ( ( x  x )
i j
2
i j
2

n 1

O también:

Vicente Waldo Aguirre Tarquino 108


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

t
 (d )
n d  ( d )
2 2

n 1

Dónde: d es la diferencia, es decir d=xi –xj

Una vez obtenido el calculado, el mismo debe ser contrastado con el t de tablas par
n- 1 grados de libertad, con el valor de tablas se corta a la curva que representa la
distribución t, si el t calculado cae en la zona de aceptación, se acepta la Ho, caso
contrario se la rechaza:

Zona de rechazo de Ho Zona de rechazo de Ho


(tiene un área de 0.025 en (tiene un área de 0.025 en
cada lado de la cola en Zona de Aceptación de cada lado de la cola en
caso de que la aceptación Ho (A un % de caso de que la aceptación
tenga 0.95) confiabilidad, tenga 0.95)
generalmente 95% es
decir 0.95 de área )

Valor t de tablas Valor t de tablas

Valor t calculado, que puede caer en la zona de aceptación o rechazo

Prueba t para dos muestras independientes (no relacionadas) - para la


comparación de medias
Prueba si la diferencia entre las medias de una variable en dos grupos distintos de
individuos es estadísticamente significativa.

Puede Ser
G1 X O1
G2 - O2
Ó también
G1 O1 X O2
G2 O3 - O4
Datos

Vicente Waldo Aguirre Tarquino 109


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

G: Grupo
O Prueba (puede ser Pre o Post)
X estimulo
La Prueba de Hipótesis es:
Ho:  1=  2

H1: 12

Ho: Las muestras proceden de dos subpoblaciones en las que la media de X es la


misma
H1: Las muestras no proceden de dos subpoblaciones en las que la media de X es
la misma

Si el valor p, asociado al estadístico de contraste es menor que α, se rechazará la


hipótesis nula al nivel de significación α

Procedimiento20.

1. Separar la muestra en dos subpoblaciones, una de ellas con el valor 1 y que


pertenece a la subpoblación 1 y la otra con el valor 2, la cual corresponde a
la subpoblación 2. (verificar que en la bases de datos, se haya usado 1 y 2
para separar los grupos)
2. Contrastar varianzas. Se hace necesario contrastar varianzas en razón de
que las subpoblaciones pueden o no presentar la misma varianza, y por lo
tanto el estadístico puede tomar dos expresiones. Por lo tanto un paso previo
es el contraste de varianzas, para lo cual se utiliza el estadístico de Levene.

La Prueba de Hipótesis es:



Ho: S2A = S2B

20
Recuerde que antes de iniciar con el procedimiento se debe verificar que cada uno de los grupos sigue una
distribución normal
Vicente Waldo Aguirre Tarquino 110
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

H1: S2A  S2B


Ho: La varianza de las subpoblaciones (A y B) son iguales
H1: La varianza de las subpoblaciones (A y B) son diferentes

Si el valor p, asociado al estadístico de contraste es menor que α, se rechazará la


hipótesis nula al nivel de significación α (0.05).

3. Una vez contrastada las varianzas elegimos el estadístico t que no fue


rechazado.

Ejemplo:

Después de probar en el anterior ejercicio que el tratamiento para la artrosis tiene


un efecto en la hemoglobina (disminución), se sospecha al observar que 28 de ellos
tenía ulcera, que ésta puede ser la razón de la disminución y no el tratamiento.

Para ello se divide el conjunto de datos en dos, unos que tienen ulcera y otros que
no. Para ellos se aplicara la prueba T-student a dos muestras independientes.

En SPSS:

Primero: probar la normalidad

Datos / Segmentar / Archivo

Vicente Waldo Aguirre Tarquino 111


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Analizar/Estadísticos Descriptivos / Explorar

Alternativamente se puede separar los casos directamente con la función explorar


y lista de factores:

Vicente Waldo Aguirre Tarquino 112


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Resumen del procesamiento de los casos

Ulcera Casos

Válidos Perdidos Total

N Porcentaje N Porcentaje N Porcentaje

Disminución de Si 28 100,0% 0 ,0% 28 100,0%


hemoglobina (gr/100 ml) dimension1

No 42 100,0% 0 ,0% 42 100,0%

Pruebas de normalidad

Ulcera Kolmogorov-Smirnova Shapiro-Wilk

Estadístico gl Sig. Estadístico gl Sig.

Disminución de d
Si ,102 28 ,200* ,977 28 ,768
hemoglobina (gr/100 ml) i No ,088 42 ,200* ,983 42 ,789
m

a. Corrección de la significación de Lilliefors


*. Este es un límite inferior de la significación verdadera.

El test de Shapiro Wilk, arroja una significancia mayor a 0.05, por lo tanto la
distribución de cada uno de los subgrupos es normal.

Segundo: verificar que las varianzas son iguales.

Analizar / Comparar Medias / Prueba T para muestras independientes

Vicente Waldo Aguirre Tarquino 113


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Estadísticos de grupo

Ulcera Error típ. de la


N Media Desviación típ. media

Disminución de d
Si 28 1,0110 ,09990 ,01888
hemoglobina (gr/100 ml) i No 42 -,0111 ,12317 ,01900
m

Vicente Waldo Aguirre Tarquino 114


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Como 0.138 es mayor que α (0,05), no se puede rechazar la hipótesis de nula


(igualdad de varianzas), es decir se acepta la hipótesis nula.

Tercero: verificar la igualdad de medias.

Entonces se selecciona el estadístico t, de igualdad de varianzas 21, el cual tiene


como valor de significancia 0.000 que es menor que 0.05, por lo que se rechaza la
hipótesis nula de igualdad de medias, con una confianza del 95%.

En este caso la probabilidad de la t de student en ambos casos es 0.000, pero no


siempre será así por lo que la prueba de Levene es importante.

Por lo tanto no se puede aceptar la hipótesis de que la disminución de hemoglobina


sea la misma en ambos grupos, por lo tanto, la media del grupo de pacientes con
ulcera (1.0110) es mayor que la media de pacientes sin ulcera. -0.0111.

Es posible entones que la disminución global de hemoglobina sea debido a la


disminución de pacientes con ulcera.

PROCEDIMIENTO MANUAL

El procedimiento para medir la igualdad de varianzas está dado por:

1° Probar la Normalidad de las Variables

2° Probar si las varianzas de ambas muestras son iguales:

Ho: S2A = S2B

21
En caso de que no exista igualdad de varianzas el estadístico t y su nivel de significancia que se debe
considerar debe corresponder a la segunda fila denominada “No se han asumido varianzas iguales”
Vicente Waldo Aguirre Tarquino 115
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

H1: S2A  S2B

En caso de que las varianzas sean iguales y estas se dividan, el resultado debería
ser uno, si las varianzas son muy similares el resultado también se encontrara
cercano a uno, por lo que se debe verificar que:
S MG
FMax 
S MP

Dónde: SMG corresponde a la varianza más grande y SMP a la varianza más


pequeña,

El resultado de la división anterior debe ser contrastado con el estadístico F,


proveniente de las tablas, las cuales necesiten como datos dos grados de libertad
uno para el numerador y otro para el denominador, para un determinado nivel de
confianzas (95%):

Grados de libertad para el numerador: gl = n – 1; donde n corresponde al tamaño


de la muestra del grupo

Grados de libertad para el denominador: gl = n – 1

En el caso de buscar un nivel de confianza, en la siguiente tabla se debe buscar


que el are a excluir de la curva corresponda a 5% (0.05)

Ejemplo de distribución F

Vicente Waldo Aguirre Tarquino 116


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Si el valor de F Máximo es menor que F Tablas, entonces se acepta la Hipótesis


Nula de Igualdad de varianzas, en razón de que el F máximo cae en la región de
aceptación

3° En caso de que la varianzas sean iguales, se debe calcular el estadístico t a partir


de la siguiente formula:

x A  xB
t
  ( x A ) 2   (  xB ) 2   
   xA 
     
2 2
 x  
  nA   nB   nA  nB 
B

  
n  n  2  n n 
 A B  A B

  
  

4° En caso de que las varianzas sean heterogeneas, se debe calcular el estadístico


t a partir de lo siguiente:

x A  xB
t
(S A )2 (S B )2

nA nB

Vicente Waldo Aguirre Tarquino 117


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

5° Contrastar los valores t obtenidos con el estadístico de tablas para los grados de
libertad correspondientes, los cuales se calculan de la siguiente manera:

En el caso de las varianzas heterogéneas con t : gl = (nA + nB)/2

En el caso de varianzas homogéneas con t: gl = nA + nB – 2

Vicente Waldo Aguirre Tarquino 118


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

TEMA:

PRUEBAS PARAMETRICAS: EL ANALISIS DE VARIANZA

Cuando se realiza comparaciones de datos cuantitativos entre más de dos grupos,


se debe utilizar el Análisis de Varianza (ANOVA), este análisis evalúa si existe
igualdad de medias de una variable cuantitativa entre varias muestras
correspondientes a diferentes grupos.

El ANOVA no aumenta la tasa de error tipo I (rechazar Ho siendo verdadera). Los


estudios experimentales con más de dos grupos son los que utilizan generalmente
ANOVA22.

22
Cuando no se puede aplicar ANOVA (por no cumplir las condiciones), se puede usar Kruskal-Wallis para
muestra independientes y la prueba de Friedman para muestras apareadas (ambas pruebas no paramétricas).
Vicente Waldo Aguirre Tarquino 119
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Análisis de Varianza de un solo factor o ANOVA23

Para métrica
CUANTITATIVA

Una muestra
2 grupos contra una valor 3 ó mas Grupos
hipotetico

Muestra
ANOVA
Independiente

Muestra
Dependiente

Es una prueba estadística, que sirve para comparar varios grupos de una variable
cuantitativa, puede ser considerada una generalización a más muestras (3 o más)
de la PRUEBA T PARA DOS MUESTRAS INDEPENDIENTES.

En estos casos, a la variable categórica que discrimina los grupos se la llama


variable Independiente y a la variable de intervalo o razón en la que deseamos
comparar los grupos la llamamos Dependiente.

Antes de empezar el análisis es preciso recordar algunas condiciones generales:

I- Tiene que existir Independencia de los errores, es posible lograr esto si


los sujetos muestrales son seleccionados bajo un procedimiento que
asegure la aleatoriedad.

23
De similar manera que los objetivos del resto del módulo, no profundizaremos en las cuestiones
particulares del análisis, el estudiante podrá profundizar estos temas en la amplia bibliografía disponible al
respecto. El documento presentara los aspectos elementales del análisis.
Vicente Waldo Aguirre Tarquino 120
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

II- Los errores experimentales se distribuyen normalmente. Lo que presume


que cada una de las puntuaciones se distribuyan normalmente (recuerde
utilizar las pruebas aprendidas Shapiro-Wilk o Kolmogorov-Smirnov-
Lilliefors)
III- La varianza de los subgrupos debe ser homogénea, ya que se deben al
error, es decir debe existir Homoscedasticidad (Homogeneidad de
varianzas el cual se puede probar a través del test C de Cochras, Levene
u otros).

Ejemplo24.
Supongamos un estudio que se realiza en paciente con ulcera péptica y se
analiza el tiempo de reaparición de la ulcera (REPARIC) en función al tiempo de
respuesta al tratamiento (RESPUEST). Para determinar si el tiempo de
reaparición de los síntomas es el mismo independientemente de cuál haya sido
el tiempo de respuesta al tratamiento se realiza el análisis de varianza de un solo
factor.

La hipótesis a contrastar seria que la media de la variable tiempo de reaparición


de la ulcera (REAPARIC) es la misma en los cuatro grupos establecidos por la
variables tiempo de respuesta (RESPUEST).

Ho:  Re spuest1 =  Re spuest2 =  Re spuest3 =  Re spuest4

H1:  Re spuest1   Re spuest2   Re spuest3   Re spuest4

En SPSS

Analizar/Comparar Medias / ANOVA de un factor

Además para la prueba de igualdad de varianzas utilizar la prueba Levene, para


ello marcar en opciones Prueba de homogeneidad de las varianzas

24
En base a la base de datos de Magdalena Ferran
Vicente Waldo Aguirre Tarquino 121
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

ANOVA
Tiempo de reaparición

Suma de Media
cuadrados gl cuadrática F Sig.

Inter-grupos 1570,711 3 523,570 140,850 ,000


Intra-grupos 1144,901 308 3,717
Total 2715,612 311

El valor asociado al estadígrafo F es p = 0, por lo que rechazamos la hipótesis nula


de que las medias son iguales.

Test of Homogeneity of Variances


Tiempo de reaparición

Levene Statistic df1 df2 Sig.

10,667 3 308 ,000

No obstante lo anterior, el modelo viola el supuesto de igualdad de varianza debido


a que el valor asociado al estadígrafo de Leven es p = 0, por lo que rechazamos la
hipótesis nula de que las varianzas son iguales.

Ho: S 2 Re spuest1 = S 2 Re spuest2 = S 2 Re spuest 3 = S 2 Re spuest4

H1: S 2 Re spuest1  S 2 Re spuest2  S 2 Re spuest 3  S 2 Re spuest4


Vicente Waldo Aguirre Tarquino 122
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Consideraciones de no satisfacer las hipótesis del modelo:

- Es probable que la NO normalidad tenga pocos efectos.

- Si las observaciones No son independientes entonces se debe seleccionar otra


prueba.

- Si las varianzas son heterogeneas (heterosedasticidad), pero el tamaño de los


grupos son iguales, el efecto sobre el estadístico F es menor, sin embargo si las
muestras son desiguales, entonces la probabilidad de rechazar la hipótesis nula
siendo verdadera es mayor

Para lograr homogeneidad de las varianzas es preciso realizar alguna


transformación a la variable seleccionada y probar el estadístico de Levene hasta
encontrar la mayor significancia. Transformar la varianza significa convertirla en otra
por ejemplo pero sin que esto la cambie sustancialmente y con la posibilidad de que
después pueda volver a ser transformada a la original, por ejemplo si se saca su
raíz cuadrada o se aplica logaritmos la variable queda transformada.

Para realizar las pruebas con algunas transformaciones sugeridas en SPSS:

Analizas / Estadisticas Descriptivas / Explorar

- Gráficos:
o Diagrama de caja (ninguno)
o Descriptivos (ninguno)
o En Dispersión seleccionamos varios métodos
 Estimación de Potencia
 Transformados Raiz Cuadrada
 Transformados Logaritmo Natural
 Otros

ESTIMACIÓN DE POTENCIA

Vicente Waldo Aguirre Tarquino 123


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Test of Homogeneity of Variance

Levene Statistic df1 df2 Sig.

Tiempo de reaparición Based on Mean 10,667 3 308 ,000

Based on Median 9,781 3 308 ,000

Based on Median and with 9,781 3 254,734 ,000


adjusted df

Based on trimmed mean 10,669 3 308 ,000

La potencia a la cual esta elevada es 0.534

ESTIMACIÓN RAIZ CUADRADA


Test of Homogeneity of Variance

Levene Statistic df1 df2 Sig.

Tiempo de reaparición Based on Mean 1,984 3 308 ,116

Based on Median 1,835 3 308 ,141

Based on Median and with 1,835 3 289,577 ,141


adjusted df

Based on trimmed mean 1,976 3 308 ,118

ESTIMACIÓN LOGARITMO NATURAL


Test of Homogeneity of Variance

Levene Statistic df1 df2 Sig.

Tiempo de reaparición Based on Mean ,762 3 308 ,516

Based on Median ,679 3 308 ,565

Based on Median and with ,679 3 285,746 ,565


adjusted df

Based on trimmed mean ,742 3 308 ,528

Vicente Waldo Aguirre Tarquino 124


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

El test de homogeneidad de varianza de Levene para las muestras transformadas


aplicando raíz cuadrada y logaritmo natural, tiene un valor de significancia mayor
que 0.05 por lo que podemos aceptar la igualdad de varianzas.

De todas las transformaciones realizadas (se puede probar otras también), la


transformación bajo el logaritmo natural presenta la mayor estabilidad, por lo que
elegimos esta.

Ahora procedemos a transformar las variables (Es decir calcular el logaritmo natural
de la variable con la cual estamos trabajando).

En SPSS Transformar / Calcular variables

Luego procedemos con el ANOVA de un factor

Analizar / Comparar medias / ANOVA

Vicente Waldo Aguirre Tarquino 125


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

ANOVA
LREAPARIC

Sum of Squares df Mean Square F Sig.

Between Groups 29,217 3 9,739 140,403 ,000


Within Groups 21,364 308 ,069
Total 50,581 311
El valor probabilístico asociado al estadígrafo es p = 0, lo que nos dice que hay
diferencia significativas entre los grupos, es decir que las muestras no proceden de
la misma población (Se rechaza la hipótesis nula de igualdad de medias).

El estadístico que se acompaña F, nos dice que mientras más alejado este, mayor
diferencias entre medias habrá.

Por lo que no aceptamos que el tiempo de reaparición de los síntomas sea el mismo
en cada una de las cuatro muestras, sin embargo puede existir diferencias al interior
de los grupos.

Par ver esto puede utilizar el método de Tukey o Scheffe, otra alternativa es realizar
la prueba t para muestras independientes, pero esta no contempla la distribución de
la variable dependiente sobre los restantes grupos.

El de Tukey es más poderoso, sin embargo se tiene que mantener tamaños iguales,
por lo que es recomendable disminuir el tamaño de la muestra.

Como en nuestro caso los tamaños son diferentes usamos el método de Scheffe

En SPSS

Analizar / Comparar medias / Anova de un factor

- Post hoc
o Marcar el metodo Scheffe
o Definir el nivel de significancia

Vicente Waldo Aguirre Tarquino 126


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Multiple Comparisons
LREAPARIC
Scheffe
(I) Tiempo de respuesta (J) Tiempo de respuesta Mean 95% Confidence Interval
Difference (I- Std. Lower Upper
J) Error Sig. Bound Bound
2 Semanas 4 Semanas ,37230* ,03623 ,000 ,2704 ,4742
dimension3 6 Semanas ,61124* ,03962 ,000 ,4999 ,7226
8 Semanas ,97268* ,05647 ,000 ,8140 1,1314
4 Semanas 2 Semanas -,37230* ,03623 ,000 -,4742 -,2704
dimension3 6 Semanas ,23895* ,04054 ,000 ,1250 ,3529
8 Semanas ,60038* ,05712 ,000 ,4398 ,7609
dimension2
6 Semanas 2 Semanas -,61124* ,03962 ,000 -,7226 -,4999
dimension3 4 Semanas -,23895* ,04054 ,000 -,3529 -,1250
8 Semanas ,36143* ,05932 ,000 ,1947 ,5282
8 Semanas 2 Semanas -,97268* ,05647 ,000 -1,1314 -,8140
dimension3 4 Semanas -,60038* ,05712 ,000 -,7609 -,4398
6 Semanas -,36143* ,05932 ,000 -,5282 -,1947
*. The mean difference is significant at the 0.05 level.

Por lo que se verifica que existe diferencias entre todos los grupos analizados, o
en aquellos casos que aparezca el asterisco (*) en el cual se menciona la
diferencia para el nivel elegido.

Vicente Waldo Aguirre Tarquino 127


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

TEMA:

PRUEBAS NO PARAMETRICAS

Las pruebas no paramétricas o de distribución libre, son utilizados para variables categóricas o datos
que no tienen una distribución normal, respecto estas pruebas la literatura sugiere que son menos
potentes que las paramétricas y tienen más posibilidades de cometer el error tipo II o error Beta25,
por lo que para aumentar su potencia se tiende a incrementar el tamaño de la muestra.

A continuación se expondrán las pruebas más utilizadas, el orden de presentación seguir lo


desarrollado hasta ahora, analizaremos las pruebas no para métricas para una muestra, para dos
muestras y para k-muestras26.

25
Por ejemplo, la U de Mann-Whitney tiene una potencia relativa del 95% con respecto a la prueba
paramétrica t de Student lo que significa que con una muestra de 100 sujetos, se consigue la misma
potencia con la U de Mann-Whitney que con 95 sujetos para la t de Student.
(www.ugr.es/~rruizb/cognosfera/sala_de_estudio/estadistica/esquematest.doc)

26
Al igual que varios de los ejemplos utilizados hasta ahora utilizaremos la base de datos con ejemplos en el
area de salud de Magdalena Ferrán
Vicente Waldo Aguirre Tarquino 128
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

No Paramétrica

Una muestra
2 grupos contra una valor 3 ó mas Grupos
hipotetico

Muestra
Independiente

Muestra
Dependiente

Análisis para el caso de una muestra27

Prueba Tipo de Variable Objetivo


Determinar si las diferencias entre las
proporciones de cada uno de los dos valores
Binominal Cualitativa: 2 valores de la variable y unas determinadas
proporciones teóricas son estadísticamente
significativas.

Determinar si las diferencias entre las


cualitativa: k > 2
Chi-cuadrado frecuencias de cada uno de los valores de la
valores
variable y unas determinadas frecuencias
teóricas son estadísticamente significativas.
Prueba de la binomial.

Es muy utilizada sobre todo en aquellos ejemplos entendidos como éxitos o fracasos.

27
Las pruebas analizadas son conocidas también como pruebas de bondad de ajuste, las dos analizadas
corresponden a la bondad de ajuste para muestras no paramétricas, en el caso de las parametricas tenemos
a la de K-S y K-S con corrección Llifiefors,
Vicente Waldo Aguirre Tarquino 129
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Es una prueba de bondad de ajuste que se utiliza para contrastar la hipótesis nula de que la muestra
procede de una población en la que la proporciones de individuos que presentan los valores x1 y x2,
son iguales a pe y a qe = 1 + pe respectivamente, recuerde 1 = pe + qe

Ho: p = pe y q = qe

H1 p pe

Ho: La proporción de la muestra p es igual a la proporción esperada pe de la población.

Ho: La proporción de la muestra p es diferente a la proporción esperada pe de la población.

Si el valor p asociado al estadístico de contraste es menor que alfa, se rechaza la hipótesis nula al
nivel de significación de alfa (p menor a 0.05).

Ejemplo 1

Se desea comprobar que en términos de representatividad de la población, la proporción de


pacientes tratados con el fármaco es igual a la proporción de pacientes tratados con el placebo, es
decir ambos grupos son iguales (ambos tiene una proporción del 50% de la muestra, tamaño
muestral que alcanza a 79 pacientes), no obstante a ello se aclara que originalmente el estudio
contaba con 100 pacientes de los cuales 50 fueron tratados con el fármaco y 50 con el placebo.

Ho: p = p (FARMACO = 1) = 0,5

Si uno tuviera que partir la muestra en grupos iguales tendría una cantidad esperada n * pe = 79 *
0.5 = 39.5, lo que se contrasta con la cantidad de datos en el grupo 1 (41)

En SPSS

Analizar / Pruebas no paramétricas / Cuadros de Dialogo Antiguos / Binomial

Llenar el campo de proporción de prueba con 0.5

Vicente Waldo Aguirre Tarquino 130


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Binomial Test
Categoría N Proporción Prop. de Sig. asintót.
observada prueba (bilateral)

Paciente tratado con el Group 1 Si 41 ,52 ,50 ,822a


fármaco Group 2 No 38 ,48

Total 79 1,00

a. Based on Z Approximation.

Dado que el valor 0.822 es mayor que 0.05 no se puede rechazar la hipotesis nula, es decir la
proporción de pacientes tratados con el fármaco es igual a la proporción de pacientes tratados con
el placebo, dicho de otra manera, la diferencia entre lo observado en la muestra y lo esperado no
es estadísticamente significativa.

Ejemplo 2

Se desea valorar un tratamiento en 100 pacientes de los cuales 80 son fumadores y 20 no son
fumadores, al finalizar el estudio existió una mortalidad experimental y solo quedaron 79 pacientes
de los cuales 53 son fumadores y 26 no fumadores, por lo que se desea contrastar la prueba de que
los pacientes que quedan mantiene la proporción de la población original.

Ho: p = p (FUMADOR= 1) = 0,8

Analizar / Pruebas no paramétricas / Cuadros de Dialogo Antiguos / Binomial

Llenar el campo de proporción de prueba con 0.8

Vicente Waldo Aguirre Tarquino 131


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Prueba binomial

Proporción Sig. asintót.


Categoría N observada Prop. de prueba (unilateral)

Fumador Grupo 1 Si 53 ,7 ,8 ,005a,b

Grupo 2 No 26 ,3

Total 79 1,0

a. La hipótesis alternativa establece que la proporción de casos del primer grupo sea < .8.
b. Basado en la aproximación Z.

Como el valor p 0.005 es menor que 0.05 rechazamos la hipótesis nula y se concluye que la
muestra no es representativa de la población objeto de estudio.

Prueba Chi Cuadrada para una muestra

La Chi Cuadrada para una muestra es frecuentemente utilizada para comparar las frecuencias
observadas con frecuencias teóricas (Ej. Lo que hubiera sucedido), en algunos capítulos adelante el
lector podrá apreciar que esta prueba se generaliza en el caso de se tenga una tabla de contingencia
mediante el cual se disponga el cruce de dos variables (tabla de contingencia de doble entrada).

Ho: p1 = p1e y p2 = p2e y p3 = p3e y …….pk = pke

H1: p1  p1e y p2  p2e y p3  p3e y …….pk  pke

Ho: La muestra procede de una población en la que proporción esperada de la submuestra 1 es


igual a la proporción esperada para la submuestra 2 y submuestra k respectivamente

H1: La muestra procede de una población en la que proporción esperada de la submuestra 1 es


diferente a la proporción esperada para la submuestra 2 y submuestra k respectivamente

Ejemplo 3

En la prueba de un tratamiento administrado de forma aleatoria a 50 sujetos el tratamiento A, a


50 el tratamiento B y a 50 un placebo. Al finalizar el tratamiento, solo quedaron 103 sujetos, por
lo que se desea comprobar si la proporción que queda en la muestra representa 1/3 de la
población original.

Vicente Waldo Aguirre Tarquino 132


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Ho: La muestra procede de una población en la que proporción esperada de pacientes tratados
con el fármaco A, con el fármaco B y con el placebo es la misma.

H1: La muestra procede de una población en la que proporción esperada de pacientes tratados
con el fármaco A, con el fármaco B y con el placebo es diferente.

En SPSS

Analizar / Pruebas No Parametricas / Chi Cuadrado

Vicente Waldo Aguirre Tarquino 133


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Fármaco recetado

N observado N esperado Residual

Fármaco A 34 34,3 -,3


Fármaco B 37 34,3 2,7
Placebo 32 34,3 -2,3
Total 103

Estadísticos de contraste

Fármaco
recetado

Chi-cuadrado ,369a
gl 2
Sig. asintót. ,832

a. 0 casillas (.0%) tienen


frecuencias esperadas menores
que 5. La frecuencia de casilla
esperada mínima es 34.3.

El valor p de 0.832 es mayor que 0.05, por lo que no se puede rechazar la hipotesis nula, dado que
las diferencias entre lo observado en la muestra y lo esperado bajo la hipotesis nula son
estadisticamente significativas, se puede aceptar que la proporción de pacientes tratados con el
fármaco A, B y placebo es la misma, por lo tanto que la muestra es representativa de la población.

Ejemplo 4

Además de separar en muestras iguales, se puede asignar una proporción diferente a cada uno de
los subgrupos que tiene la muestra por ejemplo:

Ho: p1 = p(INFARTO = 1) = 2/6

P2 = p(INFARTO = 1) = 2/6

P3 = p(INFARTO = 1) = 1/6

P4 = p(INFARTO = 1) = 1/6

Note que la suma de las proporciones tiene que dar 1 o sea 100%

Vicente Waldo Aguirre Tarquino 134


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

De la misma manera que en la prueba anterior se desea compara que las proporciones que
mantiene la muestra son los que originalmente tenia la población.

En SPSS

Analizar / Pruebas No Parametricas / Chi cuadrado

Notese que se añadió valores 2, 2, 1 , 1; los cuales corresponderán al orden de las variables
categóricas: Anterior = 1, Inferior =2, Lateral =3 y Posterior = 4.

Localización del infarto de miocardio

N observado N esperado Residual

Anterior 33 34,3 -1,3


Inferior 34 34,3 -,3
Lateral 17 17,2 -,2
Posterior 19 17,2 1,8
Total 103

Vicente Waldo Aguirre Tarquino 135


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Estadísticos de contraste

Localización del
infarto de
miocardio

Chi-cuadrado ,252a
gl 3
Sig. asintót. ,969

a. 0 casillas (.0%) tienen


frecuencias esperadas menores
que 5. La frecuencia de casilla
esperada mínima es 17.2.

Al igual que en el caso anterior siendo que el valor p 0.969 es mayor que 0.05 se acepta la
hipótesis nula, por lo tanto la muestra es representativa de la población.

Vicente Waldo Aguirre Tarquino 136


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Pruebas no paramétricas para muestras relacionadas (dependientes)

Pruebas no paramétricas para muestras relacionadas (dependientes)

Num. De
Prueba Variables Objetivo
grupos
McNemar 2 Cualitativas: 2 Determinar si la diferencia entre las
valores (nominal) distribuciones de frecuencias de los
valores de las dos variables es
estadísticamente significativa.

Signos 2 En escala al Determinar si la diferencia entre el


menos ordinal numero de veces en que el valor de una
variable es mayor que el de la otra y el
numero de veces en que es menor es
estadísticamente significativa
Wilcoxon 2 En escala Determinar si la diferencia entre la
(continuas) o al magnitud de las diferencias positivas
menos ordinal entre los valores de las dos variables y la
magnitud de las diferencias negativas es
estadísticamente significativa.
Q de Cochran p > 2 Cualitativas: 2 Determinar si las diferencias entre las
valores distribuciones de frecuencias de los
valores de las p variables son
estadísticamente significativas.
F de p >2 En escala al Determinar si las diferencias entre las
Friedman menos ordinal distribuciones de las p variables son
estadísticamente significativas.
Concordancia p En escala al
Medir el grado de concordancia entre los
de Kendall menos ordinal
elementos de la muestra respecto a las
puntuaciones de las p variables.

Vicente Waldo Aguirre Tarquino 137


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Prueba de Wilcoxon

Ho: Dx antes = Dx después

H1: Dx antes  Dx después

La distribución antes y después

Para variables cuantitativas continuas que no siguen una distribución normal o con valores
discretos, también se aplica para variables categóricas al menos ordinales.

Ej . Libro pg 289

Rangos

Rango Suma de
N promedio rangos

Despues – Antes Rangos negativos 6a 4,17 25,00

Rangos positivos 1b 3,00 3,00

Empates 0c

Total 7

a. Despues < Antes


b. Despues > Antes
c. Despues = Antes

Estadísticos de contrasteb

Despues –
Antes

Z -1,859a
Sig. asintót. (bilateral) ,063

a. Basado en los rangos positivos.


b. Prueba de los rangos con signo de
Wilcoxon

Vicente Waldo Aguirre Tarquino 138


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Prueba de Signos y de Wilcoxon

Ejemplo 5

Se desea probar si el colesterol ha disminuido después del cambio de dieta en un grupo de 42


pacientes

G O1 X O2

En la prueba de los rangos con signo se contrastara la siguiente hipotesis.

Ho: p(X>Y) =p(X<Y)

Ho: p(X>Y)  p(X<Y)

La muestra procede de una población en la que la probabilidad de que X sea mayor que Y es igual
a la misma de que sea menor.

Ho: p(COLEST_I >COLETS_F) =p(COLEST_I<COLEST_F)

En la prueba de los signos la Hipotesis nula es la siguiente

Ho: m+ = m-

La magnitud de las diferencias positivas y negativas entre los valores de las variables X e Y es la
misma.

Ho: m(COLEST_I-COLETS_F)+ =m(COLEST_I-COLEST_F)-28

En SPSS

Analizar / Pruebas No parametricas /

- Tipo de prueba Signos – Wilcoxon

28
Ejemplo 5.4 en Ferran
Vicente Waldo Aguirre Tarquino 139
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Vicente Waldo Aguirre Tarquino 140


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

PRUEBA DE LOS SIGNOS PRUEBA DE WILCOXON


Ranks
Frequencies Mean Sum of
N N Rank Ranks
Colesterol Final - Negative 29 Colesterol Negative 29a 18,88 547,50
Colesterol Inicial Differencesa Final - Ranks
Positive 13 Colesterol Positive 13b 27,35 355,50
Differencesb Inicial Ranks
Tiesc 0 Ties 0c
Total 42 Total 42
a. Colesterol Final < Colesterol Inicial a. Colesterol Final < Colesterol Inicial
b. Colesterol Final > Colesterol Inicial b. Colesterol Final > Colesterol Inicial
c. Colesterol Final = Colesterol Inicial c. Colesterol Final = Colesterol Inicial

Test Statisticsa Test Statisticsb


Colesterol Final Colesterol Final
- Colesterol - Colesterol
Inicial Inicial
Z -2,315 Z -1,200a
Asymp. Sig. (2-tailed) ,021 Asymp. Sig. (2-tailed) ,230
a. Sign Test a. Based on positive ranks.
b. Wilcoxon Signed Ranks Test

INTERPRETACIÓN INTERPRETACIÓN
Como el valor p, 0.021 es menor que 0.05 se Como el valor 0.230 es mayor que 0.05 se
rechaza la Hipotesis Nula, por lo que el acepta la Hipótesis Nula, por lo que la
colesterol ha disminuido. magnitud de colesterol antes y después es el
29 Sujetos refuerzan esta idea. mismo.
Esto puede ser explicado por que los sujetos
que aumentaron su nivel de colesterol
tuvieron una magnitud mayor (comieron el
doble por ejemplo) que los que disminuyeron.

En la generalidad de los estudios ambos estudios arrojan los mismos resultados, pero en nuestro
caso no.

Interpretación de las sumas negativas y positivas

Vicente Waldo Aguirre Tarquino 141


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

ini FIN FIN-ini ABS RANGOS


1,64 1,42 -0,22 0,22 1
3,27 3 -0,27 0,27 2
3,81 3,53 -0,28 0,28 3
2,22 1,9 -0,32 0,32 4
3,99 3,66 -0,33 0,33 5
7,94 7,58 -0,36 0,36 6
2,94 2,54 -0,4 0,4 7
2,8 2,34 -0,46 0,46 8
2,88 2,3 -0,58 0,58 9
2,26 1,55 -0,71 0,71 10
3,62 2,9 -0,72 0,72 11
3,11 2,18 -0,93 0,93 12
2,7 1,66 -1,04 1,04 13
2,71 1,62 -1,09 1,09 14
5,42 6,51 1,09 1,09 15
3,83 5,05 1,22 1,22 16
5,94 7,17 1,23 1,23 17
2,6 1,35 -1,25 1,25 18
2,64 3,91 1,27 1,27 19
4,75 3,46 -1,29 1,29 20
2,54 1,15 -1,39 1,39 21
4,28 5,69 1,41 1,41 22
3,78 5,21 1,43 1,43 23
2,82 4,3 1,48 1,48 24
2,81 1,26 -1,55 1,55 25
3,44 1,83 -1,61 1,61 26
3,03 1,41 -1,62 1,62 27
5,19 3,55 -1,64 1,64 28
4,28 2,58 -1,7 1,7 29
2,41 0,66 -1,75 1,75 30
4,71 2,91 -1,8 1,8 31
3,28 5,26 1,98 1,98 32
2,68 4,69 2,01 2,01 33
3,65 1,43 -2,22 2,22 34
3,3 0,92 -2,38 2,38 35
3,47 6,35 2,88 2,88 36
4,1 1,1 -3 3 37
2,73 5,97 3,24 3,24 38
1,75 5,05 3,3 3,3 39
7,02 2,94 -4,08 4,08 40
6,88 1,07 -5,81 5,81 41
2,73 8,63 5,9 5,9 42

Total 903
Suma positiv os 356,0
Suma negativ os 547,0

En caso de contradicción, a efectos de disminuir la magnitud de las variables, es posible


transformarlas y volver a probar los test, por ejemplo se puede transformar las variables en
logaritmos y se pude volver a realizar las pruebas:

Vicente Waldo Aguirre Tarquino 142


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Prueba de McNemar

Es una variante de la prueba Chi Cuadrada, se utiliza para comparar una misma variable cualitativa
(categorica) en una población relacionada, por ejemplo medir el efecto de una intervención (pre
experimental o experimental) en dos momentos al mismo grupo29; antes de la intervención y
después de la intervención.

La idea es verificar si producto de la intervención existe algún cambio significativo en la variable de


intervención, la prueba concentra su atención en los sujetos que cambiaron y no en los que no
tuvieron cambios, para el test es requisito contar con valores dicotómicos y para dos grupos,
asimismo es necesario que la frecuencia dispuesta en cada una de las casillas de la tabla de
contingencia sea mayor a 1030, la tabla de contingencia que se valora es la siguiente:

Tabla de contingencia (2x2)

Característica después de la Prueba


Presente Ausente
Sin cambios Cambio de Presente a Ausente
Presente (a) (b)
Caracteristica Cambio de Ausente a Presente Sin cambios
antes Ausente (c) (d)

La prueba de hipótesis es:

Ho: Probabilidad de Cambio Antes = Probabilidad de Cambio Después

H1: Probabilidad de Cambio Antes  Probabilidad de Cambio Después

O también:

Ho: Los cambios en ambos sentidos son iguales, por lo que la intervención no origino cambios

H1: Los cambios en ambos sentidos son diferentes, por lo que la intervención origino cambios

La Fórmula que se utiliza es:

29
Si la variable se mide en más de dos momentos Ej. G 01 x 02 x 03 se debe usar la Q de Cochran
30
En caso de que el valor presente en alguna de las celdas sea menor que 10 se debe realizar la corrección
yates, siendo que la interpretación es la misma:
Correcion de Yates = (((b-c)-1)2 ) / (b + c)
Vicente Waldo Aguirre Tarquino 143
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

(b  c) 2
  2

bc
La Chi cuadrado de Mc Nemar calculada se contrasta con la de tablas para un grado de libertad31
para un valor alfa de 0.05 (p < 0.05), por lo que se contrastara siempre con 3.841, cuando el valor
calculado sea mayor que el de tablas se rechaza Ho. Asimismo en los paquetes estadísticos recuerde
si el p < 0.05 se rechazara la Ho.

Ejemplo de Distribucion Chi - cuadrada y tabla.

31
Los grados de libertad para la Chi cuadrado es = (número de filas – 1 ) * (número de columnas – 1)
Vicente Waldo Aguirre Tarquino 144
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Ejemplo Calcule el Ejercicio Pg. 303

En SPSS

Pruebas no paramétricas / Cuadros de dialogo antiguos / Prueba para dos muestras


relacionadas/McNemar

Vicente Waldo Aguirre Tarquino 145


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Antes Educacion y Despues Educacion

Antes Educacion Despues Educacion

Aprobado No Aprobado

Aprobado 80 100
dimension0

No Aprobado 180 30

Estadísticos de contrasteb

Antes
Educacion y
Despues
Educacion

N 390
Chi-cuadradoa 22,289
Sig. asintót. ,000

a. Corregido por continuidad


b. Prueba de McNemar

Se rechaza Ho, dado el valor p de 0.000 que es menor a 0.05

Vicente Waldo Aguirre Tarquino 146


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Pruebas No Paramétricas para dos Muestras Independientes

Entre estas pruebas se tiene las siguientes

Num. De Variable
Prueba Objetivo
grupos dependiente
Mann- 2 En escala al Determinar si la diferencia entre el
Whitney menos ordinal número de veces en que el valor de la
variable en un grupo es mayor que en el
otro y el número de veces en que es
menor es estadísticamente significativa.

Kolmogorov- 2 En escala al Determinar si la diferencia entre las


Smirnov menos ordinal funciones de distribución empíricas de la
variable en cada uno de los dos grupos es
estadísticamente significativa.

Wald- 2 En escala al Determinar si la diferencia entre la


Wolfowitz menos ordinal secuencia de observaciones
pertenecientes a uno y otro grupo y la
secuencia correspondiente a
observaciones completamente
mezcladas es estadísticamente
significativa.

Mediana K En escala al Determinar si las diferencias entre las


menos ordinal frecuencias de observaciones en cada
uno de los k grupos con valor igual o por
debajo de la mediana de la variable sin
distinguir grupos y las frecuencias
esperadas supuesto que la mediana
fuera la misma en los k grupos son
estadísticamente significativas.
Kruskal-Wallis K En escala al Determinar si las diferencias entre las
menos ordinal medias de los rangos (asignados a las
observaciones ordenadas) en los k
grupos son estadísticamente
significativas.

Fuente: En Base a Magdalena Ferran

Vicente Waldo Aguirre Tarquino 147


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Prueba de U de Mann-Whitney para dos grupos independientes

Cuando la variable medida es cuantitativa (incluso continua pero que no sigue una distribución
normal) o es ordinal discreta se puede utilizar la prueba U de Mann Whitney32, en este caso la
hipótesis está dada por (Villa Romero):

Ho: Dx = Dy

H1: Dx Dy

Otra forma de definer (wikipedia), estaria dado por:

Ho: P(X>Y) = P(Y>X)

H1: P(X>Y)+0.5P(X=Y) >0,5

Ho: La distribución de partida de ambos grupos es la misma

H1: Los valores de una muestra tienden a exceder a otra.

Ejemplo

Revisar resultados de pg 273 de Villo Romero et al.

Prueba U de Mann-Whitney, de Kolmogorov-Smirnov y de Wald-Walfowitz para dos grupos


independientes

Ejemplo

Se desea analizar el efecto del fármaco A (se añade al tratamiento habitual-ordinal), con el
tratamiento habitual de pacientes con Fracción de Eyección del Ventriculo Izquierdo (FEVI)
deprimida en grado severo, para lo cual se aplicara las tres pruebas citadas. Al final de seis meses
se compara el FEVI entre los dos grupos de pacientes (con tratamiento habitual y tratamiento
novedoso).

G1 X1 O1

G2 X2 O2

32
La prueba, en variables continuas que no siguen una distribución normal, resulta una alternativa a la
comparación de dos promedios independientes realizada con la t de student
Vicente Waldo Aguirre Tarquino 148
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Mann-Whitney Kolmogorov-Smirnov Wald-Walfowitz


Ho: Px1<x2 = Px1>X2 Ho: F1 = F2 Ho: Las muestras proceden de
Ho: Las muestras provienen Ho: La distribución es la dos subplaciones en las que
de dos subpoblaciones en las misma en las dos los valores de la variable que
que la probabilidad de subpobaciones esta siendo analizada, no
obtener un resultado X en la tienden a ser menores ni
primera subpoblación que sea mayores en una de las
menor que en la segunda, es subpoblaciones con respecto
igual la probabilidad de que el a la otra, si no que se
resultado X de la primera encuentran mezcladas
subpoblación sea mayor que
en la segunda
Ho: PFEVI(TRATAMIE=1)< (TRATAMIE=2) = Ho: FTRATAMIE=1 = F TRATAMIE=2
P(TRATAMIE=1)>(TRATAMIE=2)
Ho: las muestras proceden de La distribución de la variable
Las muestras proceden de dos
dos subpoblaciones en las que analizada X es la misma en las
subpoblaciones en la que los
la probabilidad de obtener en dos subpoblaciones valores de la variable
la primera el resultado de X analizada no tienden a ser
menor que en la segunda es mayores ni menores en una
igual a la probabilida de de las subpoblaciones, sino
obtener el resultado mayor. que, por el contrario, están
completamente mezclados
con los de la otra
subpoblación
Si el valor p asociado al estadístico de contraste es menor que alfa (0.05), se rechazara la
hipótesis nula al nivel de significancia de alfa.

En SPSS

Analizar / Pruebas No Parametrica / 2 Muestras Independientes

Mann-Whitney Test

Vicente Waldo Aguirre Tarquino 149


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Ranks

Tratamiento aplicado N Mean Rank Sum of Ranks

FEVI al final del periodo de Tratamiento habitual 12 11,50 138,00


observación d

T. hab. + Fármaco A 11 12,55 138,00


i

Total 23

Test Statisticsb

FEVI al final del


periodo de
observación

Mann-Whitney U 60,000
Wilcoxon W 138,000
Z -,370
Asymp. Sig. (2-tailed) ,712
Exact Sig. [2*(1-tailed Sig.)] ,740a

a. Not corrected for ties.


b. Grouping Variable: Tratamiento aplicado

Two-Sample Kolmogorov-Smirnov Test


Frequencies

Tratamiento aplicado N

FEVI al final del periodo de d


Tratamiento habitual 12
observación n
T. hab. + Fármaco A 11
1 Total 23

Test Statisticsa

FEVI al final del


periodo de
observación

Most Extreme Differences Absolute ,273

Positive ,273

Negative -,106
Kolmogorov-Smirnov Z ,653
Asymp. Sig. (2-tailed) ,787

a. Grouping Variable: Tratamiento aplicado

Vicente Waldo Aguirre Tarquino 150


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Wald-Wolfowitz Test

Frequencies

Tratamiento aplicado N

FEVI al final del periodo de Tratamiento habitual 12


d

observación T. hab. + Fármaco A 11


i

m
Total 23

Test Statisticsb,c

Exact Sig. (1-


Number of Runs Z tailed)

FEVI al final del periodo de Exact Number of Runs 11a -,418 ,335
observación

a. No inter-group ties encountered.


b. Wald-Wolfowitz Test
c. Grouping Variable: Tratamiento aplicado

En este ultimo caso, si el número de empates (ties encountered) es grande, el resultado seria
difícilmente interpretable por lo que se debería optar por otra prueba.

Con las tres pruebas se verifica que el valor estadístico de contraste es mayor que 0.05 por lo que
se acepta la hipótesis nula, por lo tanto el fármaco no aporta mejores resultados.

Vicente Waldo Aguirre Tarquino 151


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

TEMA:

COMPARACION ENTRE POBLACIONES NO RELACIONADAS: LA CHI


CUADRADA DE PEARSON,

Permite la comparación entre dos variables categorizadas entre poblaciones con observaciones no
relacionadas (independientes), es utilizada para valorar la dependencia (asociación) o
independencia entre dos grupos de variables categóricas que pueden ser nominales u ordinales.

Medidas de asociación para tablas de contingencia

Prueba Descripción
Chi -cuadrado Determinar si las diferencias entre las frecuencias observadas en la tabla
de Pearson de contingencia correspondiente al cruce de los valores de las dos
variables y las frecuencias esperadas, supuestos que las variables son
independientes, son estadísticamente significativas. (Se involucra a dos
variables)
Fuente: En Base a Magdalena Ferran

Contrasta la hipótesis nula de independencia entre dos variables con más de dos categorías. No
mide la fuerza de la asociación, donde:

Ho: Las variables X e Y son independientes33

H1: Existe dependencia o asociación entre las variables X e Y

Si el valor p asociado al estadístico de contraste es menor que alfa, se rechaza la hipótesis nula al
nivel de significancia alfa

Recuerde que las frecuencias esperadas de las celdas de la tabla de contingencia deben ser mayores
que 5, en una tabla de 2x2 solo se puede permitir una celda menor a 5, siempre y cuando sea mayor
que 0, es decir el 75% de las celdas (3 celdas de 4) deben ser mayores que 5, esta proporción debe
mantenerse para tablas mayores que 2x2, siempre y cuando los valores sean mayores que 0., en
caso contrario y cuando los valores de la celda están entre 3 y 5 se recomienda usar la corrección
de Yates34, cuando los valores están entre 0 y 2 se debe usar la prueba exacta de Fisher35

33
La Ho en alguna literatura también puede ser: Las variables en filas y columnas no están asociadas. Esto
debido a que la tabla de contingencia expone los datos ordenados en filas y columnas.
34
Ó corrección por continuidad, reduce el valor de la Chi cuadrado.
35
Para variables docotomicas en muestras pequeñas
Vicente Waldo Aguirre Tarquino 152
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Ver ejemplo libro: Villaromero y colaboradores, pg.296

Procedimiento

1. Construir la tabla de contingencia de valores observados

Tabla de contingencia (i filas x j columnas)

Caracteristica Y
1 2 …. J Totales
1 fo11 fo12 fo1… fo1j Total Fila 1
Caracteristica 2 fo21 fo22 fo2… fo2j Total Fila 2
X …. fo...1 fo…2 fo…… fo…j Total Fila …
i foi1 foi1 foi… foij Total Fila i
Total Total Total Total Total
Totales Columna 1 Columna 2 Columna … Columna j n

2. Construir la tabla de contingencia de valores esperados (i filas x j columnas)

Caracteristica Y
1 2 …. j Totales
fe11= fe12= fe1…= fe1j= Total Fila
(Tot.Fila1xTot.Colum1) (Tot.Fila1xTot.Colum2) (Tot.Fila1xTot.Colum…) (Tot.Fila1xTot.Columj) Esperada
1 N N N N 1
fe21= fe22= fe2…= fe2j= Total Fila
(Tot.Fila2xTot.Colum1) (Tot.Fila2xTot.Colum2) (Tot.Fila2xTot.Colum…) (Tot.Fila2xTot.Columj) Esperada
2 N N N N 2
Caracteristica
Total Fila
X Esperada
fe..1= fe…1= fe…= fe…j=
Tot.Fila..,xTot.Colum1) (Tot.Fila..,xTot.Colum2) (Tot.Fila..,xTot.Colum…) (Tot.Fila..,xTot.Columj) …
…. N N N N
fei1= fei1= fei…= feij= Total Fila
(Tot.FilaixTot.Colum1) (Tot.FilaixTot.Colum2) (Tot.FilaixTot.Colum…) (Tot.FilaixTot.Columj) Esperada
i N n N n i
Total
Total Columna Total Columna Total Columna Total Columna n
Totales Esperada 1 Esperada 2 Esperada … Esperada j

Note que el Total de la Columna Observada y la Columna esperada es el mismo.

Vicente Waldo Aguirre Tarquino 153


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

3. Construir una nueva tabla que incluya el valor de la Chi cuadrado para cada casilla

Caracteristica Y
1 2 …. j
( fo11  fe11 ) 2
( fo12  fe12 ) 2
( fo1 j  fe1 j ) 2
112  122  12j 
1 fe11 fe12 … fe1 j
( fo21  fe21 ) 2 ( fo21  fe21 ) 2 ( fo2 j  fe2 j ) 2
Caracteristica  212   212   22 j 
2 fe21 fe21 … fe2 j
X
…. …. … … …
( foi1  fei1 ) 2
( foi 2  fei 2 ) 2
( foij  feij ) 2
 i21   i22   ij2 
I fei1 fei 2 … feij

4. Sumar los valores de cada casilla de la tabla


( foij  feij ) 2
Calculada
2
 
i j feij
( foij  feij ) 2
 2
Calculada    112   21
2
 .... ij2
i j feij
5. Comparar el valor obtenido (calculado) con el de tablas (para p menor a 0.05)
Recuerde que para encontrar el valor en tablas antes se debe calcular los grados de libertad,
los cuales están dados por>
gl  ( filas  1) x ( columnas  1)  ( i  1) x ( j  1)

 Calculada
2
  tablas
2
 Aceptar Ho

Vicente Waldo Aguirre Tarquino 154


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Ejemplo de Distribucion Chi - cuadrada y tabla.

Ejemplo

Verifique si existe relación entre tres tipos de tratamiento contra el acné (Tratamiento A, B y C) y
la percepción del tratamiento que declaran los pacientes (siente mejoras con el tratamiento -M,
no siente mejoras con el tratamiento - I), para el siguiente grupo de pacientes entre 15 y 17 años.

Vicente Waldo Aguirre Tarquino 155


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

TRATAMIENTO
TRATAMIENTO

TRATAMIENTO

TRATAMIENTO

TRATAMIENTO

TRATAMIENTO

TRATAMIENTO
PERCEPCION

PERCEPCION

PERCEPCION

PERCEPCION

PERCEPCION

PERCEPCION

PERCEPCION
SUJETO

SUJETO

SUJETO

SUJETO

SUJETO

SUJETO

SUJETO
1 A M 11 A M 21 A I 31 B M 41 B I 51 C M 61 C M
2 A M 12 A M 22 A I 32 B M 42 B I 52 C M 62 C M
3 A M 13 A M 23 A I 33 B M 43 B I 53 C M 63 C I
4 A M 14 A M 24 A I 34 B M 44 B I 54 C M 64 C I
5 A M 15 A I 25 A I 35 B I 45 B I 55 C M 65 C I
6 A M 16 A I 26 A I 36 B I 46 B I 56 C M 66 C I
7 A M 17 A I 27 B M 37 B I 47 B I 57 C M 67 C I
8 A M 18 A I 28 B M 38 B I 48 B I 58 C M 68 C I
9 A M 19 A I 29 B M 39 B I 49 B I 59 C M 69 C I
10 A M 20 A I 30 B M 40 B I 50 B I 60 C M 70 C I

1. Construir la tabla de contingencia de valores observados

Tabla de contingencia
TRATAMENTO * PERCEPCION
Valores Observados

PERCEPCION

M I Total

TRATAMENTO A 14 12 26

B 8 16 24

C 12 8 20
Total 34 36 70

2. Construir la tabla de contingencia de valores esperados (i filas x j columnas)

Vicente Waldo Aguirre Tarquino 156


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Tabla de contingencia
TRATAMENTO * PERCEPCION
Valores Esperados

PERCEPCION

M I Total

TRATAMENTO A 12,63 13,37 26

B 11,66 12,34 24

C 9,71 10,29 20
Total 34 36 70

3. Construir una nueva tabla que incluya el valor de la Chi cuadrado para cada casilla

Tabla de contingencia
TRATAMENTO * PERCEPCION
Componentes Chi Cuadrado

PERCEPCION

M I Total

TRATAMENTO A 0,149 0,141 0,290

B 1,147 1,084 2,231

C 0,538 0,508 1,046


Total 1,834 1,732 3,57

4. Sumar los valores de cada casilla de la tabla

( foij  feij ) 2
 2
Calculada    0,290  2,231  1,046  3,567
i j feij

5. Comparar el valor obtenido (calculado) con el de tablas (para p menor a 0.05)


Recuerde que para encontrar el valor en tablas antes se debe calcular los grados de libertad,
los cuales están dados por:

Vicente Waldo Aguirre Tarquino 157


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

gl  ( filas  1) x ( columnas  1)  ( 3  1) x ( 2  1)  2

 Calculada
2
  tablas
2
 Aceptar Ho

3,567  5,991  Acepta Ho

En SPSS
Analizar / Estadísticos Descriptivos / Tablas de Contingencia

Pruebas de chi-cuadrado

Sig. asintótica
Valor gl (bilateral)

Chi-cuadrado de Pearson 3,566a 2 ,168


Razón de verosimilitudes 3,621 2 ,164
Asociación lineal por lineal ,073 1 ,788
N de casos válidos 70

a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La


frecuencia mínima esperada es 9,71.

Como el valor de significancia 0,168 es mayor que 0.05 se acepta Ho.

La razón de verosimilitud (Likelihood Ratio en ingles), es una alternativa al estadístico de la chi


cuadrado de pearson, para contrastar la hipótesis de independencia entre variables, mientras que
el estadístico de Chi cuadrado de Pearson se basa en las diferencias entre las frecuencias observadas
y esperadas, la razón de verosimilitud se basa en el cociente entre ellas.

En nuestro ejemplo el cociente de la razón de verosimilitud es 0,164 es decir mayor que 0.05 por lo
que también se acepta la hipótesis nula.

En el caso de que ambos estadísticos sean contradictorios, se debe optar por el más conservador,
es decir el que presente el menor valor p.

Vicente Waldo Aguirre Tarquino 158


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Ejemplo 7

Analizar si el efecto del tratamiento dermatológico (A, B, C) para el acné (TRATAMIENTO) depende
del tipo de presentación (PRESENTA).

Después de la aplicación del tratamiento en sus diferentes presentaciones a grupos iguales, se


valora los resultados favorables.

Analizar / Estadísticos Descriptivos / Tablas de Contingencia

Vicente Waldo Aguirre Tarquino 159


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Además se debe marcar en Estadisticos Chi cuadrado:

Tratamiento dermatológico * Presentación del tratamiento Crosstabulation

Presentación del tratamiento

Crema Comprimido Polvo Líquido Total

Tratamiento dermatológico A Count 17 4 19 25 65

Expected Count 15,7 16,1 15,4 17,8 65,0

Residual 1,3 -12,1 3,6 7,2

Std. Residual ,3 -3,0 ,9 1,7

B Count 6 22 20 15 63

Expected Count 15,3 15,6 14,9 17,2 63,0

Residual -9,3 6,4 5,1 -2,2

Std. Residual -2,4 1,6 1,3 -,5

C Count 23 21 6 12 62

Expected Count 15,0 15,3 14,7 17,0 62,0

Residual 8,0 5,7 -8,7 -5,0

Std. Residual 2,1 1,4 -2,3 -1,2


Total Count 46 47 45 52 190

Expected Count 46,0 47,0 45,0 52,0 190,0

Vicente Waldo Aguirre Tarquino 160


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Chi-Square Tests

Asymp. Sig. (2-


Value Df sided)

Pearson Chi-Square 36,151a 6 ,000


Likelihood Ratio 41,793 6 ,000
Linear-by-Linear Association 11,518 1 ,001
N of Valid Cases 190

a. 0 cells (,0%) have expected count less than 5. The minimum expected
count is 14,68.

Como el valor p, Sig. Asintótica bilateral es 0.000 es menor que 0.05 se rechaza la hipótesis nula,
no se puede aceptar que la probabilidad de obtener un resultado favorable con un tratamiento es
independiente de cual sea la presentación.

La razón de verosimilitud de Ji Cuadrado (Likelihood Ratio), es una alternativa al estadístico de la


chi cuadrado de pearson, para contrastar la hipótesis de independencia entre variables, mientras
que el estadístico de Chi cuadrado de Pearson se basa en las diferencias entre las frecuencias
observadas y esperadas, la razón de verosimilitud se basa en el cociente entre ellas.

En nuestro ejemplo el cociente de la razón de verosimilitud es 0.000 es decir menor que 0.05 por
lo que también se rechazara la hipótesis nula.

En el caso de que ambos estadísticos sean contradictorios, se debe optar por el más conservador,
es decir el que presente el menor valor p.

Vicente Waldo Aguirre Tarquino 161


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

TEMA:

EL COEFICIENTE DE CORRELACION DE PEARSON Y SPEARMAN

El Coeficiente de correlación de Pearson y Spearman, tiene una frecuente utilización en tablas de


contingencia y en estudios ecológicos, buscan establecer el grado de relación lineal entre dos
variables cuantitativas, para el caso de Spearman que sean continuas y tengan una distribución
normal, para el caso de Spearman que sean continuas o categóricas pero ordinales.

Medida de Escala de
Observaciones
Asociación medida
Correlación intervalo  Son medidas del grado de asociación lineal entre
de Pearson (continuo con las dos variables.
distribución  Los coeficientes de correlación de Pearson y de
normal) Spearman toman valores comprendidos entre -1
y 1, que indican máximo grado de asociación
lineal negativa y positiva, respectivamente.
Correlación intervalo (u  La correlación de Sperman es la correlación de
de Spearman ordinal) Pearson entre los rangos asignados a los valores
ordenados.
 La medida de asociación lineal de Mantel-
Haenszel se define como el cuadrado del
coeficiente de correlación de Pearson
multiplicado por (N-1), siendo N el tamaño
muestral.
Fuente: En base a Magdalena Ferran

Prueba de Hipótesis

Ho: rxy = 0

H1: rxy 0

En caso del coeficiente de correlacion de Spearman se usa el símbolo:

Ho: rsxy = 0

H1: rsxy 0

Lo cual se interpreta como:

Ho: No existe relación entre la variable X y Y

H1: Existe relación entre la variable X y Y

Vicente Waldo Aguirre Tarquino 162


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Covarianza

Una medida alternativa para analizar si existe asociación es la covarianza la cual se constituye
también en un insumo para el cálculo del coeficiente de correlación y posteriormente para las
regresiones.

covarianza es un valor que indica el grado de variación conjunta de dos variables aleatorias
respecto a sus medias. Es el dato básico para determinar si existe una dependencia entre ambas
variables y además es el dato necesario para estimar otros parámetros básicos, como el
coeficiente de correlación lineal o la recta de regresión.

Cuando los valores altos de una de las variables suelen mayoritariamente corresponderse con los
valores altos de la otra, y lo mismo se verifica para los pequeños valores de una con los de la otra,
se corrobora que tienden a mostrar similar comportamiento lo que se refleja en un valor positivo
de la covarianza1
Por el contrario, cuando a los mayores valores de una variable suelen corresponder en general los
menores de la otra, expresando un comportamiento opuesto, la covarianza es negativa.

 Xi  X Yi  Y 
n

S xy  i 1

 Xi  X Yi  Y 
n

Sxy  i 1

n
n

x y i i
Sxy  i 1
 X ·Y
n

Interpretación:

Sxy positivo: covarianza positiva

Sxy negativo: covarianza negativa

Sxy cero: ausencia de covariación

Propiedades

1. El índice es capaz de discriminar entre los tres tipos de relación lineal

2. Problemas en la interpretación:
Vicente Waldo Aguirre Tarquino 163
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

a) Depende de las unidades de medida de las variables (no permite comparar)

b) Es un valor no acotado (carece de máximos y mínimos estables) con lo cual no tenemos


información sobre su cuantía y es difícil su interpretación

Solución: Coeficiente de correlación de Pearson (Rxy)

Coeficiente de Correlacion de Pearson

n XiYi   Xi  Yi 
rxy 
n Xi 2   Xi  n Yi 2   Yi 
2 2

rxy 
x yi

n·Sx·Sy
Sxy
rxy 
Sx·Sy

El coeficiente varía entre -1 y 1, cuando es negativo la relación es inversa y cuando es positivo la


relación es directa, cuando se acerca a 0 no hay relación entre variables.

DIRECTAS.- Cuando una variable sube, también sube la otra variable. Ejemplo: La
relación entre el grado de educación X y el estado de Salud den General Y.

X - Y

INVERSAS.- Cuando una variable sube, la otra baja, o viceversa. Ejemplo:


Cuando se reduce la pobreza X, se mejora el estado de salud Y.

X - Y

Vicente Waldo Aguirre Tarquino 164


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Cuando el coeficiente de correlación se eleva al cuadrado se obtiene el coeficiente de


determinación, el cual mide la asociación entre variables, el mismo va desde 0 hasta 1, en 0
mantiene la interpretación, referida a que no existe relación entre variables y con 1 la relación es
perfecta.

Coeficiente de Correlacion de Spearman

Es aplicado en variables cuantitativas discretas, ordinales, es recomendable usar el coeficiente


de correlación de Sparman, el cual tiene la misma interpretación que el coeficiente de
correlacion de Pearson

6 d 2
rs xy  1 
n(n  1)(n  1)

Donde d, corresponde a la diferencia de rangos.

x y Rangos x Rangos y Diferencia de


(orden de (orden de Rangos
menor a menor a d2
mayor) mayor) (d)
Ej.
2 1 1 1
1 2 -1 1
3 3 0
4 5 -1
5 4 1
… … ..
n n 0
Suma d2

 En la interpretación de Rxy hay que separar dos aspectos distintos: su cuantía y su


sentido. La cuantía se refiere al grado en que la relación entre dos variables queda bien

Vicente Waldo Aguirre Tarquino 165


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

definida con un índice de asociación lineal como R. Mientras que el sentido se refiere al
tipo de relación lineal: positiva (directa), negativa (inversa) o nula (no hay relación).

Una relación de tipo lineal entre las variables no implica relación de tipo causal (X no tiene por
qué causar a Y, aunque estén relacionadas linealmente).

Ejemplo: Ver Villa Romero Et Al. Pg.307

Procedimiento

En el SPSS

Analizar / Estadisticos Descriptivos / Tablas de contingencia

Si p es menor que 0.05 se rechaza Ho.

De la misma manea se puede obtener en SPSS las correlaciones en

Analizar / Correlaciones / Bivariadas

Tickear Pearson y/o Spearman

Vicente Waldo Aguirre Tarquino 166


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Vicente Waldo Aguirre Tarquino 167


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

TEMA:

OTRAS MEDIDAS DE ASOCIACION PARA TABLAS DE CONTINGENCIA

Medida de Escala de
Tabla Observaciones
asociación medida
Phi Coeficiente 2x2rxc nominales  Son medidas basadas en el estadístico Ji- cuadrado.
de nominales  Toman valores comprendidos entre 0 y 1, que
contingencia indican mínimo y máximo grado de asociación,
respectivamente.
V de Cramer Rxc nominales  Phi presenta el inconveniente de que puede
alcanzar valores superiores a 1 en tablas r x c; el
coeficiente de contingencia depende de una cota
superior y la V de Cramer tiende a subestimar la
asociación. Además, pueden tomar el mismo valor
en muestras con tamaños muy diferentes.
 Son útiles para comparar grados de asociación
entre pares de variables observadas sobre un
mismo conjunto de individuos.

Riesgo Relativo 2x2 nominales  Toma valores positivos. Si las variables son
independientes su valor será próximo a 1.
 Compara los dos grupos establecidos por los
valores de una de las variables en términos de la
frecuencia con que presentan cada uno de los
valores de la otra.
 Admite la posibilidad de distinguir entre grupo de
control y experimental.

Medidas de asociación para tablas de contingencia (continuación)


Vicente Waldo Aguirre Tarquino 168
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Medida de Escala de
Tabla Observaciones
asociación medida
Lambda Rxc nominales  Toman valores comprendidos
entre 0 y 1, que indican
mínimo y máximo grado de
asociación, respectivamente.
Coeficiente Rxc nominales  Disponen de versión
de asimétrica.
incertidumbre  Lambda es fácil de interpretar
en términos de la proporción
en que se reduce el error en la
predicción del valor de una
variable a partir de los valores
de la otra, sin embargo, puede
tomar el mínimo valor en
tablas con asociación.
 El coeficiente de
incertidumbre únicamente
toma el valor cero en tablas
con no asociación; sin
embargo, su valor es mas
difícil de interpretar que el de
Lambda.

Vicente Waldo Aguirre Tarquino 169


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Kappa Rxr ordinales  Los posibles valores de las dos


variables son los mismos.
 Toma valores comprendidos entre -1
y 1, que indican, respectivamente,
mínimo y máximo grado de acuerdo
entre los valores de las dos variables.
Gamma Rxc ordinales  Toman valores comprendidos entre -
1 y 1, que indican máximo grado de
asociación negativa y positiva,
respectivamente.
Tau b de Rxc ordinales  Gamma es fácil de interpretar, pero
Kendall puede alcanzar valores extremos en
tablas en las que la asociación no es
total.
Tau c de Rxc ordinales
 Tau b únicamente alcanza valores
Kendall extremos en tablas con asociación
total sin embargo, si r es distinto de c
no puede alcanzarlo.
D de Somers Rxc ordinales  Tau c puede alcanzar valores
extremos aun en el caso de que r sea
distinto de c sin embargo, tiende a
subestimar la asociación.

 D dispone de versión asimétrica; sin


embargo, puede alcanzar valores
extremos en tablas en las que la
asociación no es total.

Medidas de asociación para escala de intervalo o de razón

Medida de Escala de
Observaciones
Asociación medida
Eta V.D.: intervalo  Los valores de la variable independiente
V.I.: nominal establecen grupos en la población.
 Toma valores entre 0 y 1.
 Cuanto mas próximo a 1 sea su valor mas
diferenciados estarán los grupos en términos de
las puntuaciones de la variable dependiente
(mayor será la dependencia de las puntuaciones
respecto de los grupos).

Vicente Waldo Aguirre Tarquino 170


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Correlación intervalo  Son medidas del grado de asociación lineal entre


de Pearson las dos variables.
Correlación intervalo (u  Los coeficientes de correlación de Pearson y de
de Spearman ordinal) Sperman toman valores comprendidos entre -1 y
1, que indican máximo grado de asociación lineal
negativa y positiva, respectivamente.
Asociación lineal intervalo  La correlación de Sperman es la correlación de
Mantel- Haensel Pearson entre los rangos asignados a los valores
ordenados.
 La medida de asociación lineal de Mantel-
Haenszel se define como el cuadrado del
coeficiente de correlación de Pearson
multiplicado por (N-1), siendo N el tamaño
muestral.
Fuente: Magdalena Ferran

Vicente Waldo Aguirre Tarquino 171


APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR

Vicente Waldo Aguirre Tarquino 172

También podría gustarte