Está en la página 1de 32

CURSO SPSS ESTADISTICA

ESCALA DE MEDIDA: 3

- NOMINAL. clasificar
o Las variables binarias siempre son nominales
o Solo relaciones de igualdad o desigualdad.
- ORDINAL ordenar.
o Minim 3 categorías
o Los intervales no son iguales y por eso no se puede hacer medias.
- CUANTITATIVA
o Se puede hacer operaciones aritméticas con ellas, + - mutliplicacion o división
o Pueden ser
 Discretas. Hay un numero finito entre dos valores. Se tiene 1 o 2
hijos… se fuma 1 o 2 cigarros
 Continuas. Entre valores hay un numero infinito de valores, ej
colesterol entre 204 y 192 las presentamos de manera finita
o Las presentamos redondeadas o truncadas.
o Pueden ser de intervalo o razón
 Intervalo no permiten multi ni división

ESTADISTICA DESCRIPTIVA

Histograma es para vv cuantitativas


De variables cuantit

- Varianza =media cuadrática


- Gl= n -1
- Desviación estándar o típica es la raíz cuadrada positiva de la varianza pero suele decir
poco, se usa para construir el intervalo de confianza.
- Medidas basadas en valores
o media
- Medidas basadas en ordenación. Se suelen usar las medidas basadas en ordenación: la
mediana y los cuartiles
o Mayor utilidad practica
o Mediana: la que parte los valores en dos mitades iguales: la mitad de la
muestra tiene valores mayores de la mediana.
o Medida de dispersión: una es la amplitud intercuartil entre el primero y el
tercero.

Cuadro explorar de estadisticos descriptivos

- Diagrama de caja esta basada en valores ordinales.


o Marcada la mediana en medio
o La caja esta entre los cuartiles primero y tercero, tiene la amplitud intercuartil
o Patillas: los rangos no incluyendo los valores extremos, valor alejado el que
dista 1,5 veces la ampl intercuartil de su cuartil más próximo.
o

- También da la opción de graficos con pruebas de normalidad.


- Diagrama de talla y hoja
o Es un histograma tumbado
o Es como un cuadro y una grafica a la vez

En las tablas descriptivas esta también el error típico que evalua la precisión de las medidas
dadas.

Índices de forma

- Asimetría
o
o La asimetría positiva ees mas común en el mundo sanitario
- Curtosis o apuntamiento. Lo achatada o puntiaguda que es la variable

SEGMENTAR ARCHIVO

Luego los análisis te los da en función de los segmentos realizados

ESTADISTICA INFERENCIAL

- De una muestra induce conclusiones sobre una población


- Ley normal
o El 68% de los datos están entre +- 1 vez la Desvi etandar
o El 95% están entre +-2DE . es el que se usa en la estadística inferencial.
- El IC intervalo de confianza
o Distribución muestral de medias: Si repetimos infinitas veces el experimento,
aunque solo hacemos el estudio una solo vez hacemos todas las posibles
muestras que nos saldría en la población
o el error estándar es la desviación estándar de la distribución de medias
o el IC es la confianza de manera inferencial sobre los datos poblacionales, de
manera que tomamos la media probable en un 95% de la media poblacional
en base a la media muestral
o si tomaramos la media muestral como la media poblacional, probablemente
nos equivocaríamos
o es una estadística de precisión sobre la población
- ESTIMACION DE PARAMETROS
o Ejemplo y preguntas
 Establecer si la media de glucosa en obesos es diferente de la de no
obesos
 Cogemos dos nuestras de obesos y no obesos
 Es la diferencia encontrada de 32 mg/dl es una estimación mas o
menos precisa de una diferencia existente en las poblaciones? O
 ¿Es simplemente esta diferencia debida al azar al extraer dos muestras
de poblaciones que en verdad tienen igual glucosa?
 H0 (Mob – Mno = 0)
 H1. (Mob diferente a Mno)
 No se examina directamente, solamente se acepta si se
descarta la H0.
 ¿Qué probabilidad tengo … qué distribución de probabilidad hay de
que la H0 sea cierta? La p.
 Se establece la distribución de probabilidad de H0 bajo varias
posibles leyes, de distintas distribuciones de probabilidad.
o Ley binomial
o Ley normal
o Ley de chi cuadrado
o Ley t student Fisher
o Ley de f Snedecor
 En función del valor p, es la probabilidad de obtener
resultados iguales o sup a los obtenidos en la muestra bajo el
supuesto de la H0
 P=0,02. 2% de hallar estos datos por azar en una muestra…
 Contrate de hipótesis
o Los datos no salen signifcativos p >0.05
 Nivel de confianza, 1-alfa, verdadero negativo
 Riesgo beta, tipo II, falso negativo. Por escasa
potencia, normalmente por muestra baja por
ej. Es un error menos importante, si el estudio
tiene poca potencia se ve hallando beta.
o Los datos salen significativos
 Riesgo alfa, error tipo I, falso positivo
 Potencia 1-beta, verdadero positivo
o Predeterminación del tamaño muestral
 Se hace a priori
- PRUEBAS ESTADISTICAS GRUPOS INDEPENDIENTES
o En función de la escala de medida de las VI y la VD.
 VI: puede ser binaria, politómica (3 valores) o cuantitativa
 VD: puede ser binaria, politómica (3 valores) o cuantitativa o variable
de supervivencia (variable de tiempo)
DIA 3

TABLAS CONTINGENCIA

CHI CUADRADO COMPARACION DE 2 o varias PROPORCIONES

*hipotesis si obesidad produce hipertension. a medida multipl comparaciones q hacemos,


aumenta probab equivocarnos

*tenemos que corregir por ello el riesgo alfa, la p, al hacer 3 comparaciones

*usamos correccion de bonferroni q es 1 - 0,95 ^3 = 14% ... es muy cosnervador

*la correccion de bonferroni también seria multiplicar x 3 las p, siendo la 1ªcomp p=0.006
seria p=0.18 siguiendo siendo significativa

*podemos usar la corrección por Holm que es menos conservadora,

DÍSEÑOS DE ESTUDIOS DE INVESTIGACIÓN


ESTUDIO DE COHORTES
El estudio de cohortes se caracteriza La muestra se selecciona por la vi o v d exposición, y
posteriormente se ve si desarrollan la VD o no.

Diferente a una cohorte por grupos, en el que se seleccionan chortes …¿?

Es una investigación retrospectiva, en el que la muestra se selecciona por si tiene la VD o no, si


tiene o no diabetes, y se seleccionan las muestras casos vs controles sin la enfermedad.

En ambos están los 4 grupos.

Puede haber estudios hibridos también, ej estudio de cohortes caso control.

En un ensayo clínico se incluye también un estudio de cohortes al seguirles


epidemiológicamente solo que también hay la inclusión experimento
Sujetos

- Rojo
- azul

se monitoriza a lo largo 4 años un evento que se representa por el circulo (muerte,


tratamiento, lo que sea). Los que acaban en flecha no han tenido el evento.

Con muestra de 10 sujetos, hacemos tabla de contingencia de proporciones y sacamos


medidas de frecuencia

- incidencia
o Suj rojos 4 tienen el evento, siendo 4 dde 5 sujetos los que tienen el evento la
incidencia /risk es el 0,8 80%. (en un estudio de ___ se llama prevalencia)
- Odds/razon de ventajas/posibilidades
o El numero de sujetos q no tienen el evento. Proba d desarrollar el evento si
eres rojo
o Si da una odd por debajo de uno indica que se disminuye el riesgo de
desarrollar el evento, por lo tanto el azul es un factor de protección
o En un estudio de cohortes se llama odds de incidencia
- Tasa de incidencia Hazard
o Medida fina de incidencia
o Num eventos /numero de uds de tiempo
o Nº uds de tiempo= suma de todos los tiempo que han estado expuesto.
o Num eventos/persona/año 44 eventos x persona x año.
Medidas de asociación:

- De incidencia:
o razón de riesgo relativo, riesgo rojo/azules riesgo 200% el doble. RR=2

- Razón de odds riesgo rojos/azules


o OR= 5,7
- Hazard Ratio.
o HR= 0,44/0,16=2,75 veces mayor riesgo en rojos en términos de tasa de
incidencia.

En función de diseño

- Transverasl todo es llamado prevalencia


- Chortes: todo se llama incidencia
- Caso-control, solo calculamos odds de incidencia y razón de odds de incidencia

SPSS

Riesgo relativo de obesas y obesos?

La odd ratio la hace indp d como se codifiquen las variales

Pero para hacer las medidas de riesgo relativo el código mas bajo debe ser el grupo expuesto
en SPSS. Condición aribraria contraintuita (el no diabetido numero mas alto).

El riesgo relativo da una medida de la magnitud del efecto, mientras la p solo da la


probabilidad, asi como da la potencia.

ANALIZAR TABLAS DE CONTINGENCIA_ CHI CUADRADO Y RIESGO

COMPARACION DE MEDIAS

Vemos 4 aspectos

- Normalidad. Lo hacemos a través de cuadro explorar.


o Si vamos a comparar 2 medias, ej de media de glubosa en obesos vs no
obesos, hallamos la normalidad por varios métodos
 Graficos
 Q-Q normal. Representa valores observados en ref d una
normalidad teórica.
 Pruebas kolmogorov-smirnov para grupos N>30
 Prueba shapiro wilk para N<30.
 Con que no cumpla un grupo la normalidad, se da por hecho que no se
cumple la normalidad…
 NO SIGUE NORMALIDAD. NO PODRÍAMOS HACER T STUDENT
o ANALIZAR EXPLORAR
- T student
o Prueba Levene: prueba homogeneidad varianzas: no signif=varianzas iguales.
- U MANN WITNEY prueba no paramétrica, trabaja con el numero de orden con
comparación de distribuciones, no de medias, es robusta y no requiere normalidad.
o Pero es menos informativa xq no da la dif d medias ¿

COMPARA 2 MEDIAS

1) EVALUAC NORMALIDAD
a. SI. S STUDENT
i. SI IGUALDAD VARIANZAS LEVENE
1. T STUDENT PARA VARIANZAS HOMOGENEAS
b. NO NORMAL:
i. PRUEBA U MANN-WHITNEY
ii. PRUEBA W DE WILCOXON.

Relación causal?

Relación entre glucosa y vi obesidad

- Signfiicacion estadística, grado en ue la relación puede ser debida a l azar p0.02 muy
baja t student
- Magnitud del efecto. Cuantifica la importancia practia o clínica de la relación:
diferencia de medias 32,2mg/dl. Con un IC95% 5,2-59,2mg/dl
- Relación causal… la obesidad es la causa del aumento de la glucosa?
o Esta respuesta no lo da la estadística
o Esta respuesta la da el diseño, solo podemos saber si la obesidad es causa de
glucosa si controlando todas las otras variables estas son iguales y solo la
obesidad es la diferente, por tanto con ningun estudio observacional se puede
establecer causalidad.

VD cuant VI politómica

Glucosa- ObesidadOr

COMPARACION DE 3 MEDIAS

Media de glucosa imc normal

Media glucosa en sobrepeso

Media glucosa en obesidad

Si se cumple normalidad se hace ANOVA, si no normal se hace prueba no paramétrica.


ANOVA, CONTRASTE, POLINOMICO analiza tendencias del anova… orden elegimos cuadratico
para ver si la tendencia es cuadrática… si el aumento

Comparaciones multiples post hoc en cuadro anova 1 factor

- Diferencia mínima significativa DMS compara ts sin más, no se usa porque es la mas
favorable
- Se usan en la practica le Scheffe, qu te hace todas las comparaciones multiples
- Prueba dunnet compara respecto a una categoría de referencia: que se selecciona en
la categoría control, elegimos la primera q es el imc normal
CORRELACION
Scatterplot, diagrama de puntos…

- Distribución nube de puntos nos da idea de la relación entre las vv


- Se traza la recta de regresión por minimos cuadrados, la recta que mínima …
- Si la recta es horzontal o vertical no hay relación…
Covar:

Si trazamos dos líneas q pasan por la media de glucosa y de imc divide el grafico en 4
cuadrantes. Segundo y Tercer cuadrante son positivos, …los otros negativos… es un numero
poco informativo… solo indica que a mayor sea mayor relación es… si es positivo la relación es
positiva. No se usa la covarianza, poruq depende de las variables el valor q da, se usa el coef
correlación de Pearson que es la covar estandarizada.

PEARSON ES PARAMETRICO REQUR NORMALIDAD.

SPEARMAN ES NO PARAMETRICO.

REGRESIÓN LINEAL
REGRESION LINEAL

- RR o VD siempre son cuantitativas


- La VI predictora si puede binaria o cuanti
La recta de regresión, es la que mejor se ajusta a la nube de puntos: se basa en el modelo
lineal.

Una recta se define por dos parámetros, la ecuación de una recta se define por

Y= a + b X

A=constante, ordenada en el origen, el valor de la VD cuando la es VI es 0 .

b=pendiente o coeficiente de regresión; representa la magnitud de cambio de la respuesta


por ud de cambio de la VI ej 4 por cada imc q aumente uno, la glucosa aumenta 4;

Resumen del modelo

Modelo R cuadrado Error típ. de la


R R cuadrado corregida estimación

dime
1 ,250a
,062 ,054 69,583
nsion

a. Variables predictoras: (Constante), Índice de masa corporal (kg/m2)

R= coef regresión, coef Pearson

R cuadrado= coef de determinación que % Vd es explicada por VI

Las corregidas son mas adecuadas para regre multiple

ANOVAb

Modelo Suma de Media


cuadrados gl cuadrática F Sig.

1 Regresión 35392,382 1 35392,382 7,310 ,008a

Residual 532599,296 110 4841,812

Total 567991,679 111

a. Variables predictoras: (Constante), Índice de masa corporal (kg/m2)


b. Variable dependiente: Glucosa plasmática (mg/dl)

El modelo global es significativo ç


Coeficientesa

Modelo Coeficientes Interva


Coeficientes no estandarizados tipificados

B Error típ. Beta t Sig. Límite

1 (Constante) 37,274 44,017 ,847 ,399

Índice de masa corporal 4,019 1,486 ,250 2,704 ,008


(kg/m2)

a. Variable dependiente: Glucosa plasmática (mg/dl)

La constante es 37

La pdte da la magnitud del efecto, dice cuanta diferencia hay

P=riesgo alfa= probab d encontrar esta diferencia por azar.

CON LAS VV BINARIA DE VI OBESIDAD SI O NO

Resumen del modelo

Modelo R cuadrado Error típ. de la


R R cuadrado corregida estimación

dime
1 ,220a ,048 ,040 70,098
nsion

a. Variables predictoras: (Constante), Obesidad

R cuadrado pierde sensibilidad al dicotomizar la vv, solo explica la obesidad un 4,8% de la


glucosa.

Coeficientesa

Modelo Coeficientes Intervalo de confianz


Coeficientes no estandarizados tipificados para B

B Error típ. Beta t Sig. Límite inferior Lím

1 (Constante) 142,580 8,439 16,896 ,000 125,856

Obesidad 32,211 13,619 ,220 2,365 ,020 5,221

a. Variable dependiente: Glucosa plasmática (mg/dl)

Los no obesos tienen una glucosa de 142

La pdte es lo que cambia la VD por ud de cambio de la VI que en este caso como solo hay dos
opciones de VI, este valor es la diferencia de medias entre obesos y no obesos.
REGRESION LINEAL CON V PREDICTORAS POLITOMICAS (+2categorias)

Resumen del modelo

Modelo R cuadrado Error típ. de la


R R cuadrado corregida estimación

dimen
1 ,304a ,092 ,084 68,462
sion0

a. Variables predictoras: (Constante), Nivel de masa corporal

ANOVAb

Modelo Suma de
cuadrados gl Media cuadrática F Sig.

1 Regresión 52414,131 1 52414,131 11,183 ,001a

Residual 515577,548 110 4687,069

Total 567991,679 111

a. Variables predictoras: (Constante), Nivel de masa corporal


b. Variable dependiente: Glucosa plasmática (mg/dl)
Coeficientesa

Modelo Coeficientes Intervalo


Coeficientes no estandarizados tipificados

B Error típ. Beta t Sig. Límite inf

1 (Constante) 117,329 12,977 9,042 ,000 9

Nivel de masa corporal 30,753 9,196 ,304 3,344 ,001 1

a. Variable dependiente: Glucosa plasmática (mg/dl)

Constante es la media de glucosa en IMC normal

La pdte es 30 es el cambio de la respuesta por la ud de cmbio de la exposición que tiene 3


categorías. Esto no es del todo correcto porque en el ANOVA veíamos que que la dif entre
normal y sobre peso es 47 y entre sobrepeso y obeso es 20. Esto es porque las predictoras
politómicas no se intrducen directamente, se introducen descompuestas en varias variables
binarias/indicadoras/ficticias/dummy variables. Tantas vv binarias como categorías tenga la
politómica menos 1: esto es 2 vv binarias:

- Obes 1
- Obes 2

Son ficticias porque solo tienen sentido en relación unas a otras.


Resumen del modelo

Modelo R cuadrado Error típ. de la


R R cuadrado corregida estimación

dimen
1 ,317a ,101 ,084 68,458
sion0

a. Variables predictoras: (Constante), Obes2, Obes1

ANOVAb

Modelo Suma de
cuadrados gl Media cuadrática F Sig.

1 Regresión 57170,052 2 28585,026 6,100 ,003a

Residual 510821,626 109 4686,437

Total 567991,679 111

a. Variables predictoras: (Constante), Obes2, Obes1


b. Variable dependiente: Glucosa plasmática (mg/dl)

Coeficientesa

Modelo Coeficientes Intervalo de confianz


Coeficientes no estandarizados tipificados para B

B Error típ. Beta t Sig. Límite inferior Lím

1 (Constante) 107,667 16,136 6,673 ,000 75,686

Obes1 47,235 18,768 ,330 2,517 ,013 10,037

Obes2 67,124 19,218 ,458 3,493 ,001 29,034

a. Variable dependiente: Glucosa plasmática (mg/dl)

La pdte obes1= es la dif d medias de sobrepeso respecto el IMC normal.

Entonces si que da un resultado igual que el del ANOVA.

REGRESION MULTIPLE

La regresión simple se representa con una recta, con dos predictoras en un plano.

PLANO DE REGRESION: modelo de regr multiple con 2 predictoras

Mglucosa 0 B0 + B1 IMC + B2 PAM

HIPERPLANO DE REGRESION

Mglucosa 0 B0 + B1 IMC + B2 PAM + B3sexo


Variables introducidas/eliminadasb

Modelo Variables Variables


introducidas eliminadas Método

1 Hipertensión . Introducir
dimen
arterial, Sexo,
sion0
Índice de masa
corporal (kg/m2)a

a. Todas las variables solicitadas introducidas.


b. Variable dependiente: Glucosa plasmática (mg/dl)
Resumen del modelo

Modelo R cuadrado Error típ. de la


R R cuadrado corregida estimación

dimen
1 ,289a ,084 ,058 69,421
sion0

a. Variables predictoras: (Constante), Hipertensión arterial, Sexo, Índice de


masa corporal (kg/m2)

R y r cuadrado han aumentado

ANOVAb

Modelo Suma de
cuadrados gl Media cuadrática F Sig.

1 Regresión 47510,907 3 15836,969 3,286 ,024a

Residual 520480,771 108 4819,266

Total 567991,679 111

a. Variables predictoras: (Constante), Hipertensión arterial, Sexo, Índice de masa corporal (kg/m2)
b. Variable dependiente: Glucosa plasmática (mg/dl)

Coeficientesa

Modelo Coeficientes Interva


Coeficientes no estandarizados tipificados

B Error típ. Beta t Sig. Límite

1 (Constante) 51,878 45,181 1,148 ,253

Índice de masa corporal 3,623 1,518 ,225 2,387 ,019


(kg/m2)

Sexo -17,752 13,462 -,122 -1,319 ,190

Hipertensión arterial 12,786 13,730 ,088 ,931 ,354

a. Variable dependiente: Glucosa plasmática (mg/dl)

Al estar en un modelo multiple, el valor de glucosa aumenta en funcion de IMC

- Regresión lineal VD= cuantitativa, los coeficientes B1,B2 son la magnitud de respuesta
- REGRESION LOGISTICA VD=binaria, aquí el valor importante es la exponencial del
coeficiente, es el riesgo de respuesta en términos de odd ratio
- REGRESION COX VD= v de supervivencia o tiempo¿? , aquí el valor importante es la
exponencial del coeficiente, es el riesgo de respuesta en términos de Hazard ratio
Tabla de contingencia Bebedor * Cáncer de Pulmón

Cáncer de Pulmón

Sí No Total

Bebedor Sí Recuento 37 839 876

% dentro de Bebedor 4,2% 95,8% 100,0%

No Recuento 18 822 840

% dentro de Bebedor 2,1% 97,9% 100,0%


Total Recuento 55 1661 1716

% dentro de Bebedor 3,2% 96,8% 100,0%

Pruebas de chi-cuadrado

Sig. asintótica Sig. exacta Sig. exacta


Valor gl (bilateral) (bilateral) (unilateral)

Chi-cuadrado de Pearson 5,985a 1 ,014


Corrección por continuidad b
5,333 1 ,021
Razón de verosimilitudes 6,120 1 ,013
Estadístico exacto de Fisher ,019 ,010
Asociación lineal por lineal 5,982 1 ,014
N de casos válidos 1716

a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 26,92.
b. Calculado sólo para una tabla de 2x2.
Estimación de riesgo

Intervalo de confianza al 95%

Valor Inferior Superior

Razón de las ventajas para 2,014 1,137 3,566


Bebedor (Sí / No)
Para la cohorte Cáncer de 1,971 1,131 3,434
Pulmón = Sí
Para la cohorte Cáncer de ,979 ,962 ,996
Pulmón = No
N de casos válidos 1716

Riesgo relativo de 2.

Solo podríamos establecer causalidad si mantenemso el resto de variables iguales a taves del
diseño esto es solo si aleatorizaramos la introducción o no de alcohol.

ANALISIS ESTRATIFICADO
El error aleatorio siempre esta presente. El problema es el error sistematico porque afecta a la
validez, es difícil de medir y se debería oder evitar.
Control del factor confusión fumar en la relación alcogol y cancer pulmón:

- Estratificación, en los grupos de bebedores y no beberes añado fumadores de manera


que haya tantos fumadores o no.

Control en el análisis:

- Analisis estratificado
o Divido la muestra en dos estratos; los fumadores y no fumadores, y veo la
relación entre alcohol y cancer en fumadores y no fumadores; se puede hacer
por ssegmentacion del archivo o por estableciendo capas por fumadores en la
tabla de contingencia.
o
- Índice de propensión. Propensity score.
o Se hace con regresión logística.
o Se hace muy habitualmente.
- Análisis multivariante mediante los modelos de regresión.
EL ANALISIS ESTRATIFICADO SOLO SE PUEDE HACER CON VV CATEGORICAS.
No es significativo incluyendo el vv fumador.

El criterio de considerar una variable como de confusión es que modifique mas del 10% a B.
aquí cambia de 2,01 a 0,780.

También podría gustarte