Documentos de Académico
Documentos de Profesional
Documentos de Cultura
FACULTAD DE BIOLOGIA
TRANSFORMACIONES DE DATOS
1
TRANSFORMACIONES DE LOS DATOS
En ocasiones es necesario aplicar transformaciones a los
datos.
Para expresarlos en unidades comparables de pulgadas a
cms. Grados centigrados en Farenheit, etc.
Paraestabilizar la variación de los datos (problema de
sobredispersión)
Paraobtener una distribución normal en datos
asimétricos, etc.)
Para obtener relaciones lineales
¿Cómo afectan estas transformaciones al análisis de
los dato?.
TIPOS DE TRANSFORMACIONES
•- Estandarización o tipificación de los datos:
Consiste en transformar un conjunto de datos con media y
varianza 2 en un conjunto de datos con media cero y varianza 1.
Y
z
La transformación inversa sería:
Y Z
Este tipo de transformaciones modifica la media y la varianza
TRANSFORMACIÓN NO LINEALES
En algunas ocasiones es necesario utilizar transformaciones de
los datos (es decir, la aplicación de una función matemática)
para reducir la influencia de los valores extremos en los análisis.
Las transformaciones usadas con mayor frecuencia son el
logaritmo (log(x) y la raíz cuadrada.
Una importante aplicación de la transformación logaritmo es que
permite normalizar un conjunto de datos que presenta una
distribución muy asimétrica hacia la derecha y permite
estabilizar la varianza cuando existe sobre dispersión en el
conjunto de datos.
La raíz cuadrada es una transformación que se usa cuando se
tiene datos de conteos que presentan sesgo hacia la derecha (con
la finalidad de normalizar).
Distribución de los pesos de
una muestra de individuos
Distribución de los
logaritmos de los
pesos de la misma
muestra de individuos
5
ANÁLISIS DE LA RELACIÓN
ENTRE DOS O MÁS
VARIABLES
El objetivo de la investigación puede ser determinar (evaluar,
establecer, explorar, etc.) la relación entre dos o más variables:
• Asociación (o independencia)
X Y
• Causalidad (influencia, efecto))
X Y
Esto conduce a definir las variables como :
•Variables independientes o explicativas
•Variables dependientes o respuestas.
•Variables concomitantes, intervinientes, confusoras, marcadores de
riesgo
Cuando el objetivo de la investigación es establecer, explorar,
describir, confirmar la posible relación entre dos o más
variables se utilizan tablas, gráficos, indicadores, modelos
estadísticos bivariados (dos variables) o multivariadas (más de
2 variables). que permiten explorar y describir las relaciones.
Métodos de análisis de datos de dos o mas variables:
Mediante indicadores de asociación
Con modelos de regresión (Modelos lineales, Modelos
lineales generalizados, modelos no lineales, etc.).
Técnicas de análisis multivariado.
ESTUDIO DE LA ASOCIACIÓN ENTRE
DOS VARIABLES
Cuando se tiene dos variables y se desea indagar sobre la
posible asociación correlación es importante observar la
escala de medición de ambas variables.
7,00
r=+0.803
Conteo de globulos rojos
6,50
6,00
El signo es positivo
indicando que la relación
5,50
es directa.
El valor (r=0.803) indica
5,00
4,50
una correlación elevada.
0 5000 10000 15000 20000
100,00
de pearson para evaluar el
grado y dirección de la
50,00
asociación.
En este caso es mejor
utilizar un análisis de
regresión.
0,00
6*
rs 1
i 1
di
di : diferencia entre los rangos de
X e Y.
n(n 1)
2
n : número de observaciones
Mediciones de glóbulos rojos (eritrocitos) y altitud (en pies)
para 17 especies de mamíferos
7,50
7,00
6,50
e ritro c ito s
6,00
5,50
5,00
4,50
18
Los datos corresponden a las mediciones de glóbulos rojos
(eritrocitos) y altitud (en pies) para 17 especies de mamíferos
rango_al n
1
Altitude
0
eritrocitos
4,93
t
17
rango_eritr
15
d2
4 i 1
d i2 163,5
2 1840 4,75 16 16 0
3 2200 5,4 14,5 13 2,25
4 2200 4,65 14,5 17 6,25
6 * 163,5
5 5000 5,42 13 12 1 rs 1
17 * (17 1
2
6 5200 6,55 12 5 49
7 5750 5,99 11 8 9
8 7400 5,39 10 14 16
9 8650 5,44 9 11 4 r 1 0,2004
s
10 10740 5,82 8 9 1
0.7996
11 12000 7,5 7 1 36
12 12200 5,67 6 10 16
13 12300 6,31 5 7 4 Correlación
14 14200 7,05 4 3 1
15 14800 6,46 3 6 9
directa y
16 14900 6,66 2 4 4 elevada
17 17500 7,37 1 2 1
19
Ejemplo. Prueba de Rango de Spearman con empates. Los datos
siguientes representan la longitud de ala (Xi) y de cola (Yi) de 12
aves.
Xi Rango Xi Yi Rango Yi di di2
10,4 4,0 7,4 5,0 -1,0 1,00
10,8 8,5 7,6 7,0 1,5 2,25
11,1 10,0 7,9 11,0 1,0 1,00
10,2 1,5 7,2 2,5 1,0 1,00
10,3 3,0 7,4 5,0 2,0 4,00
10,2 1,5 7,1 1,0 0,5 0,25
10,7 7,0 7,4 5,0 2,0 4,00
10,5 5,0 7,2 2,5 2,5 6,25
10,8 8,5 7,8 9,5 1,0 1,00
11,2 11,0 7,7 8,0 3,0 9,00
10,6 6,0 7,8 9,5 3,5 12,25
10,4 12,0 8,3 12,0 0,0 0,00
12
6 * 42
d
i 1
2
i
42 r 1
s
12 * (12 1
2
0,853
20
ANÁLISIS DE FIABILIDAD DE ESCALAS
Evaluador 1 Evaluador 2
Item 1 Item 1
Item 2 Item 2
Item i Item i
Item k Item k
Momento 1 Momento 2
Item 1 Item 1
Item 2 Item 2
Item i Item i
Item k Item k
26.4 12.4
Porcentaje de concordancia esperado sólo por azar= * 100 51.7%
75
90.7 51.7 Se observa una elevada coherencia entre
Kappa 0.807
100 51.7 los diagnósticos de los dos patólogos
INDICADORES DE
ASOCIACIÓN PARA
VARIABLES CATEGÓRICAS
28
COEFICIENTES DE ASOCIACIÓN ENTRE DOS
VARIABLES CATEGÓRICAS
80,0%
60,0%
Porcentaje
40,0%
20,0%
0,0%
Menos de 19 19 a más
Edad
Enfermedad
Exposición + - Total
+ a b a+b=n1
- c d c+d=n2
a a
Riesgo entre exp uestos
a b n1
c c
Riesgo entre no exp uestos
c d n2
RIESGO RELATIVO
Es 3.64 veces más probable que una persona que vive en Lima desarrolle
fibrosis pulmonar (mayor exposición a la polución del aire) comparado con
uno que vive en Cajamarca
RAZON DE VENTAJAS
(Odds Ratio)
Es una medida relativas de efecto .
Utilizada para estimar el riesgo relativo en los casos en que no
es posible calcular el riesgo. Específicamente, en los estudios
transversales y de casos y controles.
Ha sido traducida al castellano con múltiples nombres como:
razón de chances, razón de productos cruzados, razón de
disparidad, razón de predominio, proporción de desigualdades,
razón de oposiciones, oposición de probabilidades contrarias,
cociente de probabilidades relativas, oportunidad relativa, pero la
denominación más común es “Odds ratio” u OR”
ODDS RATIO
Factor de Casos Controles
Exposición
+ a b
- c d
Total a+c=n1 b+d=n2
a
Odds entre los exp uestos
b
c
Odds entre los no exp uestos
d
OR RR
ANALISIS ESTRATIFICADO
VARIABLES INTERVINIENTES O
CONFUSORAS
En algunas ocasiones puede interesar comparar dos grupos pero
la relación entre ellas puede estar afectada por el efecto de
variables que denominamos intervinientes o confusoras.
Por ejemplo, el interés puede ser estimar la divergencia
genética entre individuos de diferentes localidades (estudios
empíricos en la genética de poblaciones).
Estas variables intervinientes pueden constituir una fuente de
variabilidad importante que es necesario controlar, mediante un
análisis estratificado.
CONFUSIÓN
Ejemplos :
Fumador Activo
Cáncer de pulmón
(exposición)
(Daño)
Fumador activo
(V. interviniente)
CONTROL DE VARIABLES
INTERVINIENTES
k
ai di
i 1 ni
ORG k
bi ci
i 1 ni
Calculamos el OR para fumadores pasivos y cáncer controlando el
efecto de ser fumador activo
ORG
120 x155 / 466 161x124 / 532 77.44
1.63
80 x111/ 466 130 x117 / 532 47.65
H : OR 1
0
H : OR OR ... OR
0 1 2 k
Sig. asintótica
Chi-cuadrado gl (bilateral)
Breslow-Day 3,274 1 ,070
De Tarone 3,274 1 ,070
OR AJUSTADO
Ejemplo
El OR ajustado , es decir, que relaciona el ser fumador pasivo con
el cáncer de pulmón, controlando el efecto de fumar y su intervalo
de confianza se muestran en el reporte del SPSS