Está en la página 1de 25

VALORES PERDIDOS

Son los valores que los encuestados no contestan, por ejemplo, cuando se le pregunta su nivel de
ingreso se niegan a contestar o cuando el entrevistador no recoge una repuesta en la casilla adecuada
o cuando no está disponible cierta información.

Las consecuencias para la investigación de la existencia de los valores perdidos dependen del patrón
que sigan estos datos ausentes, cuando son y porque están perdidos, el patrón de los valores perdidos
es mas importantes que su cuantía.

Si su distribución es aleatoria en la matriz de datos no pueden causar mucho daño al análisis, sin
embargo, si responden a un patrón determinado si puede causar mucho daño al análisis.

CASO PRACTICO

Preguntas de actitud acerca del tabaco

Un investigador desea saber cuál es la actitud de los jóvenes hacia el tabaco, para ello les piden que
expresen su acuerdo o desacuerdo con un conjunto de afirmaciones, la escala de respuesta es (1 Estoy
totalmente de desacuerdo: 2 Estoy desacuerdo; 3 Ni de acuerdo ni en desacuerdo; 4 Estoy de acuerdo;
5 Estoy en total de acuerdo, además se realizan otras clasificaciones como son: Edad, género y al
hábito (si es o no fumador). En la siguiente tabla de datos se recoge un conjunto de respuestas
simuladas a este cuestionario donde la pregunta V4 deben aumentarse los impuestos sobre el tabaco
se le ha dividido en dos variables V4a asignado aleatoriamente y V4b que responden a valores
perdidos que siguen un patrón.

Los fumadores se niegan a contestar en mucha mayor medida que los NO fumadores porque pueden
pensar que la opinión dicha en la encuesta puede tener alguna influencia en la administración y puede
tener una subida de precio.
El objetivo del investigador es determinar cuál es el nivel de acuerdo con la medida de que suban los
impuestos sobre el tabaco.

CREACION DE LA BASE DE DATOS

DIAGNOSTICO DE LA ALEATORIEDAD DE LOS VALORES PERDIDOS

Se trata de averiguar cuál de las variables ha sido asignado aleatoriamente los valores perdidos o cual
de las variables corresponden a valores perdidos generados sistemáticamente o que responden a un
patrón en este caso fumadores.

Primero Método

Utilizando de media aritmética


La variable que tiene mayor media aritmética se dice que corresponde a datos perdidos generados
sistemáticamente o que corresponden a una característica o un patrón, en este caso fumadores.

En este caso la variable que tiene mayor media aritmética es la V4b=3,43, por lo tanto, se dice que los
valores perdidos correspondientes a un patrón a esta variable son valores perdidos generados
sistemáticamente, que corresponden a un patrón en este caso fumadores y esta variable, si va a influir
en mi investigación, por lo que, no debo tomarlo en cuenta en el análisis.

SEGUNDO MÉTODO

Utilizando la prueba T

Para la variable V4a


Hipótesis nula H0 : las medias aritméticas son iguales: U0=U1

Hipótesis alterna H1: las medias aritméticas no son iguales U0#U1

Regla de decisión

1. Si el valor de la significancia bilateral es mayor que el 5% = 0,05


Entonces se acepta la hipótesis nula, se rechaza la hipótesis alterna esto quiere decir que las
medias aritméticas comparadas son iguales, por lo tanto, la variable de agrupación V4a no va
a influir en mi investigación, le mantenemos en la base de datos y corresponde a valores
perdidos agrupados aleatoriamente.
2. Si el valor de la significancia bilateral es menor que 5%= 0,05
Entonces se rechaza la hipótesis nula, se acepta la hipótesis alterna esto quiere decir que las
medias aritméticas comparadas NO son iguales, por lo tanto, la variable de agrupación V4a SI
va a influir en mi investigación, NO le mantenemos en la base de datos y corresponde a valores
perdidos agrupados sistemáticamente. Corresponde a un patrón en este caso fumadores.

En nuestro caso el valor de la significancia es 0,538 que es mayor que el 5%=0,05. Entonces en
conclusión si el valor de la significancia bilateral es mayor que el 5% = 0,05
Entonces se acepta la hipótesis nula, se rechaza la hipótesis alterna esto quiere decir que las medias
aritméticas comparadas son iguales, por lo tanto, la variable de agrupación V4a no va a influir en mi
investigación, le mantenemos en la base de datos y corresponde a valores perdidos agrupados
aleatoriamente.
Para la variable V4b
En nuestro caso el valor de la significancia es 0,007 que es mayor que el 5%=0,05. Entonces en
conclusión si el valor de la significancia bilateral es menor que 5%= 0,05
Entonces se rechaza la hipótesis nula, se acepta la hipótesis alterna esto quiere decir que las medias
aritméticas comparadas NO son iguales, por lo tanto, la variable de agrupación V4a SI va a influir en
mi investigación, NO le mantenemos en la base de datos y corresponde a valores perdidos agrupados
sistemáticamente. Corresponde a un patrón en este caso fumadores.

TRATAMIENTO DE VALORES PERDIDOS


Medias por lista
Número de
casos V1 V2 V3 V5 C1 V4A
20 4,60 4,25 3,65 4,55 22,15 3,25

En donde existan valores perdidos en cada una de las variables hay que remplazarle para la variable
V1

V1= 4,60, V2= 4,25, V3= 3,65 V5=4,55 y asi sucesivamente


Los valores dados por el SPSS son la variable aritmética, la media de la distribución no cambia, la
varianza no cambia por que la media esta más próxima a sí misma que los valores perdidos que se
sustituye

Medias por par


V1 V2 V3 V5 C1 V4A
V1 4,67 4,19 3,80 4,43 22,07 2,92
V2 4,65 4,19 3,69 4,46 21,88 3,25
V3 4,67 4,19 3,80 4,43 22,07 2,92
V5 4,67 4,19 3,80 4,43 22,07 2,92
C1 4,67 4,19 3,80 4,43 22,07 2,92
V4A 4,63 4,25 3,79 4,50 22,33 2,92
C2 4,67 4,19 3,80 4,43 22,07 2,92
C3 4,67 4,19 3,80 4,43 22,07 2,92
Media de variable cuantitativa cuando está presente otra variable.

Para la variable V1 hay que remplazarle por el valor de 4,67 que es el que más se repite para la
variable V1. V2 reemplazarlo por 4,19. V3 reemplazarlo 3,80; V4a por 2,92.

Entonces esos son los métodos que se utilizan los procedimientos por listas o por parejas.

SEGUNDO: Regresión Lineal Múltiple

Para la variable V4a vamos a buscar los valores con los cuales tenemos que reemplazar los valores
perdidos
Coeficientesa
Coeficientes no Coeficientes
estandarizados estandarizados
Modelo B Desv. Error Beta t Sig.
1 (Constante) 𝛽0 =-,016 3,670 -,004 ,997
Fumar perjudica la salud =V1 𝛽1 = ,137 ,255 ,091 ,539 ,596
Alos poderes públicos solo les interesa 𝛽2 =-,372 ,234 -,304 -1,591 ,128
recaudar impuestos= V3
Deben informarse más sobre los efectos 𝛽5 =,926 ,377 ,472 2,457 ,024
del tabaco= V5
Edad= C1 𝛽6 =-,021 ,142 -,025 -,145 ,886
a. Variable dependiente: Deben aumentarse los impuestos sobre el tabaco

MODELO GENERAL PARA LA VARIABLE V4a

V4a= B0 + B1 * V1 + B3 * V3 + B5 * V5 + B6 * C1

MODELO PARTICULAR

V4a= -0,016 + 0,137 * V1 + -0,372 * V3 + 0,926 * V5 + (-0,021) * C1

Para la primera fila de la variableV4a se procede a calcular de la siguiente forma:

V4a= -0,016 + 0,137 * V1 + -0,372 * V3 + 0,926 * V5 + (-0,021) * C1

V4a= -0,016 + 0,137 * 5+ -0,372 * 4 + 0,926 * 5 + (-0,021) * 21

V4a= 3,37

Para la fila 10

V4a= -0,016 + 0,137 * V1 + -0,372 * V3 + 0,926 * V5 + (-0,021) * C1


V4a= -0,016 + 0,137 * 5+ -0,372 * 3 + 0,926 * 3 + (-0,021) * 21

V4a= 1,89

Repetir todo para los 20 datos

Datos Atípicos o Outliers

Son aquellos casos para los que una o dos o múltiples variables toman valores extremos o
anómalos que los hacen diferir del comportamiento del resto de la muestra.
Elementos muestrales lógicos podría ser un individuo de 14 años, u sujeto con un doctorado,
pero un sujeto de 14 años con un doctorado será, casi con toda seguridad un caso atípico.
Caso Práctico Retribución de altos directivos
Un investigador desea saber cuales son las causas que explican la distinta remuneración de
los altos directivos de las empresas. Dispone de una base de datos de 100 altos directos cuyas
características se sintetizan a continuación.

Regla de Decisión
1. Si los datos son menores a 80, en la línea de referencia ponemos 2,5, y los valores de
Z mayores a 2,5 son los valores atípicos.
2. Si los datos son mayores a 80, en la línea de referencia ponemos 3 o 4, y los valores
de Z mayores a 3 o 4 son valores atípicos.

1. Detención de datos atípicos univariante

Primer método: Por normalización de la variable


Para normalizar la variable se utiliza la siguiente fórmula:

Vamos a estandarizar la Variable SYS= sueltos y salarios de empresarios españoles en


miles de euros.
Encontramos la media aritmética y la desviación estándar de la variable SYS.
Estadísticos descriptivos
Desv.
N Mínimo Máximo Media Desviación
SYS 100 155 4657 1121,67 852,724
N válido (por lista) 100
Interpretación
ZSYS= 4,1459, es mayor a 3 por lo tanto es un caso atípico, y por lo tanto corresponde
a un sueldo SYS= 4657 euros
ZSYS= 3,4211, es mayor a 3 por lo tanto es un caso atípico, y por lo tanto corresponde
a un sueldo SYS= 4039 euros
ZSYS= 39969, es mayor a 3 por lo tanto es un caso atípico, y por lo tanto corresponde
a un sueldo SYS= 4530 euros

2. Segundo Método: Utilizando el SPSS


Dos clics izquierdos en el gráfico
Los valores que se encuentra arriba por encima de la raya horizontal constituyen los
valores atípicos en nuestro caso de la variable sueldos y salarios (SYS).
Interpretación
ZSYS= 4,146, es mayor a 3 por lo tanto es un caso atípico, y por lo tanto corresponde
a un sueldo SYS= 4657 euros
ZSYS= 3,421, es mayor a 3 por lo tanto es un caso atípico, y por lo tanto corresponde
a un sueldo SYS= 4039 euros
ZSYS= 3997, es mayor a 3 por lo tanto es un caso atípico, y por lo tanto corresponde a
un sueldo SYS= 4530 euros
Actuación en clase N°1
Encuentre los valores áticos por los dos métodos de la variable EDAD.

Estadísticos descriptivos
Desv.
N Mínimo Máximo Media Desviación
Edad del directivo 100 37 74 56,93 6,178
N válido (por lista) 100
Interpretación
ZEDAD= -3,336, es menor a 3 por lo tanto es un caso atípico, y por lo tanto
corresponde a un edad EDADSYS= 37

SEGUNDO MÉTODO
Interpretación
ZSYS= -3,226, es menor a 3 por lo tanto es un caso atípico, y por lo tanto corresponde
a un sueldo EDADSYS= 37

También podría gustarte