Está en la página 1de 53

i

IBM SPSS Bootstrapping 20

Nota: Antes de utilizar esta informacin y el producto que admite, lea la informacin general en Avisos el p. 41. Esta edicin se aplica a IBM SPSS Statistics 20 y a todas las versiones y modificaciones posteriores hasta que se indique lo contrario en nuevas ediciones. Capturas de pantalla de productos de Adobe reimpresas con permiso de Adobe Systems Incorporated. Capturas de pantalla de productos de Microsoft reimpresas con permiso de Microsoft Corporation. Materiales bajo licencia: Propiedad de IBM
Copyright IBM Corporation 1989, 2011.

Derechos restringidos para los usuarios del gobierno de Estados Unidos: Uso, duplicacin o revelacin restringidos por GSA ADP Schedule Contract con IBM Corp.

Prefacio
IBM SPSS Statistics es un sistema global para el anlisis de datos. El mdulo adicional opcional Bootstrapping proporciona las tcnicas de anlisis adicionales que se describen en este manual. El mdulo adicional Bootstrapping se debe utilizar con el sistema bsico de SPSS Statistics y est completamente integrado en dicho sistema.

Acerca de IBM Business Analytics


IBM Business Analytics proporciona informacin completa, coherente y precisa en la que confan para mejorar el rendimiento de su negocio quienes toman las decisiones. Un conjunto de documentos que incluye inteligencia comercial, anlisis predictivo, rendimiento financiero y gestin de estrategias y aplicaciones analticas proporciona ideas claras e inmediatas del rendimiento actual y la habilidad para predecir resultados futuros. Combinado con numerosas soluciones para empresas, prcticas de eficacia demostrada y servicios profesionales, las organizaciones de cualquier tamao pueden conseguir la ms alta productividad, automatizar decisiones con seguridad y obtener mejores resultados. Como parte de estos documentos, IBM SPSS Predictive Analytics ayuda a las organizaciones a predecir situaciones futuras y a actuar de forma proactiva con esa informacin para mejorar sus resultados. Clientes comerciales, gubernamentales y acadmicos de todo el mundo confan en la tecnologa IBM SPSS como mejora competitiva para atraer, conservar y aumentar la clientela reduciendo el fraude y los riesgos. Al incorporar IBM SPSS a sus operaciones diarias, las organizaciones se convierten en empresas predictivas capaces de dirigir y automatizar decisiones para conseguir los objetivos de la empresa y lograr una mejora competitiva y ostensible. Para obtener ms informacin o contactar con un representante, visite http://www.ibm.com/spss.

Asistencia tcnica
El servicio de asistencia tcnica est a disposicin de todos los clientes de mantenimiento. Los clientes podrn ponerse en contacto con este servicio de asistencia tcnica si desean recibir ayuda sobre la utilizacin de los productos de IBM Corp. o sobre la instalacin en alguno de los entornos de hardware admitidos. Para contactar con el servicio de asistencia tcnica, visite el sitio Web de IBM Corp. en http://www.ibm.com/support. Tenga a mano su identificacin, la de su organizacin y su contrato de asistencia cuando solicite ayuda.

Asistencia tcnica para estudiantes:


Si usted es un estudiante que utiliza una versin acadmica o para estudiantes de cualquier producto de software IBM SPSS, consulte nuestras pginas especiales en lnea de Soluciones educativas (http://www.ibm.com/spss/rd/students/) para estudiantes. Si usted es estudiante y utiliza una copia proporcionada por la universidad del software IBM SPSS, pngase en contacto con el coordinador del producto IBM SPSS en su universidad.
Copyright IBM Corporation 1989, 2011. iii

Servicio de atencin al cliente


Si tiene preguntas referentes a su envo o cuenta, pngase en contacto con su oficina local. Recuerde tener preparado su nmero de serie para identificarse.

Cursos de preparacin
IBM Corp. ofrece cursos de preparacin, tanto pblicos como in situ. Todos los cursos incluyen talleres prcticos. Los cursos tendrn lugar peridicamente en las principales ciudades. Si desea ms informacin sobre estos seminarios, visite http://www.ibm.com/software/analytics/spss/training.

Publicaciones adicionales
Los documentos SPSS Statistics: Guide to Data Analysis, SPSS Statistics: Statistical Procedures Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Noruis y publicados por Prentice Hall, estn disponibles y se recomiendan como material adicional. Estas publicaciones cubren los procedimientos estadsticos del mdulo SPSS Statistics Base, el mdulo Advanced Statistics y el mdulo Regression. Tanto si da sus primeros pasos en el anlisis de datos como si ya est preparado para las aplicaciones ms avanzadas, estos libros le ayudarn a aprovechar al mximo las funciones ofrecidas por IBM SPSS Statistics. Si desea informacin adicional sobre el contenido de la publicacin o muestras de captulos, consulte el sitio web de la autora: http://www.norusis.com

iv

Contenido
Parte I: Manual del usuario 1 2 Introduccin al muestreo autodocimante Muestreo autodocimante 1 3

Procedimientos que admiten el muestreo autodocimante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Funciones adicionales del comando BOOTSTRAP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

Parte II: Ejemplos 3 Muestreo autodocimante 10


10 11 14 15 16 16

Uso de muestreo autodocimante para obtener intervalos de confianza para proporciones . . . . . . 10 Preparacin de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejecucin del anlisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Especificaciones de Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estadsticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabla de frecuencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Uso de muestreo autodocimante para obtener intervalos de confianza de medianas . . . . . . . . . .

Ejecucin del anlisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Descriptivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Uso de muestreo autodocimante para seleccionar mejores predictores . . . . . . . . . . . . . . . . . . . . 20 Preparacin de datos . . . . . . . . . Ejecucin del anlisis . . . . . . . . . Estimaciones de los parmetros . Lecturas recomendadas . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 20 21 29 30

Apndices A Archivos muestrales B Avisos Bibliografa ndice 31 41 44 45

vi

Parte I: Manual del usuario

Captulo

Introduccin al muestreo autodocimante

Cuando recopila datos suele estar interesado en las propiedades de la poblacin de la que ha tomado la muestra. Hace inferencias acerca de los parmetros de la poblacin con estimaciones calculadas de la muestra. Por ejemplo, si el conjunto de datos Employee data.sav que se incluye con el producto es una muestra aleatoria de una poblacin mayor de empleados, la media de la muestra de 34.419,57 dlares como Salario actual es una estimacin de la media del salario actual de la poblacin de los empleados. Adems, esta estimacin tiene un error tpico de 784,311 dlares para una muestra de un tamao de 474; y un intervalo de confianza del 95% para la media del salario actual de la poblacin de los empleados es de 32.878,40 dlares a 35.960,73 dlares. Pero, cul es el nivel de fiabilidad de estos estimadores? Para algunas poblaciones conocidas y parmetros de buen comportamiento, sabemos algo acerca de las propiedades de las estimaciones de la muestra y podemos confiar en estos resultados. El muestreo autodocimante busca ms informacin acerca de las propiedades de los estimadores de poblaciones desconocidas y parmetros de mal comportamiento.
Figura 1-1 Realizacin de inferencias paramtricas acerca de la media de la poblacin

Funcionamiento del muestreo autodocimante

En su forma ms simple, para un conjunto de datos con un tamao de muestra de N, tomar B muestras autodocimantes de un tamao N sustituyendo del conjunto de datos original y calcular el estimador de cada uno de estas B muestras autodocimantes. Estas B estimaciones de muestras autodocimantes son una muestra de un tamao B de la que podr realizar inferencias acerca del estimador. Por ejemplo, si toma 1.000 muestras autodocimantes del conjunto de datos Employee data.sav , el error tpico de muestras autodocimantes estimado de 776,91 dlares para la media de la muestra de Salario actual es una alternativa a la estimacin de 784,311 dlares. Adems, el muestreo autodocimante proporciona un error estndar y un intervalo de confianza para la mediana, cuyas estimaciones paramtricas no estn disponibles.

Copyright IBM Corporation 1989, 2011.

2 Captulo 1 Figura 1-2 Realizacin de inferencias autodocimantes acerca de la media de muestra

Compatibilidad del muestreo autodocimante en el producto

El muestreo autodocimante se incorpora como un cuadro de dilogo subordinado en procedimientos que admiten el muestreo autodocimante. Consulte Procedimientos que admiten el muestreo autodocimante si desea obtener informacin acerca de los procedimientos que admiten el muestreo autodocimante. Si se requiere muestreo autodocimante en los cuadros de dilogo, se pega un nuevo comando
BOOTSTRAP independiente, adems de la sintaxis normal que genera el cuadro de dilogo. El comando BOOTSTRAP crea las muestras autodocimantes en funcin de sus especificaciones.

Internamente, el producto trata estas muestras autodocimantes como segmentaciones, incluso si no se muestran de forma explcita en el Editor de datos. Significa que, de forma interna, son efectivamente B*N casos, de forma que el recuento de casos en la barra de estado contar desde 1 a B*N cuando se procesen los datos durante el muestreo autodocimante. El Sistema de gestin de resultados (OMS) se utiliza para recopilar los resultados de la ejecucin del anlisis en cada segmentacin autodocimante. Estos resultados se combinan y los resultados autodocimantes combinados se muestran en el Visor con el resto del resultado normal que genera el procedimiento. En algunos casos, podr ver una referencia a segmentacin autodocimante 0; es el conjunto de datos original.

Captulo

Muestreo autodocimante

Bootstrapping es un mtodo para derivar estimaciones robustas de errores tpicos e intervalos de confianza para estimaciones como la media, mediana, proporcin, razn de las ventajas, coeficientes de correlacin o coeficientes de regresin. Tambin se puede utilizar para crear pruebas hipotticas. Bootstrapping es ms til como alternativa a estimaciones paramtricas en caso de que los supuestos de esos mtodos sean dudosos (como en el caso de modelos de regresin con residuos heteroscedstico se ajusten a muestras pequeas), o si la inferencia paramtrica no es posible o requiere frmulas muy complicadas para el clculo de errores tpicos (como en el caso de clculo de intervalos de confianza de mediana, cuartiles y otros percentiles).
Ejemplos. Una empresa de telecomunicaciones pierde alrededor del 27% de sus clientes por

abandono cada mes. Para reducir el porcentaje de abandono, los directivos quieren saber si este porcentaje vara en diferentes grupos de clientes predefinidos. Mediante el muestreo autodocimante, puede determinar si un porcentaje concreto de abandonos describe de forma adecuada los cuatro tipos principales de clientes. Si desea obtener ms informacin, consulte el tema Uso de muestreo autodocimante para obtener intervalos de confianza para proporciones en el captulo 3 en IBM SPSS Bootstrapping 20. En una revisin de los registros de empleados, los directivos estn interesados en las experiencias anteriores de los empleados. La experiencia laboral es asimtrica, lo que hace que la media sea una estimacin menos deseable de la experiencia laboral habitual entre los empleados que la mediana. Sin embargo, los intervalos de confianza no estn disponibles para la mediana en el producto. Si desea obtener ms informacin, consulte el tema Uso de muestreo autodocimante para obtener intervalos de confianza de medianas en el captulo 3 en IBM SPSS Bootstrapping 20. Los directivos tambin estn interesados en determinar los factores que estn asociados con los aumentos de salarios de los empleados mediante la definicin de un modelo lineal de la diferencia entre el salario inicial y el actual. Al realizar un muestreo autodocimante de un modelo lineal, puede utilizar mtodos de muestreado sucesivo especiales (muestreo autodocimante residual y wild) para obtener resultados ms precisos. Si desea obtener ms informacin, consulte el tema Uso de muestreo autodocimante para seleccionar mejores predictores en el captulo 3 en IBM SPSS Bootstrapping 20. Muchos procedimientos admiten el muestreo autodocimante y la combinacin de resultados a partir del anlisis de muestras autodocimantes. Los controles para especificar anlisis autodocimantes se integran directamente como un cuadro de dilogo subordinado comn en procedimientos que admiten el muestreo autodocimante. La configuracin del cuadro de dilogo de muestras autodocimantes permanece en los procedimientos de forma que, si ejecuta un anlisis de frecuencias con muestreo autodocimante en los cuadros de dilogo, el muestreo autodocimante se activar por defecto para otros procedimientos que lo admitan.

Copyright IBM Corporation 1989, 2011.

4 Captulo 2

Para obtener un anlisis autodocimante


E En los mens seleccione un procedimiento que admita el muestreo autodocimante y pulse en Autodocimante. Figura 2-1 Cuadro de dilogo Autodocimante

E Seleccione Ejecutar bootstrapping.

Tambin puede controlar las siguientes opciones:


Nmero de muestras. Para los intervalos de percentil y BCa producidos, se recomienda utilizar al

menos 1000 muestras autodocimantes. Especifique un nmero entero positivo.


Definir semilla para tornado de Mersenne. Si se establece una semilla es posible replicar anlisis. El uso de este control es parecido a establecer el tornado de Mersenne como generador activo y especificar un punto de inicio fijo en el cuadro de dilogo Generadores de nmeros aleatorios, con la importante diferencia de que la definicin de la semilla de este cuadro de dilogo mantendr el estado actual del generador de nmeros aleatorios y restaurar dicho estado cuando haya terminado el anlisis. Intervalos de confianza. Especifique un nivel de confianza mayor que 50 y menor que 100. Los

intervalos de percentiles slo utilizan los valores autodocimantes ordenados correspondientes a los percentiles de intervalo de confianza deseados. Por ejemplo, un intervalo de confianza de percentil del 95% utiliza los percentiles 2,5 y 97,5 de los valores autodocimantes como los lmites inferior y superior del intervalo (interpolando los valores autodocimantes si es necesario). Los

5 Muestreo autodocimante

intervalos de sesgo corregidos y acelerados (BCa) son intervalos ajustados que son ms precisos, pero necesitan ms tiempo de clculo.
Muestreo. El mtodo simple consiste en volver a muestrear los casos reemplazndolos del conjunto

de datos original. El mtodo estratificado consiste en volver a muestrear los casos sustituyendo el conjunto de datos original, en los estratos definidos por las variables de estratos de clasificacin cruzada. El muestreo autodocimante estratificado puede ser muy til si las unidades de los estratos son relativamente homogneas aunque las unidades para todos los estratos son muy diferentes.

Procedimientos que admiten el muestreo autodocimante


Los siguientes procedimientos admiten el muestreo autodocimante. Nota:

El muestreo autodocimante no funciona con conjuntos de datos de imputacin mltiple. Si hay una variable Imputation_ en el conjunto de datos, el cuadro de dilogo Autodocimante se desactiva. El muestreo autodocimante utiliza eliminacin por lista para determinar los casos; es decir, los casos con valores perdidos en cualquiera de las variables de anlisis se eliminan del anlisis, de forma que, cuando el muestreo autodocimante est en efecto, eliminacin por lista se activa incluso si el procedimiento de anlisis especifica otra forma de gestin de valores perdidos.

Opcin Estadsticas bsicas Frecuencias


La tabla Estadsticos admite estimaciones autodocimantes de media, desviacin tpica, varianza, mediana, asimetra, curtosis y percentiles. La tabla Frecuencias admite estimaciones autodocimantes de porcentaje.

Descriptivos

La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media, desviacin tpica, varianza, asimetra y curtosis.

Explorar

La tabla Descriptivos admite estimaciones autodocimantes de media, media recortada al 5%, desviacin tpica, varianza, mediana, asimetra, curtosis y amplitud intercuartil. La tabla Estimadores-M admite estimaciones autodocimantes de estimador-M de Huber, estimador biponderado de Tukey, estimador-M de Hampel y onda de Andrews. La tabla Percentiles admite estimaciones autodocimantes de percentiles.

Tablas de contingencia

La tabla Medidas direccionales admite estimaciones autodocimantes de Lambda, Goodman y Kruskal Tau, coeficiente de incertidumbre y d de Somers.

6 Captulo 2

La tabla Medidas simtricas admite estimaciones autodocimantes de Phi, V de Cramer, coeficiente de contingencia, tau-b de Kendall, tau-c de Kendall, Gamma, correlacin de Spearman y r de Pearson. La tabla Estimacin de riesgo admite estimaciones autodocimantes de la razn de las ventajas. La tabla de razn de las ventajas comn de Mantel-Haenszel admite estimaciones autodocimantes y pruebas de significacin de ln(Estimacin).

Medias

La tabla Informe admite estimaciones autodocimantes de media, mediana, mediana agrupada, desviacin tpica, varianza, curtosis, asimetra, media armnica y media geomtrica.

Prueba T para una muestra


La tabla Estadsticos admite estimaciones autodocimantes de media y desviacin tpica. La tabla Prueba admite estimaciones autodocimantes y pruebas de significacin de diferencia de medias.

Prueba T para muestras independientes


La tabla Estadsticos de grupo admite estimaciones autodocimantes de media y desviacin tpica. La tabla Prueba admite estimaciones autodocimantes y pruebas de significacin de diferencia de medias.

Prueba T para muestras relacionadas


La tabla Estadsticos admite estimaciones autodocimantes de media y desviacin tpica. La tabla Correlaciones admite estimaciones autodocimantes de correlaciones. La tabla Prueba admite estimaciones autodocimantes de media.

ANOVA de un factor

La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacin tpica. La tabla Comparaciones mltiples admite estimaciones autodocimantes de diferencia de medias. La tabla Pruebas de contraste admite estimaciones autodocimantes y pruebas de significacin de valor de contraste.

MLG Univariante

La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacin tpica. La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebas de significacin de coeficiente B. La tabla de resultados de contraste admite estimaciones autodocimantes y pruebas de significacin de diferencia. Medias marginales estimadas: La tabla Estimaciones admite estimaciones autodocimantes de media.

7 Muestreo autodocimante

Medias marginales estimadas: La tabla Comparaciones por parejas admite estimaciones autodocimantes de diferencia de medias. Pruebas post hoc: La tabla Comparaciones mltiples admite estimaciones autodocimantes de diferencia de medias.

Correlaciones bivariadas

La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacin tpica. La tabla Correlaciones admite estimaciones autodocimantes y pruebas de significacin de correlaciones.

Notas: Si se requieren correlaciones no paramtricas (tau-b de Kendall o Spearman) adems de las correlaciones de Pearson, el cuadro de dilogo pega los comandos CORRELATIONS y NONPAR CORR con un comando BOOTSTRAP diferente para cada una. Se utilizarn las mismas muestras autodocimantes para calcular todas las correlaciones. Antes de la combinacin, la transformacin Fisher Z se aplica a las correlaciones. Tras la combinacin, se aplica la transformacin Z inversa.
Correlaciones parciales

La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacin tpica. La tabla Correlaciones admite estimaciones autodocimantes de correlaciones.

Regresin lineal

La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacin tpica. La tabla Correlaciones admite estimaciones autodocimantes de correlaciones. La tabla Resumen de modelo admite estimaciones autodocimantes de Durbin-Watson. La tabla Coeficientes admite estimaciones autodocimantes y pruebas de significacin de coeficiente B. La tabla Coeficientes de correlacin admite estimaciones autodocimantes de correlaciones. La tabla Estadsticos residuales admite estimaciones autodocimantes de media y desviacin tpica.

Regresin ordinal

La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebas de significacin de coeficiente B.

Anlisis discriminante

La tabla Coeficientes de funciones discriminantes cannicas tipificados admite estimaciones autodocimantes de coeficientes tipificados.

8 Captulo 2

La tabla Coeficientes de funciones discriminantes cannicas admite estimaciones autodocimantes de coeficientes no tipificados. La tabla Coeficientes de funcin de clasificacin admite estimaciones autodocimantes de coeficientes.

Opcin Estadsticas avanzadas MLG Multivariante

La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebas de significacin de coeficiente B.

Modelos lineales mixtos


La tabla Estimaciones de efectos fijos admite estimaciones autodocimantes y pruebas de significacin de estimacin. La tabla Estimaciones de parmetros de covarianzas admite estimaciones autodocimantes y pruebas de significacin de estimacin.

Modelos lineales generalizados

La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebas de significacin de coeficiente B.

Regresin de Cox

La tabla Variables en la ecuacin admite estimaciones autodocimantes y pruebas de significacin de coeficiente B.

Opcin Regresin Regresin logstica binaria

La tabla Variables en la ecuacin admite estimaciones autodocimantes y pruebas de significacin de coeficiente B.

Regresin logstica multinomial

La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebas de significacin de coeficiente B.

Funciones adicionales del comando BOOTSTRAP


La sintaxis de comandos tambin le permite:

Realice muestreos autodocimantes residuales y wild (subcomando SAMPLING)

Consulte la Referencia de sintaxis de comandos para obtener informacin completa de la sintaxis.

Parte II: Ejemplos

Captulo

Muestreo autodocimante

Bootstrapping es un mtodo para derivar estimaciones robustas de errores tpicos e intervalos de confianza para estimaciones como la media, mediana, proporcin, razn de las ventajas, coeficientes de correlacin o coeficientes de regresin. Tambin se puede utilizar para crear pruebas hipotticas. Bootstrapping es ms til como alternativa a estimaciones paramtricas en caso de que los supuestos de esos mtodos sean dudosos (como en el caso de modelos de regresin con residuos heteroscedstico se ajusten a muestras pequeas), o si la inferencia paramtrica no es posible o requiere frmulas muy complicadas para el clculo de errores tpicos (como en el caso de clculo de intervalos de confianza de mediana, cuartiles y otros percentiles).

Uso de muestreo autodocimante para obtener intervalos de confianza para proporciones


Una empresa de telecomunicaciones pierde alrededor del 27% de sus clientes por abandono cada mes. Para reducir el porcentaje de abandono, los directivos quieren saber si este porcentaje vara en diferentes grupos de clientes predefinidos. Esta informacin se recoge en el archivo telco.sav. Si desea obtener ms informacin, consulte el tema Archivos muestrales en el apndice A el p. 31. Utilice el muestreo autodocimante para determinar si un porcentaje concreto de abandonos describe de forma adecuada los cuatro tipos principales de clientes. Nota: Este ejemplo utiliza el procedimiento de frecuencias y requiere la opcin Statistics Base.

Preparacin de datos
En primer lugar debe dividir el archivo por Categora del cliente.
E Para dividir el archivo, elija en los mens del Editor de datos: Datos > Dividir archivo...

Copyright IBM Corporation 1989, 2011.

10

11 Muestreo autodocimante Figura 3-1 Cuadro de dilogo Dividir archivo

E Seleccione Comparar los grupos. E Seleccione Categora del cliente como la variable en la que se basan los grupos. E Pulse en Aceptar.

Ejecucin del anlisis


E Para obtener intervalos de confianza autodocimantes para proporciones, seleccione en los mens: Analizar > Estadsticos descriptivos > Frecuencias... Figura 3-2 Cuadro de dilogo principal Frecuencias

E Seleccione Abandonaron durante el ltimo mes [abandono] como una variable en el anlisis. E Pulse en Estadsticos.

12 Captulo 3 Figura 3-3 Cuadro de dilogo Estadsticos

E Seleccione Media en el grupo Tendencia central. E Pulse en Continuar. E Pulse en Autodocimante en el cuadro de dilogo Frecuencias.

13 Muestreo autodocimante Figura 3-4 Cuadro de dilogo Autodocimante

E Seleccione Ejecutar bootstrapping. E Para replicar los resultados de este ejemplo de forma exacta, seleccione Establecer semilla para Tornado de Mersenne e introduzca 9191972 como semilla. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Frecuencias.

Estas selecciones generan la siguiente sintaxis de comandos:


SORT CASES BY custcat. SPLIT FILE LAYERED BY custcat. PRESERVE. SET RNG=MT MTINDEX=9191972. SHOW RNG. BOOTSTRAP /SAMPLING METHOD=SIMPLE /VARIABLES INPUT=churn /CRITERIA CILEVEL=95 CITYPE=PERCENTILE /MISSING USERMISSING=EXCLUDE. FREQUENCIES VARIABLES=churn /STATISTICS=MEAN /ORDER=ANALYSIS. RESTORE.

NSAMPLES=1000

Los comandos SORT CASES y SPLIT FILE dividen el archivo en la variable custcat.

14 Captulo 3

Los comandos PRESERVE y RESTORE recuerdan el estado actual del generador de nmeros aleatorios y restaurar el sistema al estado posterior a la finalizacin del mtodo autodocimante. El comando SET define el generador de nmeros aleatorios a Mersenne Twister y el ndice a 9191972, para que los resultados del muestreo autodocimante se puedan replicar exactamente. El comando SHOW muestra el ndice en el resultado para futura referencia. El comando BOOTSTRAP solicita 1.000 muestras autodocimantes mediante nuevas muestras simples. La variable churn se utiliza para determinar las muestras caso a caso. Los registros con valores perdidos en esta variable se eliminan del anlisis. El procedimiento FREQUENCIES posterior a BOOTSTRAP se ejecuta en cada una de las muestras autodocimantes. El subcomando STATISTICS produce la media de la variable churn en los datos originales. Adems, las estadsticas combinadas se producen para la media y los porcentajes en la tabla de frecuencias.

Especificaciones de Bootstrap
Figura 3-5 Especificaciones de muestreo autodocimante

La tabla de especificaciones de muestreo autodocimante contiene los ajustes utilizados durante las nuevas muestras y es una referencia til para comprobar si se han completado los anlisis previstos.

15 Muestreo autodocimante

Estadsticas
Figura 3-6 Tabla de estadsticos con el intervalo de confianza autodocimante para la proporcin

La tabla de estadsticos muestra, para cada nivel de Categora del cliente, el valor de media de Abandonaron durante el ltimo mes. Como Abandonaron durante el ltimo mes slo toma los valores de 0 y 1, con 1 para un cliente que ha abandonado, la media es igual a la proporcin de los usuarios que han abandonado. La columna Estadsticos muestra los valores que suele producir Frecuencias, utilizando el conjunto de datos original. Las columnas Autodocimante se producen por los algoritmos de muestreo autodocimante.
Bias es la diferencia entre el valor promedio de este estadstico entre las muestras autodocimantes y el valor en la columna Estadstico. En este caso, el valor promedio de

Abandonaron durante el ltimo mes se calcula para las 1000 muestras autodocimantes y posteriormente se calcula el promedio estas medias.

Desv. El error es el error tpico de Abandonaron durante el ltimo mes en las 1000 muestras autodocimantes. El lmite inferior del 95% del intervalo de confianza autodocimante es una interpolacin de los valores 25 y 26 de Abandonaron durante el ltimo mes, si las 1000 muestras autodocimantes se clasifican en orden ascendente. El lmite superior es una interpolacin de los valores de las medias 975 y 976.

Los resultados de la tabla sugieren que el ndice de abandono es diferente entre tipos de clientes diferentes. En concreto, el intervalo de confianza de los clientes de Servicio plus no se superpone con ningn otro, lo que sugiere que de media es menos probable que estos clientes abandonen. Si trabaja con variables categricas con slo dos valores, estos intervalos de confianza son alternativas a los producidos por el procedimiento de Pruebas no paramtricas para una muestra o Prueba T para una muestra.

16 Captulo 3

Tabla de frecuencia
Figura 3-7 Tabla de frecuencias con el intervalo de confianza autodocimante para la proporcin

La tabla de frecuencias muestra los intervalos de confianza de los porcentajes (proporcin 100%) de cada categora y estn disponibles para todas las variables categricas. Otras caractersticas del producto no tienen intervalos de confianza comparables.

Uso de muestreo autodocimante para obtener intervalos de confianza de medianas


En una revisin de los registros de empleados, los directivos estn interesados en las experiencias anteriores de los empleados. La experiencia laboral es asimtrica, lo que hace que la media sea una estimacin menos deseable de la experiencia laboral habitual entre los empleados que la mediana. Sin embargo, sin muestreo autodocimante, los intervalos de confianza de la mediana no estn disponibles de forma general en procedimientos estadsticos del producto. Esta informacin se recoge en el archivo Employee data.sav. Si desea obtener ms informacin, consulte el tema Archivos muestrales en el apndice A el p. 31. Uso de muestreo autodocimante para obtener intervalos de confianza de la media. Nota: Este ejemplo utiliza el procedimiento Explorar y requiere la opcin Statistics Base.

Ejecucin del anlisis


E Para obtener intervalos de confianza autodocimantes de la mediana, seleccione en los mens: Analizar > Estadsticos descriptivos > Explorar...

17 Muestreo autodocimante Figura 3-8 Cuadro de dilogo principal Explorar

E Seleccione Experiencia anterior (meses) [prevexp] como variable dependiente. E Seleccione Estadsticos en la seccin Mostrar. E Pulse en Autodocimante.

18 Captulo 3 Figura 3-9 Cuadro de dilogo Autodocimante

E Seleccione Ejecutar bootstrapping. E Para replicar los resultados de este ejemplo de forma exacta, seleccione Establecer semilla para Tornado de Mersenne e introduzca 592004 como semilla. E Para obtener resultados ms precisos (requiere ms tiempo de procesamiento), seleccione Bias corregido acelerado (BCa). E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Explorar.

Estas selecciones generan la siguiente sintaxis de comandos:


PRESERVE. SET RNG=MT MTINDEX=592004. SHOW RNG. BOOTSTRAP /SAMPLING METHOD=SIMPLE /VARIABLES TARGET=prevexp /CRITERIA CILEVEL=95 CITYPE=BCA /MISSING USERMISSING=EXCLUDE. EXAMINE VARIABLES=prevexp /PLOT NONE /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

NSAMPLES=1000

19 Muestreo autodocimante RESTORE.

Los comandos PRESERVE y RESTORE recuerdan el estado actual del generador de nmeros aleatorios y restaurar el sistema al estado posterior a la finalizacin del mtodo bootstrap. El comando SET define el generador de nmeros aleatorios a Mersenne Twister y el ndice a 592004, para que los resultados del muestreo bootstrap se puedan replicar exactamente. El comando SHOW muestra el ndice en el resultado para futura referencia. El comando BOOTSTRAP solicita 1000 muestras bootstrap mediante nuevas muestras simples. El subcomando VARIABLES especifica que la variable prevexp se utiliza para determinar las muestras caso a caso. Los registros con valores perdidos en esta variable se eliminan del anlisis. El subcomando CRITERIA , adems de requerir el nmero de muestras de bootstrap, requiere intervalos de confianza de bootstrap de sesgo corregidos y acelerados en lugar de los intervalos de percentiles predefinidos. El procedimiento EXAMINE posterior a BOOTSTRAP se ejecuta en cada una de las muestras bootstrap. El subcomando PLOT desactiva el resultado de la representacin. El resto de opciones estn establecidas en sus valores por defecto.

Descriptivos
Figura 3-10 Tabla Descriptivos con intervalos de confianza autodocimantes

La tabla descriptivos contiene un nmero de intervalos de confianza de estadsticos y autodocimantes de esos estadsticos. El intervalo de confianza autodocimante de la media (86,39, 105,20) es similar al intervalo de confianza paramtrico (86,42, 105,30) y sugiere que el empleado tpico tiene unos 7-9 aos de experiencia previa. Sin embargo, Experiencia anterior (meses) tiene una distribucin asimtrica, que convierte a la media en un indicador menos deseable del salario actual tpico que la mediana. El intervalo de confianza autodocimante de la mediana (50,00, 60,00) es ms estrecho e inferior que el intervalo de confianza de la media y sugiere que el

20 Captulo 3

empleado tpico tiene unos 4-5 aos de experiencia previa. El uso de muestreo autodocimante ha hecho posible obtener un intervalo de valores que representen mejor la experiencia tpica anterior.

Uso de muestreo autodocimante para seleccionar mejores predictores


Durante una revisin de los registros de los empleados, los directivos tambin estn interesados en determinar los factores que estn asociados con los aumentos de salarios de los empleados, al definir un modelo lineal de la diferencia entre el salario inicial y el actual. Al realizar un muestreo autodocimante de un modelo lineal, puede utilizar mtodos de muestreado sucesivo especiales (muestreo autodocimante residual y wild) para obtener resultados ms precisos. Esta informacin se recoge en el archivo Employee data.sav. Si desea obtener ms informacin, consulte el tema Archivos muestrales en el apndice A el p. 31. Nota: Este ejemplo utiliza el procedimiento MLG Univariante y requiere la opcin Statistics Base.

Preparacin de datos
En primer lugar debe calcular la diferencia entre Salario actual y Salario inicial.
E Seleccione en los mens: Transformar > Calcular variable...

21 Muestreo autodocimante Figura 3-11 Cuadro de dilogo Calcular variable

E Escriba diff como variable de destino. E Escriba salario-iniciosalario como expresin numrica. E Pulse en Aceptar.

Ejecucin del anlisis


Para ejecutar MLG Univariante con muestreo autodocimante residual y wild, necesita crear residuos.
E Seleccione en los mens: Analizar > Modelo lineal general > Univariante...

22 Captulo 3 Figura 3-12 Cuadro de dilogo principal MLG Univariante

E Seleccione diff como la variable dependiente. E Seleccione Gnero [gender], Categora laboral [gender] y Clasificacin tnica [minority]

como factores fijos.


E Seleccione Meses desde el contrato [jobtime] y Experiencia anterior (meses) [prevexp] como

covariables.
E Pulse en Modelo.

23 Muestreo autodocimante Figura 3-13 Cuadro de dilogo Modelo

E Seleccione Personalizado y seleccione Efectos principales en la lista desplegable Construir trminos. E Seleccione gender hasta prevexp como trminos de modelo. E Pulse en Continuar. E Pulse en Guardar en el cuadro de dilogo MLG Univariante.

24 Captulo 3 Figura 3-14 Cuadro de dilogo Guardar

E Seleccione No tipificados en el grupo Residuos. E Pulse en Continuar. E Pulse en Autodocimante en el cuadro de dilogo MLG Univariante.

25 Muestreo autodocimante Figura 3-15 Cuadro de dilogo Autodocimante

La configuracin autodocimante se mantiene en los cuadros de dilogo que admiten el muestreo autodocimante. Mientras el muestreo autodocimante est activado no se podrn guardar nuevas variables en el conjunto de datos, as que deber asegurarse de que est desactivado.
E Si es necesario, elimine la seleccin de Ejecutar bootstrapping. E Pulse en Aceptar en el cuadro de dilogo MLG Univariante. El conjunto de datos contiene ahora

una nueva variable, RES_1, que contiene los residuos no tipificados del modelo.
E Active el cuadro de dilogo MLG Univariante y pulse Guardar.

26 Captulo 3 E Cancele la seleccin de No tipificados y pulse Continuar y Opciones en el cuadro de dilogo MLG

Univariante.
Figura 3-16 Cuadro de dilogo Opciones

E Seleccione Estimaciones de los parmetros en la seccin Mostrar. E Pulse en Continuar. E Pulse en Autodocimante en el cuadro de dilogo MLG Univariante.

27 Muestreo autodocimante Figura 3-17 Cuadro de dilogo Autodocimante

E Seleccione Ejecutar bootstrapping. E Para replicar los resultados de este ejemplo de forma exacta, seleccione Establecer semilla para Tornado de Mersenne e introduzca 9191972 como semilla. E No hay opciones para ejecutar muestreo autodocimante wild en los cuadros de dilogo, por lo que tendr que pulsar Continuar y, a continuacin, Pegar en el cuadro de dilogo MLG Univariante.

Estas selecciones generan la siguiente sintaxis de comandos:


PRESERVE. SET RNG=MT MTINDEX=9191972. SHOW RNG. BOOTSTRAP /SAMPLING METHOD=SIMPLE /VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp /CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000 /MISSING USERMISSING=EXCLUDE. UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp /METHOD=SSTYPE(3) /INTERCEPT=INCLUDE /PRINT=PARAMETER /CRITERIA=ALPHA(.05) /DESIGN=gender jobcat minority jobtime prevexp.

28 Captulo 3 RESTORE.

Para ejecutar muestreo autodocimante wild, edite la palabra clave METHOD del subcomando SAMPLING a METHOD=WILD(RESIDUALS=RES_1). El conjunto final de la sintaxis de comandos tendr la siguiente apariencia:
PRESERVE. SET RNG=MT MTINDEX=9191972. SHOW RNG. BOOTSTRAP /SAMPLING METHOD=WILD(RESIDUALS=RES_1) /VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp /CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000 /MISSING USERMISSING=EXCLUDE. UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp /METHOD=SSTYPE(3) /INTERCEPT=INCLUDE /PRINT=PARAMETER /CRITERIA=ALPHA(.05) /DESIGN=gender jobcat minority jobtime prevexp. RESTORE.

Los comandos PRESERVE y RESTORE recuerdan el estado actual del generador de nmeros aleatorios y restaurar el sistema al estado posterior a la finalizacin del mtodo bootstrap. El comando SET define el generador de nmeros aleatorios a Mersenne Twister y el ndice a 9191972, para que los resultados del muestreo bootstrap se puedan replicar exactamente. El comando SHOW muestra el ndice en el resultado para futura referencia. El comando BOOTSTRAP requiere 1000 muestras de bootstrap con muestreo wild y RES_1 como la variable que contiene los residuos. El subcomando VARIABLES especifica que diff es la variable objetivo del modelo lineal. Esta variable y gender, jobcat, minority, jobtime y prevexp se utilizan para determinar las muestras caso a caso. Los registros con valores perdidos en estas variables se eliminan del anlisis. El subcomando CRITERIA , adems de requerir el nmero de muestras de bootstrap, requiere intervalos de confianza de bootstrap de sesgo corregidos y acelerados en lugar de los intervalos de percentiles predefinidos. El procedimiento UNIANOVA posterior a BOOTSTRAP se ejecuta en cada muestra bootstrap y produce estimaciones de los parmetros para los datos originales. Adems, los estadsticos combinados se producen para los coeficientes del modelo.

29 Muestreo autodocimante

Estimaciones de los parmetros


Figura 3-18 Estimaciones de los parmetros

La tabla Estimaciones de los parmetros muestra las estimaciones normales sin muestreo autodocimante de los parmetros de los trminos de modelo. El valor de significacin de 0,105 para [minority=0] es mayor que 0,05, lo que sugiere que Clasificacin tnica no tiene ningn efecto en los aumentos de los salarios.
Figura 3-19 Estimaciones de parmetros autodocimantes

Ahora mire la tabla Estimaciones de parmetros autodocimantes. En la columna Error tpico, ver que los errores tpicos paramtricos de algunos coeficientes, como interseccin, son demasiado pequeos en comparacin con las estimaciones autodocimantes y los intervalos de confianza son mayores. En algunos coeficientes, como [minority=0], los errores tpicos paramtricos eran demasiado grandes y el valor de significacin de 0,006 en los resultados autodocimantes, menor de 0,05, muestra que la diferencia observada en aumentos de salarios entre los empleados

30 Captulo 3

pertenecientes a minoras tnicas o no no obedecen a las posibilidades. Los directivos saben ahora que merece la pena investigar ms a fondo esta diferencia para determinar sus posibles causas.

Lecturas recomendadas
Consulte los siguientes textos si desea obtener ms informacin acerca de muestreos autodocimantes: Davison, A. C., y D. V. Hinkley. 2006. Bootstrap Methods and their Application. : Cambridge University Press. Shao, J., y D. Tu. 1995. The Jackknife and Bootstrap. Nueva York: Springer.

Apndice

Archivos muestrales

Los archivos muestrales instalados con el producto se encuentran en el subdirectorio Samples del directorio de instalacin. Hay una carpeta independiente dentro del subdirectorio Samples para cada uno de los siguientes idiomas: Ingls, francs, alemn, italiano, japons, coreano, polaco, ruso, chino simplificado, espaol y chino tradicional. No todos los archivos muestrales estn disponibles en todos los idiomas. Si un archivo muestral no est disponible en un idioma, esa carpeta de idioma contendr una versin en ingls del archivo muestral.

Descripciones

A continuacin, se describen brevemente los archivos muestrales usados en varios ejemplos que aparecen a lo largo de la documentacin.

accidents.sav.Archivo de datos hipotticos sobre una compaa de seguros que estudia los

factores de riesgo de edad y gnero que influyen en los accidentes de automviles de una regin determinada. Cada caso corresponde a una clasificacin cruzada de categora de edad y gnero.

adl.sav.Archivo de datos hipotticos relativo a los esfuerzos para determinar las ventajas de un

tipo propuesto de tratamiento para pacientes que han sufrido un derrame cerebral. Los mdicos dividieron de manera aleatoria a pacientes (mujeres) que haban sufrido un derrame cerebral en dos grupos. El primer grupo recibi el tratamiento fsico estndar y el segundo recibi un tratamiento emocional adicional. Tres meses despus de los tratamientos, se puntuaron las capacidades de cada paciente para realizar actividades cotidianas como variables ordinales.

advert.sav. Archivo de datos hipotticos sobre las iniciativas de un minorista para examinar

la relacin entre el dinero invertido en publicidad y las ventas resultantes. Para ello, se recopilaron las cifras de ventas anteriores y los costes de publicidad asociados.

aflatoxin.sav. Archivo de datos hipotticos sobre las pruebas realizadas en las cosechas de

maz con relacin a la aflatoxina, un veneno cuya concentracin vara ampliamente en los rendimientos de cultivo y entre los mismos. Un procesador de grano ha recibido 16 muestras de cada uno de los 8 rendimientos de cultivo y ha medido los niveles de aflatoxinas en partes por milln (PPM).

anorectic.sav.Mientras trabajaban en una sintomatologa estandarizada del comportamiento

anorxico/bulmico, los investigadores (Van der Ham, Meulman, Van Strien, y Van Engeland, 1997) realizaron un estudio de 55 adolescentes con trastornos de la alimentacin conocidos. Cada paciente fue examinado cuatro veces durante cuatro aos, lo que representa un total de 220 observaciones. En cada observacin, se puntu a los pacientes por cada uno de los 16 sntomas. Faltan las puntuaciones de los sntomas para el paciente 71 en el tiempo 2, el paciente 76 en el tiempo 2 y el paciente 47 en el tiempo 3, lo que nos deja 217 observaciones vlidas.
Copyright IBM Corporation 1989, 2011. 31

32 Apndice A

bankloan.sav.Archivo de datos hipotticos sobre las iniciativas de un banco para reducir la

tasa de moras de crditos. El archivo contiene informacin financiera y demogrfica de 850 clientes anteriores y posibles clientes. Los primeros 700 casos son clientes a los que anteriormente se les ha concedido un prstamo. Al menos 150 casos son posibles clientes cuyos riesgos de crdito el banco necesita clasificar como positivos o negativos.

bankloan_binning.sav. Archivo de datos hipotticos que contiene informacin financiera y

demogrfica sobre 5.000 clientes anteriores.


behavior.sav. En un ejemplo clsico (Price y Bouffard, 1974), se pidi a 52 estudiantes

que valoraran las combinaciones de 15 situaciones y 15 comportamientos en una escala de 10 puntos que oscilaba entre 0 =extremadamente apropiado y 9=extremadamente inapropiado. Los valores promediados respecto a los individuos se toman como disimilaridades.

behavior_ini.sav. Este archivo de datos contiene una configuracin inicial para una solucin

bidimensional de behavior.sav.
brakes.sav. Archivo de datos hipotticos sobre el control de calidad de una fbrica que

produce frenos de disco para automviles de alto rendimiento. El archivo de datos contiene las medidas del dimetro de 16 discos de cada una de las 8 mquinas de produccin. El dimetro objetivo para los frenos es de 322 milmetros.

breakfast.sav.En un estudio clsico (Green y Rao, 1972), se pidi a 21 estudiantes de

administracin de empresas de la Wharton School y sus cnyuges que ordenaran 15 elementos de desayuno por orden de preferencia, de 1=ms preferido a 15=menos preferido. Sus preferencias se registraron en seis escenarios distintos, de Preferencia global a Aperitivo, con bebida slo.

breakfast-overall.sav. Este archivo de datos slo contiene las preferencias de elementos de

desayuno para el primer escenario, Preferencia global.


broadband_1.sav Archivo de datos hipotticos que contiene el nmero de suscriptores, por

regin, a un servicio de banda ancha nacional. El archivo de datos contiene nmeros de suscriptores mensuales para 85 regiones durante un perodo de cuatro aos.

broadband_2.sav Este archivo de datos es idntico a broadband_1.sav pero contiene datos

para tres meses adicionales.


car_insurance_claims.sav. Un conjunto de datos presentados y analizados en otro lugar

(McCullagh y Nelder, 1989) estudia las reclamaciones por daos en vehculos. La cantidad de reclamaciones media se puede modelar como si tuviera una distribucin Gamma, mediante una funcin de enlace inversa para relacionar la media de la variable dependiente con una combinacin lineal de la edad del asegurado, el tipo de vehculo y la antigedad del vehculo. El nmero de reclamaciones presentadas se puede utilizar como una ponderacin de escalamiento.

car_sales.sav. Este archivo de datos contiene estimaciones de ventas, precios de lista y

especificaciones fsicas hipotticas de varias marcas y modelos de vehculos. Los precios de lista y las especificaciones fsicas se han obtenido de edmunds.com y de sitios de fabricantes.

car_sales_uprepared.sav.sta es una versin modificada de car_sales.sav que no incluye

ninguna versin transformada de los campos.

33 Archivos muestrales

carpet.sav En un ejemplo muy conocido (Green y Wind, 1973), una compaa interesada en

sacar al mercado un nuevo limpiador de alfombras desea examinar la influencia de cinco factores sobre la preferencia del consumidor: diseo del producto, marca comercial, precio, sello de buen producto para el hogar y garanta de devolucin del importe. Hay tres niveles de factores para el diseo del producto, cada uno con una diferente colocacin del cepillo del aplicador; tres nombres comerciales (K2R, Glory y Bissell); tres niveles de precios; y dos niveles (no o s) para los dos ltimos factores. Diez consumidores clasificaron 22 perfiles definidos por estos factores. La variable Preferencia contiene el rango de las clasificaciones medias de cada perfil. Las clasificaciones inferiores corresponden a preferencias elevadas. Esta variable refleja una medida global de la preferencia de cada perfil.

carpet_prefs.sav Este archivo de datos se basa en el mismo ejemplo que el descrito para

carpet.sav, pero contiene las clasificaciones reales recogidas de cada uno de los 10 consumidores. Se pidi a los consumidores que clasificaran los 22 perfiles de los productos empezando por el menos preferido. Las variables desde PREF1 hasta PREF22 contienen los ID de los perfiles asociados, como se definen en carpet_plan.sav.

catalog.savEste archivo de datos contiene cifras de ventas mensuales hipotticas de tres

productos vendidos por una compaa de venta por catlogo. Tambin se incluyen datos para cinco variables predictoras posibles.

catalog_seasfac.savEste archivo de datos es igual que catalog.sav, con la excepcin de

que incluye un conjunto de factores estacionales calculados a partir del procedimiento Descomposicin estacional junto con las variables de fecha que lo acompaan.

cellular.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa de telefona

mvil para reducir el abandono de clientes. Las puntuaciones de propensin al abandono de clientes se aplican a las cuentas, oscilando de 0 a 100. Las cuentas con una puntuacin de 50 o superior pueden estar buscando otros proveedores.

ceramics.sav.Archivo de datos hipotticos sobre las iniciativas de un fabricante para

determinar si una nueva aleacin de calidad tiene una mayor resistencia al calor que una aleacin estndar. Cada caso representa una prueba independiente de una de las aleaciones; la temperatura a la que registr el fallo del rodamiento.

cereal.sav. Archivo de datos hipotticos sobre una encuesta realizada a 880 personas sobre

sus preferencias en el desayuno, teniendo tambin en cuenta su edad, sexo, estado civil y si tienen un estilo de vida activo o no (en funcin de si practican ejercicio al menos dos veces a la semana). Cada caso representa un encuestado diferente.

clothing_defects.sav. Archivo de datos hipotticos sobre el proceso de control de calidad en

una fbrica de prendas. Los inspectores toman una muestra de prendas de cada lote producido en la fbrica, y cuentan el nmero de prendas que no son aceptables.

coffee.sav. Este archivo de datos pertenece a las imgenes percibidas de seis marcas de caf

helado (Kennedy, Riquier, y Sharp, 1996). Para cada uno de los 23 atributos de imagen de caf helado, los encuestados seleccionaron todas las marcas que quedaban descritas por el atributo. Las seis marcas se denotan AA, BB, CC, DD, EE y FF para mantener la confidencialidad.

contacts.sav.Archivo de datos hipotticos sobre las listas de contactos de un grupo de

representantes de ventas de ordenadores de empresa. Cada uno de los contactos est categorizado por el departamento de la compaa en el que trabaja y su categora en la compaa. Adems, tambin se registran los importes de la ltima venta realizada, el tiempo transcurrido desde la ltima venta y el tamao de la compaa del contacto.

34 Apndice A

creditpromo.sav. Archivo de datos hipotticos sobre las iniciativas de unos almacenes para

evaluar la eficacia de una promocin de tarjetas de crdito reciente. Para este fin, se seleccionaron aleatoriamente 500 titulares. La mitad recibieron un anuncio promocionando una tasa de inters reducida sobre las ventas realizadas en los siguientes tres meses. La otra mitad recibi un anuncio estacional estndar.

customer_dbase.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa para

usar la informacin de su almacn de datos para realizar ofertas especiales a los clientes con ms probabilidades de responder. Se seleccion un subconjunto de la base de clientes aleatoriamente a quienes se ofrecieron las ofertas especiales y sus respuestas se registraron.

customer_information.sav. Archivo de datos hipotticos que contiene la informacin de correo

del cliente, como el nombre y la direccin.


customer_subset.sav. Un subconjunto de 80 casos de customer_dbase.sav. debate.sav. Archivos de datos hipotticos sobre las respuestas emparejadas de una encuesta

realizada a los asistentes a un debate poltico antes y despus del debate. Cada caso corresponde a un encuestado diferente.

debate_aggregate.sav. Archivo de datos hipotticos que agrega las respuestas de debate.sav.

Cada caso corresponde a una clasificacin cruzada de preferencias antes y despus del debate.
demo.sav. Archivos de datos hipotticos sobre una base de datos de clientes adquirida con

el fin de enviar por correo ofertas mensuales. Se registra si el cliente respondi a la oferta, junto con informacin demogrfica diversa.

demo_cs_1.sav.Archivo de datos hipotticos sobre el primer paso de las iniciativas de

una compaa para recopilar una base de datos de informacin de encuestas. Cada caso corresponde a una ciudad diferente, y se registra la identificacin de la ciudad, la regin, la provincia y el distrito.

demo_cs_2.sav.Archivo de datos hipotticos sobre el segundo paso de las iniciativas de

una compaa para recopilar una base de datos de informacin de encuestas. Cada caso corresponde a una unidad familiar diferente de las ciudades seleccionadas en el primer paso, y se registra la identificacin de la unidad, la subdivisin, la ciudad, el distrito, la provincia y la regin. Tambin se incluye la informacin de muestreo de las primeras dos etapas del diseo.

demo_cs.sav.Archivo de datos hipotticos que contiene informacin de encuestas recopilada

mediante un diseo de muestreo complejo. Cada caso corresponde a una unidad familiar distinta, y se recopila informacin demogrfica y de muestreo diversa.

dmdata.sav. ste es un archivo de datos hipotticos que contiene informacin demogrfica

y de compras para una empresa de marketing directo. dmdata2.sav contiene informacin para un subconjunto de contactos que recibi un envo de prueba, y dmdata3.sav contiene informacin sobre el resto de contactos que no recibieron el envo de prueba.

dietstudy.sav.Este archivo de datos hipotticos contiene los resultados de un estudio sobre la

dieta Stillman (Rickman, Mitchell, Dingman, y Dalen, 1974). Cada caso corresponde a un sujeto distinto y registra sus pesos antes y despus de la dieta en libras y niveles de triglicridos en mg/100 ml.

dvdplayer.sav. Archivo de datos hipotticos sobre el desarrollo de un nuevo reproductor de

DVD. El equipo de marketing ha recopilado datos de grupo de enfoque mediante un prototipo. Cada caso corresponde a un usuario encuestado diferente y registra informacin demogrfica sobre los encuestados y sus respuestas a preguntas acerca del prototipo.

35 Archivos muestrales

german_credit.sav.Este archivo de datos se toma del conjunto de datos German credit de

las Repository of Machine Learning Databases (Blake y Merz, 1998) de la Universidad de California, Irvine.

grocery_1month.sav. Este archivo de datos hipotticos es el archivo de datos

grocery_coupons.sav con las compras semanales acumuladas para que cada caso corresponda a un cliente diferente. Algunas de las variables que cambiaban semanalmente desaparecen de los resultados, y la cantidad gastada registrada se convierte ahora en la suma de las cantidades gastadas durante las cuatro semanas del estudio.

grocery_coupons.sav. Archivo de datos hipotticos que contiene datos de encuestas

recopilados por una cadena de tiendas de alimentacin interesada en los hbitos de compra de sus clientes. Se sigue a cada cliente durante cuatro semanas, y cada caso corresponde a un cliente-semana distinto y registra informacin sobre dnde y cmo compran los clientes, incluida la cantidad que invierten en comestibles durante esa semana.

guttman.sav.Bell (Bell, 1961) present una tabla para ilustrar posibles grupos sociales.

Guttman (Guttman, 1968) utiliz parte de esta tabla, en la que se cruzaron cinco variables que describan elementos como la interaccin social, sentimientos de pertenencia a un grupo, proximidad fsica de los miembros y grado de formalizacin de la relacin con siete grupos sociales tericos, incluidos multitudes (por ejemplo, las personas que acuden a un partido de ftbol), espectadores (por ejemplo, las personas que acuden a un teatro o de una conferencia), pblicos (por ejemplo, los lectores de peridicos o los espectadores de televisin), muchedumbres (como una multitud pero con una interaccin mucho ms intensa), grupos primarios (ntimos), grupos secundarios (voluntarios) y la comunidad moderna (confederacin dbil que resulta de la proximidad cercana fsica y de la necesidad de servicios especializados).

health_funding.sav. Archivo de datos hipotticos que contiene datos sobre inversin en sanidad

(cantidad por 100 personas), tasas de enfermedad (ndice por 10.000 personas) y visitas a centros de salud (ndice por 10.000 personas). Cada caso representa una ciudad diferente.

hivassay.sav. Archivo de datos hipotticos sobre las iniciativas de un laboratorio farmacutico

para desarrollar un ensayo rpido para detectar la infeccin por VIH. Los resultados del ensayo son ocho tonos de rojo con diferentes intensidades, donde los tonos ms oscuros indican una mayor probabilidad de infeccin. Se llev a cabo una prueba de laboratorio de 2.000 muestras de sangre, de las cuales una mitad estaba infectada con el VIH y la otra estaba limpia.

hourlywagedata.sav. Archivo de datos hipotticos sobre los salarios por horas de enfermeras

de puestos de oficina y hospitales y con niveles distintos de experiencia.


insurance_claims.sav. ste es un archivo de datos hipotticos sobre una compaa de seguros

que desee generar un modelo para etiquetar las reclamaciones sospechosas y potencialmente fraudulentas. Cada caso representa una reclamacin diferente.

insure.sav. Archivo de datos hipotticos sobre una compaa de seguros que estudia los

factores de riesgo que indican si un cliente tendr que hacer una reclamacin a lo largo de un contrato de seguro de vida de 10 aos. Cada caso del archivo de datos representa un par de contratos (de los que uno registr una reclamacin y el otro no), agrupados por edad y sexo.

judges.sav. Archivo de datos hipotticos sobre las puntuaciones concedidas por jueces

cualificados (y un aficionado) a 300 actuaciones gimnsticas. Cada fila representa una actuacin diferente; los jueces vieron las mismas actuaciones.

36 Apndice A

kinship_dat.sav. Rosenberg y Kim (Rosenberg y Kim, 1975) comenzaron a analizar 15

trminos de parentesco [ta, hermano, primos, hija, padre, nieta, abuelo, abuela, nieto, madre, sobrino, sobrina, hermana, hijo, to]. Le pidieron a cuatro grupos de estudiantes universitarios (dos masculinos y dos femeninos) que ordenaran estos grupos segn las similitudes. A dos grupos (uno masculino y otro femenino) se les pidi que realizaran la ordenacin dos veces, pero que la segunda ordenacin la hicieran segn criterios distintos a los de la primera. As, se obtuvo un total de seis fuentes. Cada fuente se corresponde con una matriz de proximidades cuyas casillas son iguales al nmero de personas de una fuente menos el nmero de de veces que se particionaron los objetos en esa fuente.

kinship_ini.sav. Este archivo de datos contiene una configuracin inicial para una solucin

tridimensional de kinship_dat.sav.
kinship_var.sav. Este archivo de datos contiene variables independientes sexo, gener(acin), y

grado (de separacin) que se pueden usar para interpretar las dimensiones de una solucin para kinship_dat.sav. Concretamente, se pueden usar para restringir el espacio de la solucin a una combinacin lineal de estas variables.

marketvalues.sav. Archivo de datos sobre las ventas de casas en una nueva urbanizacin de

Algonquin, Ill., durante los aos 1999 y 2000. Los datos de estas ventas son pblicos.
nhis2000_subset.sav. La National Health Interview Survey (NHIS, encuesta del Centro

Nacional de Estadsticas de Salud de EE.UU.) es una encuesta detallada realizada entre la poblacin civil de Estados Unidos. Las encuestas se realizaron en persona a una muestra representativa de las unidades familiares del pas. Se recogi tanto la informacin demogrfica como las observaciones acerca del estado y los hbitos de salud de los integrantes de cada unidad familiar. Este archivo de datos contiene un subconjunto de informacin de la encuesta de 2000. National Center for Health Statistics. National Health Interview Survey, 2000. Archivo de datos y documentacin de uso pblico. ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. Fecha de acceso: 2003.

ozono.sav. Los datos incluyen 330 observaciones de seis variables meteorolgicas para

pronosticar la concentracin de ozono a partir del resto de variables. Los investigadores anteriores(Breiman y Friedman, 1985), (Hastie y Tibshirani, 1990) han encontrado que no hay linealidad entre estas variables, lo que dificulta los mtodos de regresin tpica.

pain_medication.sav. Este archivo de datos hipotticos contiene los resultados de una prueba

clnica sobre medicacin antiinflamatoria para tratar el dolor artrtico crnico. Resulta de particular inters el tiempo que tarda el frmaco en hacer efecto y cmo se compara con una medicacin existente.

patient_los.sav. Este archivo de datos hipotticos contiene los registros de tratamiento de

pacientes que fueron admitidos en el hospital ante la posibilidad de sufrir un infarto de miocardio (IM o ataque al corazn). Cada caso corresponde a un paciente distinto y registra diversas variables relacionadas con su estancia hospitalaria.

patlos_sample.sav. Este archivo de datos hipotticos contiene los registros de tratamiento de

una muestra de pacientes que recibieron trombolticos durante el tratamiento del infarto de miocardio (IM o ataque al corazn). Cada caso corresponde a un paciente distinto y registra diversas variables relacionadas con su estancia hospitalaria.

37 Archivos muestrales

poll_cs.sav. Archivo de datos hipotticos sobre las iniciativas de los encuestadores para

determinar el nivel de apoyo pblico a una ley antes de una asamblea legislativa. Los casos corresponden a votantes registrados. Cada caso registra el condado, la poblacin y el vecindario en el que vive el votante.

poll_cs_sample.sav. Este archivo de datos hipotticos contiene una muestra de los votantes

enumerados en poll_cs.sav. La muestra se tom segn el diseo especificado en el archivo de plan poll.csplan y este archivo de datos registra las probabilidades de inclusin y las ponderaciones muestrales. Sin embargo, tenga en cuenta que debido a que el plan muestral hace uso de un mtodo de probabilidad proporcional al tamao (PPS), tambin existe un archivo que contiene las probabilidades de seleccin conjunta (poll_jointprob.sav). Las variables adicionales que corresponden a los datos demogrficos de los votantes y sus opiniones sobre la propuesta de ley se recopilaron y aadieron al archivo de datos despus de tomar la muestra.

property_assess.sav. Archivo de datos hipotticos sobre las iniciativas de un asesor del

condado para mantener actualizada la evaluacin de los valores de las propiedades utilizando recursos limitados. Los casos corresponden a las propiedades vendidas en el condado el ao anterior. Cada caso del archivo de datos registra la poblacin en que se encuentra la propiedad, el ltimo asesor que visit la propiedad, el tiempo transcurrido desde la ltima evaluacin, la valoracin realizada en ese momento y el valor de venta de la propiedad.

property_assess_cs.sav. Archivo de datos hipotticos sobre las iniciativas de un asesor de un

estado para mantener actualizada la evaluacin de los valores de las propiedades utilizando recursos limitados. Los casos corresponden a propiedades del estado. Cada caso del archivo de datos registra el condado, la poblacin y el vecindario en el que se encuentra la propiedad, el tiempo transcurrido desde la ltima evaluacin y la valoracin realizada en ese momento.

property_assess_cs_sample.savEste archivo de datos hipotticos contiene una muestra de las

propiedades recogidas en property_assess_cs.sav. La muestra se tom en funcin del diseo especificado en el archivo de plan property_assess.csplan, y este archivo de datos registra las probabilidades de inclusin y las ponderaciones muestrales. La variable adicional Valor actual se recopil y aadi al archivo de datos despus de tomar la muestra.

recidivism.sav. Archivo de datos hipotticos sobre las iniciativas de una agencia de orden

pblico para comprender los ndices de reincidencia en su rea de jurisdiccin. Cada caso corresponde a un infractor anterior y registra su informacin demogrfica, algunos detalles de su primer delito y, a continuacin, el tiempo transcurrido desde su segundo arresto, si ocurri en los dos aos posteriores al primer arresto.

recidivism_cs_sample.sav. Archivo de datos hipotticos sobre las iniciativas de una agencia de

orden pblico para comprender los ndices de reincidencia en su rea de jurisdiccin. Cada caso corresponde a un delincuente anterior, puesto en libertad tras su primer arresto durante el mes de junio de 2003 y registra su informacin demogrfica, algunos detalles de su primer delito y los datos de su segundo arresto, si se produjo antes de finales de junio de 2006. Los delincuentes se seleccionaron de una muestra de departamentos segn el plan de muestreo especificado en recidivism_cs.csplan. Como este plan utiliza un mtodo de probabilidad proporcional al tamao (PPS), tambin existe un archivo que contiene las probabilidades de seleccin conjunta (recidivism_cs_jointprob.sav).

rfm_transactions.sav. Archivo de datos hipotticos que contiene datos de transacciones de

compra, incluida la fecha de compra, los artculos adquiridos y el importe de cada transaccin.

38 Apndice A

salesperformance.sav. Archivo de datos hipotticos sobre la evaluacin de dos nuevos cursos

de formacin de ventas. Sesenta empleados, divididos en tres grupos, reciben formacin estndar. Adems, el grupo 2 recibe formacin tcnica; el grupo 3, un tutorial prctico. Cada empleado se someti a un examen al final del curso de formacin y se registr su puntuacin. Cada caso del archivo de datos representa a un alumno distinto y registra el grupo al que fue asignado y la puntuacin que obtuvo en el examen.

satisf.sav. Archivo de datos hipotticos sobre una encuesta de satisfaccin llevada a cabo por

una empresa minorista en cuatro tiendas. Se encuest a 582 clientes en total y cada caso representa las respuestas de un nico cliente.

screws.sav Este archivo de datos contiene informacin acerca de las caractersticas de

tornillos, pernos, clavos y tacos (Hartigan, 1975).


shampoo_ph.sav.Archivo de datos hipotticos sobre el control de calidad en una fbrica de

productos para el cabello. Se midieron seis lotes de resultados distintos en intervalos regulares y se registr su pH. El intervalo objetivo es de 4,5 a 5,5.

ships.sav. Un conjunto de datos presentados y analizados en otro lugar (McCullagh et al.,

1989) sobre los daos en los cargueros producidos por las olas. Los recuentos de incidentes se pueden modelar como si ocurrieran con una tasa de Poisson dado el tipo de barco, el perodo de construccin y el perodo de servicio. Los meses de servicio agregados para cada casilla de la tabla formados por la clasificacin cruzada de factores proporcionan valores para la exposicin al riesgo.

site.sav.Archivo de datos hipotticos sobre las iniciativas de una compaa para seleccionar

sitios nuevos para sus negocios en expansin. Se ha contratado a dos consultores para evaluar los sitios de forma independiente, quienes, adems de un informe completo, han resumido cada sitio como una posibilidad buena, media o baja.

smokers.sav.Este archivo de datos es un resumen de la encuesta sobre toxicomana 1998

National Household Survey of Drug Abuse y es una muestra de probabilidad de unidades familiares americanas. (http://dx.doi.org/10.3886/ICPSR02934) As, el primer paso de un anlisis de este archivo de datos debe ser ponderar los datos para reflejar las tendencias de poblacin.

stocks.sav Este archivo de datos hipotticos contiene precios de acciones y volumen de un ao. stroke_clean.sav. Este archivo de datos hipotticos contiene el estado de una base de datos

mdica despus de haberla limpiado mediante los procedimientos de la opcin Preparacin de datos.

stroke_invalid.sav. Este archivo de datos hipotticos contiene el estado inicial de una base de

datos mdica que incluye contiene varios errores de entrada de datos.


stroke_survival. Este archivo de datos hipotticos registra los tiempos de supervivencia de

los pacientes que finalizan un programa de rehabilitacin tras un ataque isqumico. Tras el ataque, la ocurrencia de infarto de miocardio, ataque isqumico o ataque hemorrgico se anotan junto con el momento en el que se produce el evento registrado. La muestra est truncada a la izquierda ya que nicamente incluye a los pacientes que han sobrevivido al final del programa de rehabilitacin administrado tras el ataque.

stroke_valid.sav. Este archivo de datos hipotticos contiene el estado de una base de datos

mdica despus de haber comprobado los valores mediante el procedimiento Validar datos. Sigue conteniendo casos potencialmente anmalos.

39 Archivos muestrales

survey_sample.sav. Este archivo de datos contiene datos de encuestas, incluyendo datos

demogrficos y diferentes medidas de actitud. Se basa en un subconjunto de variables de NORC General Social Survey de 1998, aunque algunos valores de datos se han modificado y que existen variables ficticias adicionales se han aadido para demostraciones.

telco.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa de

telecomunicaciones para reducir el abandono de clientes en su base de clientes. Cada caso corresponde a un cliente distinto y registra diversa informacin demogrfica y de uso del servicio.

telco_extra.sav. Este archivo de datos es similar al archivo de datos telco.sav, pero las variables

de meses con servicio y gasto de clientes transformadas logartmicamente se han eliminado y sustituido por variables de gasto del cliente transformadas logartmicamente tipificadas.

telco_missing.sav. Este archivo de datos es un subconjunto del archivo de datos telco.sav, pero

algunos valores de datos demogrficos se han sustituido con valores perdidos.


testmarket.sav. Archivo de datos hipotticos sobre los planes de una cadena de comida rpida

para aadir un nuevo artculo a su men. Hay tres campaas posibles para promocionar el nuevo producto, por lo que el artculo se presenta en ubicaciones de varios mercados seleccionados aleatoriamente. Se utiliza una promocin diferente en cada ubicacin y se registran las ventas semanales del nuevo artculo durante las primeras cuatro semanas. Cada caso corresponde a una ubicacin semanal diferente.

testmarket_1month.sav. Este archivo de datos hipotticos es el archivo de datos testmarket.sav

con las ventas semanales acumuladas para que cada caso corresponda a una ubicacin diferente. Como resultado, algunas de las variables que cambiaban semanalmente desaparecen y las ventas registradas se convierten en la suma de las ventas realizadas durante las cuatro semanas del estudio.

tree_car.sav. Archivo de datos hipotticos que contiene datos demogrficos y de precios

de compra de vehculos.
tree_credit.sav Archivo de datos hipotticos que contiene datos demogrficos y de historial de

crditos bancarios.
tree_missing_data.sav Archivo de datos hipotticos que contiene datos demogrficos y de

historial de crditos bancarios con un elevado nmero de valores perdidos.


tree_score_car.sav. Archivo de datos hipotticos que contiene datos demogrficos y de precios

de compra de vehculos.
tree_textdata.sav. Archivo de datos sencillos con dos variables diseadas principalmente para

mostrar el estado por defecto de las variables antes de realizar la asignacin de nivel de medida y etiquetas de valor.

tv-survey.sav. Archivo de datos hipotticos sobre una encuesta dirigida por un estudio de

TV que est considerando la posibilidad de ampliar la emisin de un programa de xito. Se pregunt a 906 encuestados si veran el programa en distintas condiciones. Cada fila representa un encuestado diferente; cada columna es una condicin diferente.

ulcer_recurrence.sav. Este archivo contiene informacin parcial de un estudio diseado para

comparar la eficacia de dos tratamientos para prevenir la reaparicin de lceras. Constituye un buen ejemplo de datos censurados por intervalos y se ha presentado y analizado en otro lugar (Collett, 2003).

40 Apndice A

ulcer_recurrence_recoded.sav. Este archivo reorganiza la informacin de ulcer_recurrence.sav

para permitir modelar la probabilidad de eventos de cada intervalo del estudio en lugar de slo la probabilidad de eventos al final del estudio. Se ha presentado y analizado en otro lugar (Collett et al., 2003).

verd1985.sav. Archivo de datos sobre una encuesta (Verdegaal, 1985). Se han registrado las

respuestas de 15 sujetos a 8 variables. Se han dividido las variables de inters en tres grupos. El conjunto 1 incluye edad y ecivil, el conjunto 2 incluye mascota y noticia, mientras que el conjunto 3 incluye msica y vivir. Se escala mascota como nominal mltiple y edad como ordinal; el resto de variables se escalan como nominal simple.

virus.sav.Archivo de datos hipotticos sobre las iniciativas de un proveedor de servicios de

Internet (ISP) para determinar los efectos de un virus en sus redes. Se ha realizado un seguimiento (aproximado) del porcentaje de trfico de correos electrnicos infectados en sus redes a lo largo del tiempo, desde el momento en que se descubre hasta que la amenaza se contiene.

wheeze_steubenville.sav. Subconjunto de un estudio longitudinal de los efectos sobre la salud

de la polucin del aire en los nios (Ware, Dockery, Spiro III, Speizer, y Ferris Jr., 1984). Los datos contienen medidas binarias repetidas del estado de las sibilancias en nios de Steubenville, Ohio, con edades de 7, 8, 9 y 10 aos, junto con un registro fijo de si la madre era fumadora durante el primer ao del estudio.

workprog.sav. Archivo de datos hipotticos sobre un programa de obras del gobierno que

intenta colocar a personas desfavorecidas en mejores trabajos. Se sigui una muestra de participantes potenciales del programa, algunos de los cuales se seleccionaron aleatoriamente para entrar en el programa, mientras que otros no siguieron esta seleccin aleatoria. Cada caso representa un participante del programa diferente.

worldsales.sav Este archivo de datos hipotticos contiene ingresos por ventas por continente y

producto.

Apndice

Avisos

Esta informacin se ha desarrollado para los productos y servicios ofrecidos en todo el mundo. Puede que IBM no ofrezca los productos, los servicios o las caractersticas de los que se habla en este documento en otros pases. Consulte a su representante local de IBM para obtener informacin acerca de los productos y servicios que est disponibles actualmente en su zona. Toda referencia que se haga de un producto, programa o servicio de IBM no implica que slo se deba utilizar ese producto, programa o servicio de IBM. En su lugar, puede utilizarse todo producto, programa o servicio con funcionalidades equivalentes que no infrinjan los derechos de propiedad intelectual de IBM. Sin embargo, es responsabilidad del usuario evaluar y comprobar el funcionamiento de todo producto, programa o servicio que no sea de IBM. IBM puede tener patentes o aplicaciones de patentes pendientes que cubren el asunto descrito en este documento. Este documento no le otorga ninguna licencia para estas patentes. Puede enviar preguntas acerca de las licencias, por escrito, a: IBM Director of Licensing, IBM Corporation, North Castle Drive, Armonk, NY 10504-1785, Estados Unidos Si tiene alguna pregunta sobre la licencia relacionada con la informacin del juego de caracteres de doble byte (DBCS), pngase en contacto con el departamento de propiedad intelectual de IBM de su pas o enve sus preguntas por escrito a: Intellectual Property Licensing, Legal and Intellectual Property Law, IBM Japan Ltd., 1623-14, Shimotsuruma, Yamato-shi, Kanagawa 242-8502 Japan.
El prrafo siguiente no se aplica a los Reino Unido o cualquier otro pas donde tales disposiciones son incompatibles con la legislacin local: INTERNATIONAL BUSINESS MACHINES

PROPORCIONA ESTA PUBLICACIN TAL CUAL SIN GARANTA DE NINGN TIPO, YA SEA EXPRESA O IMPLCITA, INCLUYENDO, PERO NO LIMITADA A, LAS GARANTAS IMPLCITAS DE NO INFRACCIN, COMERCIALIZACIN O IDONEIDAD PARA UN PROPSITO PARTICULAR. Algunos estados no permiten la renuncia a expresar o a garantas implcitas en determinadas transacciones , por lo tanto , esta declaracin no se aplique a usted. Esta informacin puede incluir imprecisiones tcnicas o errores tipogrficos. Peridicamente, se efectan cambios en la informacin aqu y estos cambios se incorporarn en nuevas ediciones de la publicacin. IBM puede realizar mejoras y/o cambios en los productos y/o los programas descritos en esta publicacin en cualquier momento sin previo aviso. Cualquier referencia a sitios Web que no sean de IBM en esta informacin slo es ofrecida por comodidad y de ningn modo sirve como aprobacin de esos sitios Web. Los materiales en esos sitios Web no forman parte del material de este producto de IBM y el uso de estos sitios Web es bajo su propio riesgo. IBM puede utilizar cualquier informacin que le suministre en cualquier forma que considere adecuada, sin incurrir en ninguna obligacin para usted.
Copyright IBM Corporation 1989, 2011. 41

42 Apndice B

Los licenciatarios de este programa que deseen tener informacin sobre el mismo con el objetivo de habilitar: (i) el intercambio de informacin entre programas creados independientemente y otros programas (incluyendo este) y (ii) el uso comn de la informacin que se ha intercambiado, deben ponerse en contacto con: IBM Software Group, a la atencin de: Licensing, 233 S. Wacker Dr., Chicago, IL 60606, USA. Esta informacin estar disponible, bajo las condiciones adecuadas, incluyendo en algunos casos el pago de una cuota. IBM proporciona el programa bajo licencia que se describe en este documento y todo el material bajo licencia disponible para el mismo bajo los trminos de IBM Customer Agreement (Acuerdo de cliente de IBM), IBM International Program License Agreement (Acuerdo de licencia de programa internacional de IBM) o cualquier acuerdo equivalente entre las partes. Se ha obtenido informacin acerca de productos que no son de IBM de los proveedores de esos productos, de sus publicaciones anunciadas o de otras fuentes disponibles pblicamente. IBM no ha probado estos productos y no puede confirmar la precisin de su rendimiento, su compatibilidad o cualquier otra reclamacin relacionada con productos que no sean de IBM. Las preguntas acerca de las aptitudes de productos que no sean de IBM deben dirigirse a los proveedores de dichos productos. Esta informacin contiene ejemplos de datos e informes utilizados en operaciones comerciales diarias. Para ilustrarlos lo mximo posible, los ejemplos incluyen los nombres de las personas, empresas, marcas y productos. Todos esos nombres son ficticios y cualquier parecido con los nombres y direcciones utilizados por una empresa real es pura coincidencia. Si est viendo esta informacin en copia electrnica, es posible que las fotografas y las ilustraciones en color no aparezcan.
Marcas registradas

IBM, el logotipo de IBM, ibm.com y SPSS son marcas comerciales de IBM Corporation, registradas en muchas jurisdicciones de todo el mundo. Existe una lista actualizada de marcas comerciales de IBM en Internet en http://www.ibm.com/legal/copytrade.shtml. Adobe, el logotipo Adobe, PostScript y el logotipo PostScript son marcas registradas o marcas comerciales de Adobe Systems Incorporated en Estados Unidos y/o otros pases. Intel, el logotipo de Intel, Intel Inside, el logotipo de Intel Inside, Intel Centrino, el logotipo de Intel Centrino, Celeron, Intel Xeon, Intel SpeedStep, Itanium y Pentium son marcas comerciales o marcas registradas de Intel Corporation o sus filiales en Estados Unidos y otros pases. Java y todas las marcas comerciales y los logotipos basados en Java son marcas comerciales de Sun Microsystems, Inc. en Estados Unidos, otros pases o ambos. Linux es una marca registrada de Linus Torvalds en Estados Unidos, otros pases o ambos. Microsoft, Windows, Windows NT, y el logotipo de Windows son marcas comerciales de Microsoft Corporation en Estados Unidos, otros pases o ambos. UNIX es una marca registrada de The Open Group en Estados Unidos y otros pases. Este producto utiliza WinWrap Basic, Copyright 1993-2007, Polar Engineering and Consulting, http://www.winwrap.com.

43 Avisos

Otros productos y nombres de servicio pueden ser marcas comerciales de IBM u otras empresas. Capturas de pantalla de productos de Adobe reimpresas con permiso de Adobe Systems Incorporated. Capturas de pantalla de productos de Microsoft reimpresas con permiso de Microsoft Corporation.

Bibliografa
Bell, E. H. 1961. Social foundations of human behavior: Introduction to the study of sociology. Nueva York: Harper & Row. Blake, C. L., y C. J. Merz. 1998. "UCI Repository of machine learning databases." Available at http://www.ics.uci.edu/~mlearn/MLRepository.html. Breiman, L., y J. H. Friedman. 1985. Estimating optimal transformations for multiple regression and correlation. Journal of the American Statistical Association, 80, . Collett, D. 2003. Modelling survival data in medical research, 2 ed. Boca Raton: Chapman & Hall/CRC. Davison, A. C., y D. V. Hinkley. 2006. Bootstrap Methods and their Application. : Cambridge University Press. Green, P. E., y V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press. Green, P. E., y Y. Wind. 1973. Multiattribute decisions in marketing: A measurement approach. Hinsdale, Ill.: Dryden Press. Guttman, L. 1968. A general nonmetric technique for finding the smallest coordinate space for configurations of points. Psychometrika, 33, . Hartigan, J. A. 1975. Clustering algorithms. Nueva York: John Wiley and Sons. Hastie, T., y R. Tibshirani. 1990. Generalized additive models. Londres: Chapman and Hall. Kennedy, R., C. Riquier, y B. Sharp. 1996. Practical applications of correspondence analysis to categorical data in market research. Journal of Targeting, Measurement, and Analysis for Marketing, 5, . McCullagh, P., y J. A. Nelder. 1989. Modelos lineales generalizados, 2nd ed. Londres: Chapman & Hall. Price, R. H., y D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints as dimensions of social behavior. Journal of Personality and Social Psychology, 30, . Rickman, R., N. Mitchell, J. Dingman, y J. E. Dalen. 1974. Changes in serum cholesterol during the Stillman Diet. Journal of the American Medical Association, 228, . Rosenberg, S., y M. P. Kim. 1975. The method of sorting as a data-gathering procedure in multivariate research. Multivariate Behavioral Research, 10, . Shao, J., y D. Tu. 1995. The Jackknife and Bootstrap. Nueva York: Springer. Van der Ham, T., J. J. Meulman, D. C. Van Strien, y H. Van Engeland. 1997. Empirically based subgrouping of eating disorders in adolescents: A longitudinal perspective. British Journal of Psychiatry, 170, . Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (en neerlands). Leiden: Department of Data Theory, University of Leiden. Ware, J. H., D. W. Dockery, A. Spiro III, F. E. Speizer, y B. G. Ferris Jr.. 1984. Passive smoking, gas cooking, and respiratory health of children living in six cities. American Review of Respiratory Diseases, 129, .

Copyright IBM Corporation 1989, 2011.

44

ndice
archivos de ejemplo ubicacin, 31 avisos legales, 41 especificaciones de muestreo autodocimante en muestreo autodocimante, 14 estimaciones de los parmetros en muestreo autodocimante, 29 intervalo de confianza de mediana en muestreo autodocimante, 19 intervalo de confianza de proporcin en muestreo autodocimante, 1516 marcas registradas, 42 muestreo autodocimante, 3, 10 especificaciones de muestreo autodocimante, 14 estimaciones de los parmetros, 29 intervalo de confianza de mediana, 19 intervalo de confianza de proporcin, 1516 procedimientos admitidos, 5

45