Está en la página 1de 12

Guı́a Didáctica

Métodos Avanzados de Estadı́stica Aplicada

Alfonso Garcı́a Pérez

Universidad Nacional de Educación a Distancia


c
Copyright 2015 Alfonso Garcı́a Pérez

Fotografı́a de la Portada: 7 llaves de las antiguas 7 puertas de la ciudad. Museo de los Fueros.
Sepúlveda.

“No está permitida la reproducción total o parcial de este


libro, ni su tratamiento informático, ni la transmisión de
ninguna forma o por cualquier medio, ya sea electrónico,
mecánico, por fotocopia, por registro u otros medios, sin el
permiso previo y por escrito de los titulares del Copyright.
El contenido de este libro está registrado por el autor en el
Registro de la Propiedad Intelectual con el número 16/2005/2564
y protegido por la Ley, que establece penas de prisión además
de las correspondientes indemnizaciones para quien lo plagiara”

Edita: Universidad Nacional de Educación a Distancia


Capı́tulo 1

Guı́a Didáctica

1.1. Introducción
La presente Guı́a Didáctica es un documento que sirve de apoyo y referencia
al curso. En ella se incluye el Programa, las horas y formas de tutorı́as, las
instrucciones para instalar el software, orientaciones y sugerencias de cómo
organizar el estudio de los temas (Cronograma) y un Anexo con diez problemas
que servirán para evaluar al alumno.

1.2. Contenido
El Programa del curso es el siguiente

Métodos Clásicos:
1. Componentes Principales.
2. Análisis de Correspondencias.
3. Escalado Multidimensional.
4. Análisis de Conglomerados (clusters).
5. Análisis Discriminante.
6. Análisis Factorial.
7. Modelos Log-lineales.
8. Regresión Logı́stica.
9. Regresión Poisson.
10. Regresión no Lineal y Regresión Suavizada.
11. Análisis de la Varianza con Medidas Repetidas.
12. Series Temporales.
13. Control Estadı́stico de la Calidad.
14. Data Mining.

3
4 Alfonso Garcı́a Pérez

Métodos Robustos:
15. Introducción a los Métodos Robustos.
16. Estimación Puntual Robusta.
17. Intervalos y Tests Robustos para una población.
18. Intervalos y Tests Robustos para dos poblaciones.
19. Análisis de la Varianza Robusto.
20. Análisis de la Correlación y Estimación Multivariante Robustos.
21. Regresión Robusta.

Métodos de Remuestreo:
22. El Jackknife.
23. El Bootstrap. Aplicaciones a los Métodos anteriores.

Tratamiento Informático:
24. Tratamiento Informático de los Métodos anteriores con BMDP, SAS,
SPSS, S-PLUS y R.

1.3. Metodologı́a y Organización del curso


El alumno dispone, además de esta Guı́a Didáctica, de los textos:

• Métodos Avanzados de Estadı́stica Aplicada. Técnicas Avanza-


das,
• Métodos Avanzados de Estadı́stica Aplicada. Métodos Robustos
y de Remuestreo

dos textos en formato pdf

• Tratamiento Informático y
• Estadı́stica Avanzada Aplicada con SPSS,

los cuales puede imprimir si lo desea y que contienen enseñanzas de cómo


ejecutar los Métodos del Programa del curso, respectivamente, con R, S-PLUS,
BMDP y SAS, el primero de ellos y, con SPSS el segundo (si no ve bien algún
gráfico, sólo tiene que aumentar el zoom del mismo).
Además de los dos textos anteriores el alumno dispone de software (al que
hemos denominado Rmo ) con el que ejecutar todos los Métodos del Programa
del curso y datos, en el subdirectorio del mismo nombre, que se utilizan en
los dos textos impresos. En estos textos impresos se indica que los datos (por
ejemplo paises) se incorporan al software enviado ejecutando la instrucción

a:\\paises
Capı́tulo 1. Guı́a Didáctica 5

el alumno deberá direccionarlos. Por ejemplo, si los tiene en el dispositivo d:,


deberá teclear,

d:\\datos\\paises

El alumno también dispone de ficheros en BMDP, SAS y SPSS con los que
podrá realizar ejemplos con dichos paquetes estadı́sticos. Lógicamente no se
incluyen estos paquetes estadı́sticos por dos razones: una es su elevado precio
(puede que más de 20.000 euros) y otra, que con ellos básicamente sólo va a
poder ejecutar Métodos Clásicos, mientras que con el software que le hemos
enviado va a poder ejecutar todos los Métodos Estadı́sticos del Programa.

Durante la duración del curso, el alumno deberá ir estudiando el Material


Didáctico anterior y podrá realizar consultas sobre él.
Se ofrecerán unas sesiones presenciales voluntarias, al menos en Madrid,
en donde se enseñará a manejar los paquetes estadı́sticos antes mencionados.
Aunque ya os lo ofreceremos más adelante, si algunos alumnos quieren que
vayamos a su centro de trabajo a realizar estas prácticas, puede solicitarlo al
Equipo Docente y, si el número de alumnos de esa zona es suficientemente
grande, allı́ acudiremos.
Ası́ mismo, se impartirán conferencias invitadas sobre temas de actualidad
en Estadı́stica.
En la página Web del curso,

http://www.uned.es/experto-metodos-avanzados/

irán apareciendo las últimas novedades.

1.4. Recomendaciones sobre el estudio del curso.


Cronograma
Aunque la mayorı́a de los alumnos tendrá la suficiente experiencia co-
mo para organizarse ellos mismos el estudio del Material Didáctico, damos a
continuación una serie de recomendaciones:
El curso presupone una serie de conocimientos básicos de Estadı́stica. No
obstante, si necesita apoyo sobre ellos, no dude en utilizar la Atención al
alumno.
Partiendo de ese conocimiento básico sobre Estadı́stica, puede estudiar la
Unidad Didáctica dedicada a los Técnicas Avanzadas o la Unidad dedicada
a los Métodos Robustos y de Remuestreo, ya que la primera consiste en un
estudio de Métodos Estadı́sticos Clásicos avanzados, por lo que puede conside-
rarse una continuación natural de los conocimientos que el alumno ya posee,
6 Alfonso Garcı́a Pérez

y, por otro, la dedicada a los Métodos Robustos y de Remuestreo, a estudiar


métodos ya conocidos por el alumno, pero utilizando ahora técnicas insensi-
bles a la posible presencia de datos anómalos, por lo que puede considerarse,
también, una continuación natural de los conocimientos que ya posee. En con-
secuencia, puede comenzar por una u otra Unidad Didáctica, o simultanear,
si ası́ lo desea, ambas lı́neas de estudio.
Además, el uso del software enviado puede ayudar a una mejor comprensión
de tales temas, por lo que también es interesante iniciar, cuanto antes, el
estudio del texto de Tratamiento Informático.
No obstante si quiere unas indicaciones más precisas, le recomendamos
comenzar por el texto de Técnicas Avanzadas e ir resolviendo los tres primeros
ejercicios del Anexo de esta Guı́a Didáctica que servirán para calificarle. Los
puede enviar hacia Enero-Febrero, de manera que, una vez superada este fase,
comience con más tranquilidad con el estudio de los Métodos Robustos. De esta
manera, hacia el mes de Abril que serán las sesiones voluntarias en Madrid,
ya tendrá unos conocimientos bastante generales de la asignatura.

1.5. Instalación y ejecución del software Rmo


Aunque existen varias formas de instalar el software Rmo utilizado en el
curso, la idea básica consiste en, primero descomprimirlo y, luego, volcar (co-
piar y pegar) el contenido de la carpeta denominada r en el disco duro del
ordenador.
El software Rmo está basado en el paquete de libre distribución R (la direc-
ción de internet de donde poder obtener versiones actualizadas de él aparece
en la Unidad de Tratamiento Informático). El equipo docente del curso ha
reducido dicho paquete a la mı́nima expresión y ha incorporado, entre otros,
los programas de Robustez y Remuestreo, por lo que si el alumno baja de
la red la versión completa de R, no le funcionarán algunos de los programas
de robustez y remuestreo ası́ como las innovaciones de los Métodos Clásicos
incorporadas. Por tanto, si se baja el paquete R, lo razonable es que utilice dos
subdirectorios, uno para el software enviado y otro para la versión completa
de R.
Para ejecutar este software es necesario que primero lo copie en el disco
duro de su ordenador.
El fichero que ejecuta este Paquete estadı́stico es

c:\r\bin\Rgui

aunque, una vez instalado el software enviado en el disco duro del ordenador,
lo más interesante es crearse un Acceso directo a dicho software. Para ello, con
el Explorador de Windows vaya a
Capı́tulo 1. Guı́a Didáctica 7

c:\r\bin

y, posicionándose sobre el archivo Rgui, presione el botón derecho del ratón y


cree un Acceso Directo. Una vez creado dicho acceso directo (y con el Explo-
rador no maximizado), arrástrelo hasta el Escritorio.

A partir de aquı́ ya puede leer la Sección 1.1 del texto de Tratamiento In-
formático. No obstante, le adelantamos que ejecute como ejecute el programa,
para salir de él, deberá teclear

q()

desde la lı́nea de comandos de dicho programa. Cuando le pregunte si quiere


Salvar el espacio imagen (Save workspace image?) al contestar Sı́, conser-
vará los cálculos realizados hasta entonces.
En algunas ocasiones (especialmente en relación con la Regresión, aparece el
sı́mbolo de la parte superior de la ñ, el cual se corresponde con el sı́mbolo Ascii
número 126 y se obtiene, manteniendo presionada la tecla Alt, tecleando en el
bloque numérico el mencionado número 126 para soltar después la mencionada
tecla Alt, con lo que aparecer el sı́mbolo

Si duda en algún momento, utilice los cauces de las tutorı́as que aparecen
en el punto 7 de más abajo, para que contestemos a sus preguntas.

1.6. Profesorado

• Dr. D. Alfonso Garcı́a Pérez (Director del curso)


• Dr. D. Carlos Moreno González
• Da. Yolanda Cabrero Ortega
• Da. Emilia Carmena Yáñez
8 Alfonso Garcı́a Pérez

1.7. Atención al alumno


El alumno puede realizar consultas a

Alfonso Garcı́a Pérez


Departamento de Estadı́stica e I.O. (despacho 104)
Facultad de Ciencias. UNED.
Paseo Senda del Rey, no¯ 9
28040 - MADRID

teléfono: 91 398 72 51
fax: 91 398 66 97
e-mail: agar-per@ccia.uned.es
bien por teléfono, fax, e-mail, correo ordinario o de forma presencial (para esta
última modalidad, es imprescindible solicitarlo previamente).

1.8. Calificación
Para obtener una calificación positiva del curso, el alumno deberá enviar
resueltos los ejercicios del Anexo de la Guı́a Didáctica a Alfonso Garcı́a Pérez,
Departamento de Estadı́stica, Facultad de Ciencias, UNED, Paseo Senda del
Rey, 9. 28040-Madrid, antes del dı́a 15 de septiembre próximo.
Alternativamente, los puede enviar por e-mail a

agar-per@ccia.uned.es

Se ruega no duplicar el envı́o de los ejercicios enviándolos tanto por e-mail


y por correo postal.
Capı́tulo 2

ANEXO

Problema 1
Se clasificó a 177 personas casadas según su estatus de fumador, variable B,
con valores No Fumador, b1 , Poco Fumador, b2 (< 6 cigarrillos/dı́a), Fumador
Moderado, b3 (≥ 6 y < 15 cigarrillos/dı́a) y Gran Fumador, b4 (≥ 15 ciga-
rrillos/dı́a), y el de su pareja, variable A, con valores No Fumador, a1 , Poco
Fumador, a2 (< 6 cigarrillos/dı́a), Fumador Moderado, a3 (≥ 6 y < 15 cigarri-
llos/dı́a) y Gran Fumador, a4 (≥ 15 cigarrillos/dı́a). Los resultados aparecen
recogidos en la siguiente tabla:

Persona entrevistada (B)


Pareja (A) b1 b2 b3 b4
a1 42 18 4 0
a2 12 22 8 2
a3 18 6 10 6
a4 2 8 12 7

Contrastar primero mediante un test χ2 de independencia, si pueden o no


considerarse independientes ambas variables. Realizar después un Análisis de
Correspondencias entre ellas.

Problema 2
Se eligieron al azar 29 pacientes afectados de hipertensión a los que se
clasificó según fueran varones, A1 , o hembras, A2 , con objeto de investigar las
diferencias entre pacientes jóvenes B1 (de edad ≤ 45 años) y pacientes viejos
B2 (con edad > 45 años).
Los datos vienen recogidos en las siguientes tablas en donde los pacientes
fueron divididos según se vieran afectados de frecuentes depresiones, C2 , o no
se vieran afectados de frecuentes depresiones, C1

9
10 Alfonso Garcı́a Pérez

C1 B1 B2 Total C2 B1 B2 Total
A1 2 3 5 A1 11 1 12
A2 2 5 7 A2 4 1 5
Total 4 8 12 Total 15 2 17
Analizar, a un nivel de significación α = 0′ 05, la posible independencia de las
tres variables observadas: Sexo, Edad y Depresión, a partir de los datos
anteriores, mediante un modelo Log-Lineal.

Problema 3
Se desea realizar una Regresión no Lineal ajustando una función tipo sig-
moide a los siguientes pares de datos,

x 19 25 38 47 53 69
y 65 61 56 28 12 10
utilizando la correspondiente función de autoarranque. Determinar la función
sigmoide ajustada.

Problema 4
Se desea estudiar el número de hembras de la mosca tropical americana
(Dermatobia hominis) en una determinada región. Dicha mosca se caracteriza
por poner sus huevos en un mosquito, pasando las larvas de la mosca a la piel
de la persona cuya sangre ha chupado el mosquito.
Examinada la región en cuestión en 10 dı́as elegidos al azar, se obtuvo el
siguiente número de moscas hembra de la citada especie:

2, 1, 3, 5, 7, 2, 1, 2, 3, 2
Se pide:
a) Determinar la estimación clásica y cuatro estimaciones robustas del núme-
ro medio de moscas hembra en la región en estudio. ¿Con qué estimación
concluirı́a?
b) Determinar también la estimación clásica y cuatro estimaciones robustas de
la desviación tı́pica del número de moscas hembra en la citada región. ¿Con
qué estimación concluirı́a?

Problema 5
Los tiempos, en minutos, que esperaron, hasta que fueron atendidos en un
determinado banco, diez clientes elegidos al azar fueron los siguientes: 1′ 5, 2,
2′ 5, 3, 1, 5, 5′ 5, 4′ 5, 3, 3. Determinar un intervalo de confianza de coeficiente
de confianza 0′ 95, para la media 0′ 2-recortada del tiempo de espera y otro
Capı́tulo 2. ANEXO 11

intervalo, también de coeficiente de confianza 0′ 95 para el tiempo mediano de


espera.

Problema 6
Se quiere averiguar si, en promedio, existen diferencias significativas entre
los precios de dos restaurantes, A y B. Para ello se eligieron al azar 11 dı́as en
los que se anotó el precio del menú del dı́a en el restaurante A y otros 11 dı́as
en los que se anotó el precio del menú del dı́a en el restaurante B. Los datos
obtenidos fueron los siguientes:

A 1325 1500 995 1250 1290 1900 1500 1100 1250 1150 1900
B 1100 1400 1000 1300 1300 1700 1250 1200 1150 1200 1700

¿Puede afirmarse a partir de dichos datos que existen diferencias significa-


tivas entre ambos restaurantes a nivel α = 0′ 05?
a) Utilizando las diferencias de medias 0′ 2-recortadas muestrales.
b) Utilizando la generalización robusta del test de Wilcoxon-Mann-Whitney.

Problema 7
Se quiere averiguar si tres fertilizantes, A, B y C presentan diferencias
significativas en cuanto a sus efectos sobre el aumento de la cosecha.
Con este propósito se eligieron al azar 15 parcelas a las que se fertilizó alea-
toriamente con cada uno de los fertilizantes en cuestión. Los aumentos de
cosecha obtenidos fueron los siguientes:

Fertilizante Aumento de cosecha


A 39 33 39 35 32
B 36 40 35 30 29
C 33 33 36 26 35

A la vista de estos datos y recortando α = 0′ 1, ¿puede inferirse que existen


diferencias significativas entre los tres fertilizantes?
a) Utilizando la generalización robusta del test de Welch.
b) Utilizando la generalización robusta del test de Box.

Problema 8
Se cree que la duración del revestimiento de un estanque depende de la
cantidad de cal hidráulica que contiene. Para analizar esta relación se midió, en
siete revestimientos, el tiempo, Y , hasta la aparición de filtraciones, teniendo
cada uno de los revestimientos diferentes porcentajes de cal hidráulica, X. Los
resultados obtenidos fueron los siguientes:
12 Alfonso Garcı́a Pérez

X 4 10 80 45 25 60 90
Y 12 26 180 132 100 200 230

Se pide:
a) La recta de M -regresión óptima.
b) La recta de regresión media biponderada.
c) La recta de regresión winsorizada.

Problema 9
Para los datos del Problema 4 anterior, determinar la estimación jackknife
del sesgo de los estimadores del número medio de moscas hembra en la región
en estudio, corregir las estimaciones allı́ obtenidas obteniendo los estimadores
jackknife de sesgo reducido y concluir con una estimación robusta y con menor
sesgo del parámetro de localización en estudio.

Problema 10
Para los datos del Problema 5 anterior, utilizando la media 0′ 2-recortada
muestral, determinar, indicando la expresión R a ejecutar: a) el intervalo
bootstrap-t ideal, b) el intervalo bootstrap-t, c) el intervalo percentil y d)
el de sesgo-corregido y acelerado BCa , en todos los casos para un coeficiente
de confianza 0′ 95.

También podría gustarte