Está en la página 1de 34

CURSO DE

ESTADSTICA
Sociedad Espaola Sociedad Espaola de Bioqumica Clnica y Patologa Molecular (SEQC),
Calle Padilla 268, despacho 68, 08025-Barcelona, http://www.seqc.es
Abri l , 2008
Vol umen 2, Nmero 4
Gua de estudio. 5. Inferencia estadstica: (III)
correlacin y regresin; 1
Nombres propios: Abraham de Moivre (1667-
1754) 7
Test t de significacin del coeficiente de
regresin 8
Introduccin a : estadstica descriptiva (II)
13
Gua de estudio.
5. Inferencia estadstica: (III)
correlacin y regresin;
Introduccin
En esta nueva entrega se prosigue con el
desarrollo de la inferencia estadstica o
inferencia sobre una poblacin a partir de una
muestra aleatoria. Una vez aprendidos los
conceptos fundamentales (muestreo, estimacin
y teora de los tests), y el estudio concreto de los
tests de hiptesis estadstica para dos o ms
muestras que ayudarn a resolver problemas
generales y especficos del laboratorio clnico,
corresponde terminar la aplicacin del ANOVA en
los problemas de regresin.
Un captulo aparte y de notable relevancia es la
utilizacin de pruebas estadstica para contrastar
la forma de la distribucin. Muchos
procedimientos estadsticos estn diseados para
poblaciones (muestras, por tanto) que siguen
determinadas distribuciones. Muy especialmente
la distribucin normal o gaussiana. El aceptar la
hiptesis de normalidad permitir aprovechar la
generalmente superior potencia de los tests que
utilizan parmetros estadsticos sobre los tests
no paramtricos. stos, a su vez, tienen a su
favor la robustez de esquivar la exigencia de
normalidad.
Conocimientos previos
Estadstica descriptiva
Diagramas de probabilidad. Distribuciones de
probabilidad. Regresin y correlacin.
Conceptos bsicos en inferencia
estadstica
Conceptos de la teora de la probabilidad.
Variables aleatorias. Distribuciones ms
frecuentes: normal, binomial, ji cuadrado.
Varianza. Desviacin tpica. Error estndar.
Distribucin normal. Esperanza matemtica.
Distribucin de las medias muestrales en el
muestreo aleatorio. Desviacin tpica de la medias
muestrales. Ley de los grandes nmeros. Teorema
central del limite. Distribucin y esperanza de la
suma de cuadrados. Estimacin puntual y por
intervalo.
La hiptesis nula. Error de primera y segunda
especie. Potencia de un test estadstico. El valor p
del test. Conclusin con valores de p pequeos.
Conclusiones con valores de p grandes. Diferencia
entre "no rechazar" y "aceptar". Intervalos de
confianza.
Revisin de inferencia con una y dos medias: dos
medias de muestras no apareadas. Dos medias de
muestras apareadas.
Conceptos bsicos de regresin lineal
Covarianza. Coeficiente de correlacin. Regresin
lineal con una variable. Estimacin por mnimos
cuadrados. Particin de la suma de cuadrados.
Error estndar de la estimacin. El modelo
poblacional. Inferencia.
ANOVA de un criterio de clasificacin
(diseo completamente aleatorizado)
Suma total de cuadrados. Suma de cuadrados
dentro de los grupos. Suma de cuadrados entre
medias. Modelos equilibrados: grupos de igual
tamao. Suma de cuadrados entre medias.
Modelos no equilibrados: desigual tamao de
grupos. Razn de varianzas. Tablas de la
distribucin F. Asunciones en ANOVA. Test de
homogeneidad de varianzas y test de normalidad.
Potencia y clculo del nmero de individuos
necesario. Comparaciones mltiples a priori:
Vol. 2, nm. 4, Pg. 2
Curso de estadstica
particin de la suma de cuadrados entre medias.
ANOVAs parciales. Comparaciones entre bloques.
Contrastes ortogonales. Regresin lineal.
Regresiones de orden superior. Comparaciones
mltiples a posteriori: anlisis de pares de
muestras. Mtodo de Newman-Keuls. Test de
Bonferroni. Test de Dunnet. Test de Scheffe.
Test de Tukey.
Software para poder realizar cmodamente los
clculos
Objetivos
Los objetivos generales del estudio de la
inferencia estadstica son:
Alcanzar un nivel suficiente de
conocimientos bsicos sobre ANOVA aplicado
a la regresin;
Comprender intuitivamente los conceptos
elementales y, cuando sea posible y
aplicable, entender el rigor matemtico
aplicado;
Comprender las limitaciones del ANOVA
aplicado a la regresin basndose en anlisis
de las suposiciones requeridas para su
aplicacin;
Saber comunicar los resultados en forma
cuantitativa, clara y completa, a posibles
audiencias no especialmente versadas en
estadstica;
Una vez realizados ejemplos de forma
manual, adquirir la habilidad de manejar
programas informticos para ejecutar los
test de hiptesis
Destrezas a adquirir
De acuerdo con estos objetivos, al trmino de la
segunda parte del modulo 2 los participantes
debern haber adquirido la habilidad de
interpretar la necesidad y oportunidad de utilizar
el ANOVA en la regresin y la capacidad de
realizar los clculos apropiados en algn sistema
informtico.
(Recurdese que las tcnicas de regresin
robusta (por ejemplo, Passing-Bablok) se
reservan para el estudio de la comparacin de
mtodos, en el mdulo 3 del curso).
Gua de estudio
1. Inferencias sobre el modelo de
regresin: ANOVA de un criterio de
clasificacin (diseo completamente
aleatorizado)
Suma total de cuadrados. Suma de cuadrados
dentro de los grupos. Suma de cuadrados entre
medias. Modelos equilibrados: tamao de grupos
igual. Suma de cuadrados entre medias. Modelos
no equilibrados: tamaos de grupo desiguale.
Razn de varianzas. Tablas de la distribucin F.
Asunciones en ANOVA. Test de homogeneidad de
varianzas y test de normalidad. Potencia y clculo
del nmero de individuos necesario. Particin de
la suma de cuadrados entre medias. ANOVAs
parciales. Comparaciones entre bloques.
Contrastes ortogonales. Regresin lineal.
Regresiones de orden superior.
2. Inferencia sobre los parmetros de la
regresin
Inferencia sobre la pendiente. Inferencia sobre la
interceptacin de la ordenada. Inferencia sobre las
estimaciones.
3. Comparacin de lneas de regresin
Bibliografa:
La inferencia estadstica la regresin y la
correlacin suele estar suficientemente tratada en
cualquier manual de estadstica, por lo que no es
necesario disponer de textos demasiado
especficos. A continuacin se presenta una lista
bastante exhaustiva de libros que suelen
recomendarse como textos de cursos de
estadstica.
La lista se completa con una serie de referencias
URL (accedidas a 30 de Marzo de 2008) con textos
tanto tericos como de aplicacin con los
programas Excel, R y SPSS.
1. Textos
Armitage P, Berry G, Matthews JNS. Statistical
methods in medical research. 4 ed. Oxford:
Blackwell, 2001
Ato M, Losilla JM, Navarro B, Palmer A, Rodrigo
MF. Del contraste de hiptesis al modelado
estadstico. Tarrasa: CBS. 2000
Ato M, Losilla JM, Navarro B, Palmer A, Rodrigo
MF. Modelado estadstico. Libro de prcticas.
Tarrasa: CBS. 2000
Ato M, Losilla JM, Navarro B, Palmer A, Rodrigo
MF. Modelo Lineal Generalizado. Tarrasa: CBS,
2000
Bennett C, Franklin N. Statistical analysis in
chemistry and the chemical industry. New York:
John Wiley, 1954
Bernd ER. The practice of econometrics, classic
and contemporary. Reading, MA: Addison-Wesley,
1991
Billingsley P. Probability and measure, 3 ed. New
York: Wiley, 1995
Vol. 2, nm. 4, Pg. 3
Curso de estadstica
Borovkov AA. Probability Theory. Australia:
Gordon and Breach Science Publishers, 1998
Botella J, Len OF, San Martn R, Barriopedro MI.
Anlisis de datos en psicologa I. Teora y
ejercicios. Madrid: Pirmide, 2001
Box GEP, Hunter WG, Hunter JS. Statistics for
experimenters: An introduction to design, data
analysis, and model building. New York: Wiley,
1978.
Cao R, Francisco M, Naya S, Presedo MA, Vzquez
M, Vilar JA, Villar JM. Introduccin a la
estadstica y sus aplicaciones. Madrid: Pirmide.
2001
Ching Chun Li. Introduccin a la estadstica
experimental. Barcelona: Omega, 1977
Chou Y. Anlisis estadstico. Mxico:
Interamericana, 1977
Cochran WG, Cox GM. Diseos experimentales.
Mxico: Trillas, 1995
Cuadras CM., Echeverra B, Mateo J, Snchez P.
Fundamentos de estadstica. Aplicacin a las
ciencias humanas. Barcelona: PPU, 1984
Davidson R, MacKinnon J. Econometric theory
and methods, Oxford: Oxford University Press,
2004
Davies OL. The design and analysis of industrial
experiments. 2 ed. London: Longman,1978.
Martn Andrs A, Luna del Castillo JD.
Bioestadstica para las ciencias de la salud.
Madrid: Norma-Capitel, 2004.
Devore J. Probabilidad y estadstica para
ingeniera y ciencias, Thomson, 2001
Freedman D, Pisani R, Purves R, Adhikari A.
Estadstica. Barcelona: Antoni Bosch, 1993
Freund J, Miller I, Miller M. Estadstica
matemtica con aplicaciones, 6 ed. Mxico:
Prentice Hall, 2000
Glass GV, Stanley JC. Mtodos estadsticos
aplicados a las ciencias sociales. Mxico:
Prentice-Hall, 1974
Greene WH. Anlisis economtrico. 3 ed.,
Madrid: Pearson Educacin, 1999
Greenacre MJ. Estadstica aplicada a les cincies
socials i humanes. Barcelona: Edicions de la
Universitat Oberta de Catalunya, 1998
Gujarati DN. Econometra. 4 ed., Mxico:
McGraw-Hill, 2003
Hayashi F. Econometrics, Princeton: Princeton
University Press, 2000
Hendry DF. Econometrics: Alchemy of science? 2
ed. Oxford: Oxford University Press, 2001
Hines WW, Montgomery DC. Probabilidad y
estadstica para la ingeniera y administracin. 3
ed, Mxico: CECSA, 1997
Kennedy P. Introduccin a la econometra.
Madrid: Fondo de cultura econmica, 2001
Kmenta J. Elementos de econometra.
Barcelona: Vicens-Vives, 2000
Lancaster T. An Introduction to modern bayesian
econometrics. Oxford: Blackwell, 2004
Martn Moraleja JC. Informtica aplicada a les
cincies humanes i socials. Barcelona: Edicions
Universitat Oberta de Catalunya, 1998
Losilla JM, Navarro JB, Palmer A, Rodrigo MF, Ato
M. Del contraste de hiptesis al modelado
estadstico. Girona: Documenta Universitaria, 2005
Martn Pliego FJ, Ruz Maya L. Estadstica I:
Probabilidad, Madrid: AC, 1995
McRae S. Modelos y mtodos para las ciencias del
comportamiento. Barcelona: Ariel Psicologa, 1995
Montgomery D, Runger G. Probabilidad y
estadstica aplicadas a la ingeniera, Mxico: Mc
Graw Hill, 1998
Pea D. Estadstica, modelos y mtodos:
1.Fundamentos. Madrid: Alianza Universidad
Textos, 1991
Pea D. Estadstica, modelos y mtodos: 2.Modelos
lineales y series temporales. Madrid: Alianza
Universidad Textos, 1992
Pea D. Fundamentos de Estadstica. Madrid:
Alianza Editorial, 2001
Pea D. Regresin y diseo de experimentos.
Madrid: Alianza Editorial, 2002
Pindyck R, Rubinfeld D. Econometra: modelos y
pronsticos. 4! ed., Madrid: McGraw-Hill, 2001
Rao CR. Estadstica y verdad. Barcelona: PPU, 1994
Ros S. Mtodos estadsticos. Madrid: Ediciones del
Castillo, 1977
Salvatore D, Reagle D. Estadstica y econometra.
2 ed., Madrid: McGraw-Hill, 2004
San Martn R, Pardo A. Psicoestadstica. Contrastes
paramtricos y no paramtricos. Madrid: Pirmide,
1989
Siegel S. Estadstica no paramtrica. 3 ed.,
Mxico: Trillas, 1990
Snedecor GW, Cochran WG. Mtodos estadsticos.
Mxico: CECSA, 1982
Vlez R, Garca A. Principios de inferencia
estadstica. Madrid: UNED, 1993
Visauta B, Batall P. Mtodos estadsticos
aplicados. Vol. 2: Estadstica inferencial.
Barcelona: PPU, 1986
Walpole R, Myers R, Myers S.Probabilidad y
estadstica para ingenieros. 6 ed.,Mxico:
Prentice Hall, 1998
Winer BJ, Brown DR, Michels KM. Statistical
principles in experimental design. 3 ed. New
York: McGraw Hill, 1991
Wooldridge JM. Introduccin a la Econometra. Un
enfoque moderno. Madrid: Thomson, 2002
2. Problemas
Calvo F, Sarramona J. Ejercicios de estadstica
aplicados a las ciencias sociales. Barcelona: CEAC,
1983
Calvo F. Estadstica aplicada. Bilbao: Deusto,1989
Cuadras CM. Problemas de probabilidades y
estadstica. Vol. 2. Inferencia estadstica. 2 ed.,
Barcelona: EUB, 2000
Vol. 2, nm. 4, Pg. 4
Curso de estadstica
Cuadras CM, Snchez P, Ocaa J, Alonso G.
Ejercicios de bioestadstica. Barcelona: PPU,
1989
Das C, Selva J. Anlisis de datos en psicologa I.
Valencia: Albatros, 1995
Fernndez Daz MJ, Garca Ramos JM, Asensio
MuozI, Fuentes Vicente A. 225 problemas de
Estadstica aplicada a la Ciencias Sociales.
Madrid: Sntesis, 1990
Mateo Rivas JM. Estadstica en investigacin
social. Ejercicios resueltos. Madrid: Paraninfo,
1990
Prez Lpez C. Estadstica. Problemas resueltos y
aplicaciones. Madrid: Pearson-Prentice Hall,
2003
3. Internet
http://www.fileden.com/files/2007/2/27/82777
9/UaaLae/FmlRLS.pdf
http://www.edustatspr.com/Materiales/Stats_te
xt/Analisis_Regresion.pdf
http://www.cienciaredcreativa.org/guias/regres
ion.pdf
http://fce.ufm.edu/Catedraticos/jhcole/regresi
on.htm
http://metodos.upct.es/Asignaturas/Diplomatur
a/Introduccion_estadistica/2007_2008/material_
didactico/apuntes/TEMA4REGRESIONYCORRELACI
ON.pdf
http://www2.uca.es/serv/ai/formacion/spss/Pa
ntalla/18reglin.pdf
http://www.law.uchicago.edu/Lawecon/WkngPp
rs_01-25/20.Sykes.Regression.pdf
http://www.med.umich.edu/csp/Course%20mat
erials/Summer%202005/Hayward_Approach%20to
%20linear%20Regression.pdf
http://mitpress.mit.edu/books/chapters/026218
253Xchap2.pdf
4. Informtica: SPSS
Filgueira Lpez E. Anlisis de datos con SPSS
WIN. Madrid: Alianza Editorial, 2001
http://www1.uni-
hamburg.de/RRZ/Software/SPSS/Algorith.115/re
gression.pdf
http://www.sscnet.ucla.edu/labs/SPSS13/SPSSR
egressionModels13.0.pdf
http://www.ats.ucla.edu/stat/spss/webbooks/reg
/default.htm
http://www.jeremymiles.co.uk/regressionbook/ex
tras/appendix2/spss9.0/index.html
http://www.indstate.edu/oit/cirt/research/statso
ftware/spss13_regression.pdf
http://academic.udayton.edu/gregelvers/psy216/
SPSS/reg.htm
5. Informtica: R
Fox J. An R and S-Plus Companion to Applied
Regression. Thousand Oaks, CA: Sage
Publications, 2002
http://cran.r-project.org/doc/contrib/Faraway-
PRA.pdf
http://www.agr.kuleuven.ac.be/vakken/statistics
byR/SDVbyR/ijseregres.htm
http://www.jeremymiles.co.uk/regressionbook/ex
tras/appendix2/R/
http://129.3.20.41/eps/em/papers/0508/0508016
.pdf
http://www.apsnet.org/education/advancedplant
path/topics/RModules/doc1/04_Linear_regression.
html
http://astrostatistics.psu.edu/datasets/2006tutori
al/2006reg.html
6. Informtica: Excel
P Carey, Berk KN. Data Analysis with Microsoft
Excel: Updated for Office XP. Pacific Grove, CA:
Brooks/Cole, 2003
http://www.jeremymiles.co.uk/regressionbook/ex
tras/appendix2/excel/
http://phoenix.phys.clemson.edu/tutorials/excel/
regression.html
http://cameron.econ.ucdavis.edu/excel/exregfn.
html
http://www.ncsu.edu/labwrite/res/gt/gt-reg-
home.html
http://www.cba.nau.edu/allen-
d/Excel%20Regression%20Tutorial/excel_regression
_tutorial.htm
http://archives.math.utk.edu/ICTCM/VOL13/C013
/paper.html
Vol. 2, nm. 4, Pg. 5
Curso de estadstica
7. Applets
http://www.stat.sc.edu/~west/javahtml/Regres
sion.html
http://www.stattucino.com/berrie/dsl/regressio
n/regression.html
http://www.math.csusb.edu/faculty/stanton/m
262/regress/regress.html
http://bcs.whfreeman.com/ips4e/cat_010/apple
ts/CorrelationRegression.html
http://www.stat.wvu.edu/SRS/Modules/Applets
/Regression/regression.html
Vol. 2, nm. 4, Pg. 6
Curso de estadstica
ANALISIS DATOS CUALITATIVOS ejercicios resueltos
MODULO 1
MODULO 3
MODULO 2
MODULO 4
REGRESION Y CORRELACION presentacin
PRESENTACIONES ANOVA presentacin
TAMAO MUESTRAL presentacin
ESTADISTICA NO PARAMETRICA presentacin
INFERENCIA presentacin
MUESTREO presentacin
SPSS SPSS
SPSS INFERENCIA
SPSS ANOVA
ANOVA
ANALISIS DATOS CUALITATIVOS ANALISIS DATOS CUALITATIVOS notas
ANOVA notas
BONDAD DE AJUSTE BONDAD DE AJUSTE notas
CONTRASTES VARIABLES
CUANTITATIVAS
CONTRASTES VAR CUANTITATIVAS ejercicios
CONTRASTES VAR CUANTITATIVAS notas
ESTADISTICA INFERENCIAL ESTADISTICA INFERENCIAL ejercicios propuestos
ESTADISTICA INFERENCIAL ejercicios resueltos
ESTADISTICA INFERENCIAL notas
ESTADISTICA ROBUSTA ESTADISTICA ROBUSTA notas
MUESTREO MUESTREO BIBLIOGRAFIA
TAMAO MUESTRAL TAMAO MUESTRAL ejercicios propuestos
TAMAO MUESTRAL notas
TAMAO MUESTRAL ejercicios resueltos
Vol. 2, nm. 4, Pg. 7
Curso de estadstica
Nombres propios:
Abraham de Moivre
(1667-1754)
Matemtico ingls de origen francs, de Moivre
es conocido por la frmula que lleva su nombre y
que conecta la trigonometra y los nmeros
complejos
1
, publicada en 1722 pero presentada
en 1707, y por su trabajo en probabilidad,
especialmente sobre la distribucin normal.
Hijo de un cirujano protestante y de modestos
recursos econmicos, naci en Vitry-le-Franois,
en la regin francesa de Champagne, a medio
camino entre Pars y Nancy. Estudi
primeramente en la escuela catlica de su villa
natal y desde 1678 a 1682 en la escuela
protestante de Sedan, que por esta poca se
haba convertido en una ciudad refugio para
protestantes franceses. Posteriormente, cuando
fue cerrada la escuela a causa de las tensiones
religiosas, estudi lgica en Saumur los dos aos
siguientes Sin que formara parte del programa de
estudios, de Moivre lea textos de matemticas
en sus horas libres, especialmente el tratado De
ratiociniis in ludo aleae sobre juegos de azar de
Huygens. En 1684, al trasladarse la familia a
Pars, asisti al Collge de Harcourt, donde se
form en fsica y por primera vez, formalmente,
en matemticas, a travs de estudios privados
con Jacques Ozanam, matemtico francs autor
entre otras obras de unas celebradas tablas
trigonomtricas y de logaritmos. Sin embargo, no
hay pruebas de que De Moivre haya obtenido un
ttulo acadmico.

1
( ) cos sen cos sen
n
n i n + = +
Luis XIV revoc en 1685 el edicto de Nantes por
el que Enrique IV haba concedido en 1598 la
libertad de culto a los calvinistas franceses en un
pas esencialmente catlico. A los 18 aos, De
Moivre fue encarcelado y algn tiempo despus
se traslad a Inglaterra, donde pas el resto de
su vida. A su llegada a Londres era un
competente matemtico, buen conocedor de los
libros de texto de la poca.
En Londres subsisti precariamente dando
lecciones de matemticas y jugando al ajedrez
en tabernas como el Slaughter's Coffee House, de
Sant Martins Lane, puesto que su condicin de
extranjero le impidi acceder a una ctedra de
matemticas en Cambridge. Se relacion con los
grandes cientficos de su tiempo como Isaac
Newton (1643-1727), Johann Bernouilli (1667-
1748), Edmond Halley (1656-1742) o Gottfried
Leibniz (1646-1716). Todos ellos intentaron
infructuosamente conseguir una ctedra para De
Moivre.
Profundamente impresionado por los Principia de
Isaac Newton, se cuenta que desencuadern una
copia para poder transportar cmodamente una
cuantas pginas mientras se desplazaba para dar
clases particulares al domicilio de sus alumnos.
De hecho, su primera publicacin refleja sus
estudios sobre el mtodo de las fluxiones de
los Principia (1695), presentado por su amigo
Edmund Halley, entonces secretario de la Royal
Society, Paralelamente, Newton tena en alta
consideracin sus conocimientos que consideraba
superiores a los suyos. En 1697 fue elegido
miembro de la Royal Society. La amistad con
Newton le vali en 1710 ser nombrado miembro
de la Comisin que la Royal Society estableci
para intermediar en la disputa abierta entre
Newton y Leibniz sobre la autora del
descubrimiento del clculo infinitesimal, a pesar
de no tener ningn cargo acadmico.
Por sugerencia de Francis Robartes, Earl of
Radnor, en 1711 present y public en latn en
las Philosophical Transactions sus trabajos sobre
probabilidad, que aparecieron posteriormente
como libro, The Doctrine of chance: a method of
calculating the probabilities of events in play
(1718). La motivacin e inspiracin de esta obra
hay que buscarla en Essay d'analyse sur les jeux
de hazard (1708) de Pierre Rmond de Montmort
(1678-1719) y en la mencionada anteriormente
obra de Huygens que haba ledo en su juventud.
La similitud de los problemas tratados en los
textos de De Moivre y Monmort origin tambin
una disputa pero que al parecer se sald
amistosamente. La edicin de 1756 recoge un
artculo previo (de 1733) con la principal
contribucin de De Moivre a esta rea: la
aproximacin de la distribucin binomial a la
distribucin normal para un nmero grande de
experimentos, en un intento de profundizar la
Vol. 2, nm. 4, Pg. 8
Curso de estadstica
ley de los grandes nmeros de Jacob Bernouilli
(1654-1705). Es la primera vez que aparece la
integral de la probabilidad normal, insinundose,
aunque sin llegar a nombrarla, la desviacin
tpica. En 1733 De Moivre haba utilizado la
denominada frmula de James Stirling (1692-
1770), con quien mantuvo larga correspondencia,
para aproximar la curva normal a partir de la
binomial
2
.
De Moivre tambin investig en el mbito de la
estadstica vital, quizs por influencia de su
amigo Halley. En 1924 public Annuities on lives
basada en gran parte en los datos de Haley y de
trascendencia en el mbito de los seguros de
vida.
El historiador Isaac Todhunter (1820-1884) afirm
que la teora de probabilidad deba ms a De
Moivre que a ningn otro matemtico, quizs con
la excepcin de Laplace
3
.
Se cuenta que, al igual que Girolamo Cardano,
predijo con exactitud la fecha de su muerte el 27
de Noviembre de 1754, aunque su prediccin no
era obra de videncia sino a travs del clculo de
la progresin aritmtica del tiempo que
prolongaba su sueo cada da. Tras ver
desaparecer a todos sus colegas cientficos,
Abraham de Moivre muri pobre, ciego,
desilusionado y sin el reconocimiento de la
comunidad cientfica. Fue enterrado en la iglesia
de Saint Martin in the Fields.

2
Miscellanea Analytica (1730)
3
A history of the mathematical theory of probability
(London, 1865)
Test t de significacin del
coeficiente de regresin
Objetivo
Comprobar la significacin del coeficiente de
regresin de Y sobre X .
Limitaciones
La variable Y posee una distribucin normal
para cada valor x .
La varianza de los valores de Y es constante
para todos los valores x
Hiptesis
Las hiptesis nulas y alternativas son:
0
1
: 0
: 0
H b
H b
=

Sea una muestra de tamao n de valores


( ) ( ) ( ) { } 1 1 2 2
, , , , , ,
n n
x y x y x y
Y sea el modelo de regresin lineal
y a b x = +
El coeficiente de regresin, la pendiente, se
estima como:
1 1 1
2
2
1 1
1
1
n n n
i i i i
i i i
n n
i i
i i
x y x y
n
b
x x
n
= = =
= =

=
| |

|
\ .


La varianza de los valores de X es:
( )
2
1 2
1
n
i
i
x
x x
s
n
=

=

donde:
1
n
i
i
x
x
n
=
=

La varianza de los valores de y alrededor de la
recta de regresin (varianza de la regresin es:
( ) ( )
2
1 2
2
n
i i
i
y x
y y b x x
s
n
=

=

i
donde
1
n
i
i
y
y
n
=
=

Vol. 2, nm. 4, Pg. 9
Curso de estadstica
Estadstico
El estadstico a calcular es,
1
x
y x
b s
t
s
n
=

i
Este estadstico seguir una distribucin t de
Student con ( ) 2 n grados de libertad.
Decisin: nivel de significacin
El test es bidireccional porque b tanto puede
ser positivo como negativa.
Si el valor de t es superior al valor crtico
( )
2 n
t

se rechaza la hiptesis nula con una


probabilidad .
Ejemplo
Se ha medido la concentracin cataltica de GGT
en una muestra de 25 n= individuos sanos de
diferente edad. Los resultados
4
son los
siguientes:
Edad GGT
15 50,4
24 63,6
12 66,6
22 64,6
17 52,7
21 61,3
19 49,2
13 68,7
15 52,1
13 58,8
16 63,8
9 58,8
21 60,3
25 53,2
19 54,8
22 66,5
15 53,2
14 56,8
13 57,0
25 69,3
26 56,5
21 63,8
25 54,2
14 74,2
27 53,0
El estadstico t se calcula a partir de los
siguientes clculos:

4
Datos simulados.
Edad GGT
1
463
n
i
i
x
=
=

1
1483, 2
n
i
i
y
=
=

2
1
9213
n
i
i
x
=
=

2
1
89053, 25
n
i
i
y
=
=

1
27405, 60
n
i i
i
x y
=
=

0, 098 b =
59, 3 x = 18, 5 y =
var( ) 44, 284 X = var( ) 26, 593 Y =
2
45, 94
y x
s

=
0, 365 t =
Valor crtico ( )
23
0, 025 2, 069 t =
Conclusin: no se rechaza la hiptesis nula
Estos clculos, en MS Excel, son:
Vol. 2, nm. 4, Pg. 10
Curso de estadstica
n Y X y
2
x
2
residual
GGT edad
GGT x
edad
(GGT-
media)
2
(edad-
media)
2
1 50,4 15 2536,81245 225 756 80,27 12,39 86,57
2 63,6 24 4041,65604 576 1526 18,04 30,03 22,89
3 66,6 12 4436,63825 144 799 53,02 42,51 44,13
4 64,6 22 4166,79747 484 1420 27,29 12,11 30,97
5 52,7 17 2776,57844 289 896 44,00 2,31 46,00
6 61,3 21 3752,40563 441 1286 3,73 6,15 4,72
7 49,2 19 2420,61425 361 935 102,55 0,23 101,60
8 68,7 13 4719,01091 169 893 87,77 30,47 77,94
9 52,1 15 2713,61055 225 781 52,33 12,39 57,44
10 58,8 13 3451,9479 169 764 0,33 30,47 1,24
11 63,8 16 4067,24197 256 1020 19,79 6,35 17,65
12 58,8 9 3455,59104 81 529 0,29 90,63 2,17
13 60,3 21 3632,2069 441 1266 0,89 6,15 1,40
14 53,2 25 2827,51714 625 1329 37,85 41,99 30,44
15 54,8 19 3005,32434 361 1042 20,30 0,23 19,88
16 66,5 22 4419,6474 484 1463 51,18 12,11 56,17
17 53,2 15 2830,89283 225 798 37,46 12,39 41,80
18 56,8 14 3228,19368 196 795 6,30 20,43 8,71
19 57,0 13 3254,58068 169 742 5,19 30,47 7,94
20 69,3 25 4798,71897 625 1732 98,93 41,99 111,96
21 56,5 26 3191,64058 676 1469 8,02 55,95 4,41
22 63,8 21 4074,31676 441 1340 20,29 6,15 22,53
23 54,2 25 2941,49948 625 1356 25,92 41,99 19,86
24 74,2 14 5503,33924 196 1039 220,76 20,43 207,81
25 53,0 27 2806,46972 729 1430 40,33 71,91 30,47
n-2 23
n-1 24 24
suma 1483,2 463 89053,2526 9213 27405,60 1062,82 638,24 1056,70
media 59,3 18,5 45,94
var 44,284 26,593 44,284 26,593
media
2
342,990 8870,01
686702,652 -62,5057608
27468,1061 638,24
-62,506 8870
638,24 343,0
b -0,09793457 1,38358474
t -0,36501999
Y utilizando la opcin , y en la ventana que se abre:
la opcin regresin, se obtendrn los siguientes resultados, en os que se destaca los valores obtenidos
manualmente
Vol. 2, nm. 4, Pg. 11
Curso de estadstica
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,07589
Coeficiente de determinacin R
2
0,00576
R
2
ajustado -0,03747
Error tpico 6,77815
Observaciones 25
ANLISIS DE VARIANZA
Grados de
libertad
Suma de
cuadrados
Promedio de los cuadrados F Valor crtico de F
Regresin 1 6,1215 6,1215 0,1332 0,7184
Residuos 23 1056,6973 45,9434
Total 24 1062,8188
Coefi-
cientes
Error
tpico
Estadstico
t
Probabi-
lidad
Inferior
95%
Superior
95%
Inferior
5,0%
Superior
95,0%
Intercepcin 61,1401 5,1505 11,8707 0,0000 50,4855 71,7947 50,4855 71,7947
Edad -0,0979 0,2683 -0,3650 0,7184 -0,6530 0,4571 -0,6530 0,4571
Anlisis de los residuales Resultados de datos de probabilidad
Observacin Pronstico Peso Residuos Residuos estndares Percentil Peso
1 59,6711 -9,3043 -1,4022 2 49,1997
2 58,7897 4,7843 0,7210 6 50,3668
3 59,9649 6,6432 1,0012 10 52,0923
4 58,9856 5,5652 0,8387 14 52,6932
5 59,4752 -6,7820 -1,0221 18 52,9761
6 59,0835 2,1734 0,3275 22 53,1744
7 59,2794 -10,0796 -1,5191 26 53,2061
8 59,8670 8,8281 1,3304 30 54,2356
9 59,6711 -7,5788 -1,1422 34 54,8208
10 59,8670 -1,1137 -0,1678 38 56,4946
11 59,5732 4,2018 0,6332 42 56,8172
12 60,2587 -1,4744 -0,2222 46 57,0489
13 59,0835 1,1843 0,1785 50 58,7533
14 58,6917 -5,5173 -0,8315 54 58,7843
15 59,2794 -4,4585 -0,6719 58 60,2678
16 58,9856 7,4949 1,1295 62 61,2569
17 59,6711 -6,4650 -0,9743 66 63,5740
18 59,7690 -2,9518 -0,4449 70 63,7749
19 59,8670 -2,8180 -0,4247 74 63,8304
20 58,6917 10,5810 1,5946 78 64,5507
21 58,5938 -2,0992 -0,3164 82 66,4804
22 59,0835 4,7469 0,7154 86 66,6081
23 58,6917 -4,4562 -0,6716 90 68,6951
24 59,7690 14,4155 2,1725 94 69,2728
25 58,4959 -5,5198 -0,8319 98 74,1845
Vol. 2, nm. 4, Pg. 12
Curso de estadstica
Tabla de la distribucin t de Student
Tabla de las reas y valores ( ) 1 t t

= , donde, ( ) Pr 1 T t = , con T distribuida segn la ley con


grados de libertad.
t

0,25 0,20 0,15 0,10 0,05 0,025 0,01 0,005
1 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657
2 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604
5 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032
6 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707
7 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499
8 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355
9 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250
10 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169
11 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106
12 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055
13 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012
14 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977
15 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947
16 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921
17 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898
18 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878
19 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861
20 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845
21 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831
22 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819
23 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807
24 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797
25 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787
26 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779
27 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771
28 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763
29 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756
30 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750
40 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704
60 0,679 0,848 1,046 1,296 1,671 2,000 2,390 2,660
120 0,677 0,845 1,041 1,289 1,658 1,980 2,358 2,617
0,674 0,842 1,036 1,282 1,645 1,960 2,326 2,576
Vol. 2, nm. 4, Pg. 13
Curso de estadstica
Introduccin a : estadstica descriptiva (II)
1. Introduccin
R tiene una notable potencia grfica. Para ver una muestra de estas posibilidades, haciendo
se inicia una breve muestra de diferentes diagramas
Al contrario de las operaciones de clculo en las que R asigna los resultados a unos objetos, cuando se
realizan grficos el resultado es desviado a un dispositivo grfico (ventana o fichero), con la excepcin de
las funciones que generan histogramas y diagramas de barras, que generan tambin resultados numricos.
1.1. Funciones grficas de alto nivel
Las funciones grficas de alto nivel son aquellas que crean un diagrama.
Los principales diagramas descriptivos unidimensionales son:
barplot(x)
0
10
20
30
40
50
Diagrama de barras de los valores de x
boxplot(x)
25
30
35
40
45
50
55Diagrama de cajas (box-and-whiskers)
dotchart(x)
30 35 40 45 50
Si x es un marco de datos, hace un diagrama de puntos tipo Cleveland
(grficos apilados fila por fila y columna por columna)
hist(x)
Histogram of ALT
ALT
F
requency
25 30 35 40 45 50 55 60
0
50
100
150
200
250
300
350
Histograma de las frecuencias de x
pie(x)
25
30
35
40
45
50 55
Diagrama de sectores circulares (diagrama de pastel)
plot(x)
0 20 40 60 80 100
30
35
40
45
50
Index
A
LT[1:100]
Diagrama de los valores de x (en el eje y) ordenados en el eje x
qqnorm(x)
-3 -2 -1 0 1 2 3
25
30
35
40
45
50
55
Normal Q-Q Plot
Theoretical Quantiles
S
am
ple Q
uantiles
Diagrama de probabilidad normal: cuantiles de x con respecto a los
esperados en una distribucin normal
stem(x) Diagrama de tallo y hojas
Vol. 2, nm. 4, Pg. 14
Curso de estadstica
stripchart(x)
30
35
40
45
50Diagrama de los valores de x alineados (alternativa a boxplot() para
tamaos de muestra pequeos)
1.2. Funciones grficas de bajo nivel
Son aquellas funciones que agregan elementos a una grfica existente.
(a) agregacin de elementos puntuales
points(x,y)
agrega un punto en (x,y) (se puede usar la opcin type=)
(b) agregacin de lneas
abline(a,b)
dibuja una lnea con pendiente b e interceptacin a
abline(h=y)
dibuja una lnea horizontal en la ordenada y
abline(v=x)
dibuja una lnea vertical en la abscisa x
abline(lm.obj)
dibuja la lnea de regresin lm.obj
arrows (x0,y0,x1,y1,
angle=30,
code=2)
igual que axis pero con flechas desde (x0,y0) si code=2, al punto
(x1,y1) si code=1, o en ambos si code=3; angle controla el
ngulo desde la base de la flecha hasta la punta de la misma
axis(side,vect)
agrega un eje en la parte inferior (side=1), izquierda (2), superior (3),
o derecha (4); vect (opcional) da la abscisa (u ordenada) donde se
dibujarn las marcas (tick marks) del eje
lines(x,y) agrega una lnea
segments(x0,y0,x1,y1)
agrega una lnea desde el punto (x0,y0) hasta el punto (x1,y1)
(c) Agregacin de polgonos
polygon(x,y)
dibuja un polgono uniendo los puntos dados por x e y
rect(x1,y1,x2,y2) agrega un rectngulo donde las esquinas izquierda, derecha, superior e
inferior estn dadas por x1, x2, y1, e y2, respectivamente
(d) Agregacin de texto
legend(x,y,legend)
agrega la leyenda en el punto (x,y) con smbolos dados por legend
mtext (leyenda,
side=3,
line=0,
...)
agrega texto leyenda en el margen especificado por side (ver
axis()); line especifica la lnea del rea del grfico
rug(x)
dibuja los datos x en el eje x como pequeas lneas verticales
text (x,y,
leyenda,
...)
agrega el texto leyenda en las coordenadas (x,y)
Por ejemplo: plot(x,y,type="n"); text(x,y,names)
title() agrega un ttulo y opcionalmente un subttulo
(e) Otras funciones
identify(x,...)
similar a locator() con la diferencia que imprime el valor de x (u
opcionalmente de una leyenda especificada en la opcin labels=) ms
cercano al punto donde se hizo click. Resulta til para identificar en la
grfica puntos asociados con nombres
locator(n,type="n",...)
proporciona las coordenadas (x,y) despus de pulsar en el grfico con el
ratn n veces; tambin dibuja smbolos (type="p") o lneas (type="l")
con respecto a parmetros grficos opcionales (...); por defecto no se
dibuja nada (type="n")
Vol. 2, nm. 4, Pg. 15
Curso de estadstica
2. Grficos unidimensionales
2.1. Diagrama de tallo y hojas
El diagrama de tallo y hojas, propuesto por Tukey
5
., se utiliza al recoger informacin cuando se desea ver
la distribucin de forma rpida y grosera. Es un diagrama fcil de realizar manualmente a pesar de no ser
apto para la presentacin definitiva de informacin. Indica:
(a) El centro de la distribucin.
(b) La forma general de la distribucin: simtrica, si las porciones a cada lado del centro son imgenes
espejos de las otras; sesgada a la izquierda, si la cola izquierda (los valores menores) es mucho ms
larga que los de la derecha (los valores mayores) o sesgada a la derecha, en caso contrario.
(c) Desviaciones marcadas de la forma global de la distribucin: datos extremos, observaciones
individuales que caen muy por fuera del patrn general de los datos; datos ausentes, agujeros en la
distribucin.
Presenta la ventaja de que es muy fcil de realizar, incluso manualmente. Pero como desventajas resulta
tosco y provisional, es apropiado slo para un moderado nmero de observaciones, y resulta inadecuado
para comparar diferentes poblaciones.
En R la funcin stem(x) produce un diagrama de tallos y hojas de los valores de x:
stem (x,
scale=1,
width=80,
atom=1e-08)
Argumentos:
atom Argumento numrico: tolerancia
scale Argumento numrico para controlar la longitud del diagrama y que puede usarse para
expandir la escala del diagrama: un valor de escala 2 expandir el diagrama por defecto al
doble
x Argumento numrico: vector
width Argumento numrico: anchura deseada del diagrama
Ejemplo
Se han recogido 1000 resultados de determinar la concentracin cataltica de ALT en plasma. En el
subconjunto de las 100 primeras observaciones:
el resumen descriptivo de este subconjunto es:
El diagrama de tallo y hojas es:

5
Tukey JW. Exploratory data analysis. Reading, MA: Addison-Wesley, 1977
Vol. 2, nm. 4, Pg. 16
Curso de estadstica
que se interpreta como: las observaciones ms bajas son: 26,1 , 26,7 , 28,8 y 29,1 U/L....
Si se desea considerar, por ejemplo, solamente las decenas, se debe reconsiderar la opcin scale=0.5 en
lugar de 1, el valor por defecto.
que se interpreta como: las observaciones ms bajas son: 26, 28, y dos de 29 U/L....
Si en este mismo diagrama se desea reducir la longitud de las hojas se reduce la dimensin width.
Fijndola a 30 en lugar del valor por defecto queda as:
Por ltimo, alterando la tolerancia en la ubicacin a grupos (opcin atom) se obtiene este aspecto:
2.2. Grfico de dispersin
La funcin plot() representa un diagrama de dispersin de los datos:
produce el siguiente diagrama:
Vol. 2, nm. 4, Pg. 17
Curso de estadstica
0 50 100 150 200
3
0
3
5
4
0
4
5
5
0
Index
A
L
T
[1
:2
0
0
]
En realidad, plot() se utiliza para representar la dispersin de datos bidimensionales, por lo que se
examinar detenidamente en ste contexto.
Otra funcin que presenta la dispersin de observaciones es la funcin stripchart(), til como
alternativa al diagrama de cajas que se considera ms adelante.
2.3. Diagramas de sectores y de barras
Las funciones pie() y barplot() proporcionan respectivamente diagramas de sectores y de barras
que resultan tiles para presentar describir escenarios de datos categricos.
El diagrama de sectores (pastel) tiene unas aplicaciones limitadas en estadstica del laboratorio clnico
y, en principio, su efectividad es similar a la del diagrama de barras.
El diagrama de barras representa simplemente frecuencias proporcionales a la altura de las barras.
En R, la funcin barplot, proporciona este diagrama
Barplot (height,
width=1,
space=NULL,
names.arg=NULL,
legend.text=NULL,
beside=FALSE,
horiz=FALSE,
col=heat.colors(NR),
border=par("fg"),
main=NULL,
sub=NULL,
xlab=NULL,
ylab=NULL,
xlim=NULL,
ylim=NULL,
axes=TRUE,
axisnames=TRUE,
inside=TRUE,
plot=TRUE,
...)
Argumentos
axes
Argumento lgico: si es TRUE dibuja el correspondiente eje
axisnames
Argumento lgico: si es TRUE y se ha especificado names.arg dibuja y rotula el otro
eje
beside
Argumento lgico: si es FALSE las columnas de height se representan por barras
apiladas. Si es TRUE se representan por barras yuxtapuestas
border Color de los bordes de las barras
col Vector de colores para las barras
height Vector o matriz de valores que describen las barras. Si es un vector, entonces el grfico
corresponde a una secuencia de barras rectangulares cuyas alturas corresponden a los
valores del vector. Si es una matriz y beside=FALSE cada barra corresponde a una
columna de modo que los valores de cada columna se representan por sub-barras
apiladas. Si beside=TRUE los valores de cada columna se yuxtaponen en vez de
Vol. 2, nm. 4, Pg. 18
Curso de estadstica
apilarse
horiz
Argumento lgico: si es FALSE las barras se dibujan verticalmente
legend.text
Vector de texto para construir una leyenda para el grfico. Slo es til si height es
una matriz, en cuyo caso las leyendas corresponderan a sus filas
main,sub Ttulo y subttulo del grfico
names.arg Vector de nombres que colocar debajo de cada barra o grupo de barras. Si se omite,
toma los nombres de los atributos contenidos en el objeto especificado en height
plot
Argumento lgico: si es FALSE no se produce grfico
space Fija la separacin entre barras como una fraccin de su amplitud media. Puede
especificarse con un slo nmero o un nmero por barra. Cuando el objeto representado
sea una matriz y beside=TRUE, puede ser dos nmeros: el primero para el espacio
entre barras del mismo grupo y el segundo para el espacio entre grupos. Por defecto es
c(0,1) para un objeto matriz y beside=TRUE
xlab
Ttulo del eje x
xlim
Intervalo de valores del eje x
ylab
Ttulo del eje y
ylim
Intervalo de valores del eje y
width Vector opcional, que especifica el ancho de las barras
Ejemplo
Supngase que se desea obtener un diagrama de barras para las concentraciones catalticas de ALT del
ejemplo anterior. Se desean las siguientes marcas de clase: 25, 30, 35, 40, 45, 50, 55, y 60. La frecuencia
absoluta de estas clases es: 27, 109, 354, 346, 146,17 y 1, respectivamente. En el anexo 1 se explica una
forma sencilla de obtener esta informacin.
La instruccin
producir el siguiente diagrama de barras
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
3
0
0
3
5
0
2.4. Diagrama de cajas (boxplot)
Es un diagrama simple y potente, tambin propuesto por Tukey
6
. Permite ilustrar los datos, observar
claramente la distribucin y principales caractersticas de los datos (centralizacin, dispersin,
simetra...) y comparar simultneamente varios conjuntos de datos.
Consta de un rectngulo, orientado de modo que el eje vertical tiene la misma escala del conjunto de
datos. La parte superior y la inferior del rectngulo coinciden con el tercer cuartil y el primer cuartil. Una
lnea horizontal a nivel de la mediana divide la caja. Se define un paso como 1,5 veces el rango
intercuartil. Una lnea vertical (bigote) se extiende desde la mitad de la parte superior (y otra desde la
parte inferior) de la caja hasta la observacin mayor (y a la menor) si se encuentran dentro de un paso.
Las observaciones que caigan fuera de estas lneas son dibujadas individualmente. La definicin de los
cuartiles y del paso puede variar segn diferentes autores.
Propiedades:
(a) Con slo cinco cantidades representadas grficamente se resume la informacin contenida en las
observaciones: localizacin, dispersin, sesgo y colas. La localizacin es la lnea que corta la caja (la

6
Tukey JW. Exploratory data analysis. Reading, MA: Addison-Wesley, 1977
Vol. 2, nm. 4, Pg. 19
Curso de estadstica
mediana), la dispersin es la altura de la caja y la distancia entre los extremos de las lneas. El sesgo
es la desviacin entre la lnea de la mediana con relacin al centro de la caja, y la relacin entre las
longitudes de las lneas. Las colas son la longitud de las lneas con relacin a la altura de la caja, y las
observaciones que se destacan explcitamente;
(b) Contiene informacin detallada sobre las observaciones de las colas;
(c) Es fcil de calcular y dibujar;
(d) Es fcil explicarlo al usuario.
Existen muchas variaciones de este diagrama incorporando caractersticas adicionales de las observaciones
interesantes: mediante muescas en la caja se puede comparar la localizacin de diferentes muestras y ver
si son estadsticamente diferentes. Se puede deformar la caja para obtener ms informacin de la
distribucin
7
creando un diagrama de vaso que incorpora conceptos de estimacin de densidades,
presentando una generalizacin del grfico de caja a dos dimensiones
8
, etc.
Se obtiene mediante la funcin boxplot(). Esta funcin consta de un mtodo por defecto
(boxplot.default) y una frmula intermediaria (boxplot.formula). Cuando se aplica a
mltiples grupos o mltiples argumentos o a travs de la frmula, se producen diagramas de cajas
paralelos ordenados segn los argumentos o niveles del factor (de la variable clasificadora). No se tienen
en cuenta los valores ausentes (NA).
boxplot(x,...)
boxplot.default (x,...,
range=1.5,
width=NULL,
varwidth=FALSE,
notch=FALSE,names,
boxwex=0.8,
data=parent.frame(),
plot=TRUE
border=par("fg"),
col=NULL,
log="",
pars=NULL,
horizontal=FALSE,
add=FALSE)
boxplot.formula (formula,
data=NULL,
subset,
na.action,
...)
Principales argumentos
add
Argumento lgico: si es TRUE agrega un diagrama de cajas al grfico actual
at Argumento numrico: vector que indica dnde se dibujarn los diagramas, especialmente
cuando add=TRUE. Por defecto, en 1:n donde n es el nmero de cajas
border Argumento numrico: vector de colores para las lneas de las cajas. Es opcional y de
longitud igual al nmero de diagramas
boxwex Argumento numrico: se aplica un factor de escala a todas las cajas. Cuando hay pocos
grupos, el aspecto del grfico puede mejorarse haciendo las cajas ms estrechas
col Colores del cuerpo de las cajas. Por defecto toma el color de fondo
data
data.frame, list, o environment en el cual los nombres de las variables son
evaluados cuando x es una frmula
formula
Una frmula tal como y~x, donde y es un vector numrico de valores de datos que
deben desdoblarse segn los valores de la otra variable x, generalmente un factor
horizontal
Argumento lgico: si es FALSE (por defecto) los diagramas de cajas son dibujados
verticalmente
log
Argumento de texto: Indica si las coordenadas x o y se expresarn en escala
logartmica

7
Benjamini Y. Opening the Boxplot. Am Stat 1988; 42: 257-62.
8
Zani S, Riani M, Corbellini A. Robust bivariate boxplots and multiple outlier detection. Comp Stats Data
Anal 1998; 28: 257-70
Vol. 2, nm. 4, Pg. 20
Curso de estadstica
na.action
Funcin que indica lo que pasara cuando los datos contienen datos ausentes (NA) Por
defecto se ignora los valores ausentes tanto en la respuesta como en el grupo
names
Argumento lgico: si es TRUE se imprimen leyendas debajo de cada diagrama
notch
Argumento lgico: si es TRUE se dibuja una muesca a cada lado de las cajas. Cuando las
muescas de dos grficos de caja no se solapan, indica que las medianas son
significativamente diferentes a un nivel de probabilidad del 5 %
outline
Argumento lgico: si es FALSE no se dibujan los valores extremos
outwex Expansin de la anchura de la lnea de valores extremos proporcional a la anchura de la
caja
pars Los parmetros grficos pueden ser mencionados como argumentos del diagrama de cajas
plot
Argumento lgico: si es TRUE (por defecto) se produce el grfico. Si es FALSE se
producen los resmenes de los diagramas en que se basa el diagrama
range
Argumento lgico que controla la extensin de las lneas de la caja. Si es TRUE se
extienden hasta el dato ms extremo que no supere al valor de range por el intervalo
intercuartlico de la caja. Si es 0 se extienden hasta los datos extremos
staplewex Expansin de la anchura de la lnea principal proporcional a la anchura de la caja
subset Argumento numrico: vector opcional, que especifica un subconjunto de observaciones
para ser usados en el diagrama
x,... Argumento numrico: vector o lista de vectores separados por comas para obtener de cada
uno el correspondiente a un diagrama. Alternativamente, una frmula de la forma x~g
que indique que las observaciones en el vector x van a ser agrupadas de acuerdo a los
niveles del factor g. En este caso, el argumento data puede usarse para dar valores a
las variables especificadas. Se permite la existencia de valores ausentes (NA).
varwidth
Argumento lgico: si es TRUE las cajas tendrn anchos proporcionales a las races
cuadradas del nmero de observaciones en los grupos
width Argumento numrico: vector que proporciona las anchuras relativas de las cajas
Ejemplo
En el ejemplo anterior se va a considerar los 1000 resultados de determinar la concentracin cataltica de
ALT en plasma. La forma ms sencilla y directa de obtener el diagrama de cajas es:
que produce el siguiente diagrama
2
5
3
0
3
5
4
0
4
5
5
0
5
5
La figura puede contener varios diagramas, con solo listar los vectores que contienen las observaciones.
Para hacerlo ms simple, supngase que las primeros 250 observaciones corresponden a un da de trabajo,
las siguientes 500 a un segundo da y las restantes 250 a un tercero. Sus correspondientes diagramas se
obtienen de la siguiente forma:
que produce el siguiente diagrama:
Vol. 2, nm. 4, Pg. 21
Curso de estadstica
1 2 3
2
5
3
0
3
5
4
0
4
5
5
0
5
5
donde se puede apreciar simultneamente la tendencia y la dispersin de los tres subconjuntos.
Una variante del diagrama de cajas, es el notched boxplot
9
en el que se aaden los intervalos de
confianza para la mediana, representados como dos muescas a los lados de la caja. La instruccin:
produce los diagramas de cajas con intervalos de confianza para las medianas:
1 2 3
2
5
3
0
3
5
4
0
4
5
5
0
5
5
El solapamiento de los intervalos de confianza de las medianas indica que no hay diferencias entre la
localizacin de las tres subpoblaciones.
Para aadir un ttulo, rotular los ejes y colorear las cajas se utilizarn los argumentos correspondientes:
> boxplot(ALT[1:250],ALT[251:750],ALT[751:1000],
notch=TRUE,col="blue"
main="ALT",
ylab="U/L",
xlab="grupo")
que producen la siguiente figura:
2
5
3
0
3
5
4
0
4
5
5
0
5
5
ALT
grupo
U
/L
La funcin boxplot() tambin proporciona un objeto que contiene la siguiente informacin (Anexo 1):

9
McGill R, Tukey JW, Larsen WA. Variations of Box Plots. Am Stat, 1978; 32: 12-6
Vol. 2, nm. 4, Pg. 22
Curso de estadstica
conf Matriz en la que cada columna contiene el extremo inferior y superior de la muesca
n Vector con el nmero de observaciones en cada grupo
names Vector de nombres del grupo
out Valores de los datos puntuales que caen fuera de los extremos de la lnea
stats Matriz en la que cada columna contiene el extremo inferior de la lnea (bigote o
bisagra), del lmite inferior de la caja, mediana, extremo superior de la lnea para
cada grupo o diagrama
group
Vector de la misma longitud que out cuyos elementos indican a qu grupo de datos
extremos pertenece
Por ejemplo, grabando la funcin boxplot()en la variable www
imprimiendo su contenido,
se obtiene:
2.5. Histograma
El histograma de un conjunto de datos es un diagrama de barras que representan las frecuencias con que
aparecen las mediciones agrupadas en ciertas clases o intervalos. Se divide la recta real en intervalos,
preferiblemente de igual longitud, y se cuentan las observaciones que caen dentro de cada intervalo. Este
diagrama aparece ya en el histrico trabajo de Graunt
10
aunque hasta 1926 no aparecen las normas para
determinar el nmero de clases
11
.
(a) Frmula de Sturges
12
:
( )
2
1 log k n = +
donde k es el nmero de clases (barras)
n el tamao muestral.
(b) Aproximacin de Scott
13
(1979)
Considerando el histograma como un estimador de una densidad poblacional ( ) f x , y basado en una
muestra aleatoria, se demuestra que bajo ciertas condiciones la amplitud de ventana ptima para el
histograma es:

10
Graunt J. Natural and political observations made upon the bells of mortality. Londres, 1662.
11
Habitualmente los programas informticos ajustan automticamente los histogramas, pero deben
permitir introducir variaciones en el histograma.
12
Sturges H.A. The choice of a class interval. J. Amer. Statist. Assoc., 1926; 21:65-6.
13
Scott DW. On optimal and data-based histograms. Biometrika; 1979: 66: 60510.
Vol. 2, nm. 4, Pg. 23
Curso de estadstica
( )
1
3
1
3
2
6
n
h n
f x dx

| |
|
=
|

|
\ .

donde
n
h es la anchura de las clases.
Para una distribucin normal el valor ptimo es:
1 1 1
3 6 3
1
3
2 3
3, 4908
n
h n
n

=
=
(c) Regla de Friedman Diaconis
14
:
1
3
2
n
h rango intercuartlico n

=
Para construir un histograma se seguirn los siguientes pasos:
(a) Definir los intervalos o clases de igual longitud.
(b) Contar el nmero de observaciones (frecuencia absoluta) que caen dentro de cada clase o intervalo
(c) Calcular la frecuencia relativa:
nmero de observaciones en el intervalo
fr
nmero de datos n
=
(d) Dibujar los rectngulos cuyas alturas son proporcionales a las frecuencias relativas.
El histograma presenta las siguientes ventajas: es til para apreciar la forma de la distribucin de los
datos, puede ser el grfico definitivo en un informe, puede utilizarse para comparar dos o ms
poblaciones, puede refinarse para crear grficos ms especializados, por ejemplo la pirmide poblacional.
Sin embargo, tiene las desventajas siguientes: se pierden las observaciones individuales y puede ser
complicada la seleccin del nmero y amplitud de las clases (si se definen pocas clases se agruparn
demasiadas observaciones, y si se definen muchas quedan muy pocas en cada clase). Ninguno de los dos
extremos es adecuado.
Es importante que la anchura de las barras sea igual. Si trata de un problema donde los intervalos tienen
diferente amplitud, por ejemplo con datos agrupados, se usa la siguiente frmula:
fr
altura del rectngulo
amplitud del intervalo
=
En R la orden bsica para obtener este tipo de diagrama es hist:
hist(x,...)
hist.default (x,
breaks,
freq=NULL,
probability=!freq,
include.lowest=TRUE,
right=TRUE,
col=NULL,
border=par("fg"),
main=paste("Histogram of",xname),
xlim=range(breaks),
ylim=NULL,
xlab=xname,
ylab=yname,
axes=TRUE,
plot=TRUE,
labels=FALSE,
nclass=NULL,
...)

14
Freedman D, Diaconis P. On the histogram as a density estimator: L
2
theory. Zeitschrift fr
Wahrscheinlichkeitstheorie und verwandte Gebiete. 1981; 57: 45376
Vol. 2, nm. 4, Pg. 24
Curso de estadstica
Principales argumentos
border Define el color de los bordes de las barras
breaks Valor que indica el nmero aproximado de clases o vector cuyos elementos indican
los puntos lmites entre las clases
col
Define el color de las barras. Si es NULL (por defecto) las barras no tienen fondo
freq
Argumento lgico: si es TRUE (por defecto, siempre y cuando los intervalos sean de
igual ancho), representar las frecuencias absolutas en cada clase; si es FALSE,
representar las frecuencias relativas
include.lowest
Argumento lgico: si es TRUE, un x[i] igual a los equal a un valor breaks
se incluira en la primera barra, si el argumento right=TRUE, o en la ltima en
caso contrario
labels
Argumento lgico: si es TRUE coloca leyendas por encima de cada barra.
nclass
Argumento numrico (entero): para compatibilidad con S, nclass=n equivale a
breaks=n
plot
Argumento lgico: si es TRUE (por defecto), el resultado es el diagrama del
histograma; si es FALSE el resultado es una lista de recuentos por cada clase
probability
Especifica un alias para !freq, para compatibilidad con el lenguaje de
programacin S.
right
Argumento lgico: si es TRUE, los intervalos son abiertos a la izquierda - cerrados a
la derecha (a,b]. Para la primera clase o intervalo si include.lowest=TRUE el
valor ms pequeo de los datos ser incluido en ste. Si es FALSE los intervalos
sern de la forma [a,b) y el argumento include.lowest=TRUE tendr el
significado de incluir el ms alto
x Vector de valores para el que se construye el histograma
...
Otros parmetros grficos adicionales a title y axis
Al ejecutar la instruccin
se obtiene el siguiente histograma:
Histogram of ALT
ALT
F
r
e
q
u
e
n
c
y
25 30 35 40 45 50 55 60
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
3
0
0
3
5
0
En el ejemplo anterior, se puede deducir la simetra de la distribucin.
Por defecto, R adopta la regla de Sturges,
o explcitamente:
Opcionalmente se puede utilizar la amplitud segn el criterio de Scott mediante:
que produce el correspondiente histograma:
Vol. 2, nm. 4, Pg. 25
Curso de estadstica
Histogram of ALT
ALT
F
r
e
q
u
e
n
c
y
25 30 35 40 45 50 55
0
5
0
1
0
0
1
5
0
Y, la amplitud segn Freedman y Diakonis:
produce:
Histogram of ALT
ALT
F
r
e
q
u
e
n
c
y
25 30 35 40 45 50 55
0
2
0
4
0
6
0
8
0
El nmero de clases, no obstante no es un nmero fijo: puede ser un nmero cualquiera, por ejemplo 15:
que produce el siguiente histograma
Histogram of ALT
ALT
F
r
e
q
u
e
n
c
y
25 30 35 40 45 50 55
0
5
0
1
0
0
1
5
0
Otra alternativa es generar una secuencia de enteros (por ejemplo entre 20 y 70 cada 3):
Vol. 2, nm. 4, Pg. 26
Curso de estadstica
cuya sintaxis en la funcin hist() ser:
y el resultado es el histograma siguiente:
Histogram of ALT
ALT
F
r
e
q
u
e
n
c
y
20 30 40 50 60
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
Mediante los argumentos main, xlab y ylab se pueden modificar el ttulo principal del diagrama,
y las leyendas de los ejes de abscisas y ordenadas respectivamente:
Estas instrucciones (en general comunes a todos los diagramas) producen el siguiente histograma:
Concentracin de ALT en plasma
concetracin cataltica de ALT (U/L)
fr
e
c
u
e
n
c
i
a
20 30 40 50 60
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
Por defecto el color de las barras es el del fondo y las lneas son de color negro. Utilizando el argumento
col se puede personalizar especificando el color (en ingls) o uno de los dos cdigos numrico:
0,8 blanco
1,9 negro
2,10 rojo
3,11 verde
4,12 azul
5,13 magenta
6,14 violeta
7,15 amarillo
El argumento lgico freq, que por defecto toma el valor TRUE:
indica que las ordenadas, expresen la frecuencia absoluta. Si se opta por la opcin alternativa:
Vol. 2, nm. 4, Pg. 27
Curso de estadstica
el eje de ordenadas presenta la en unidades de frecuencia relativa:
Histogram of ALT
ALT
D
e
n
s
i
ty
20 30 40 50 60
0
.
0
0
0
.
0
2
0
.
0
4
0
.0
6
0
.0
8
La funcin hist() proporciona la informacin con la que ha producido el histograma:
2.6. Archivo de grficos
Una vez producido un grfico, lo razonable es guardarlo para posterior utilizacin en una presentacin o
publicacin. El formato de archivo de grficos en R es particular del sistema y por tanto poco prctico. Se
recomienda archivar en un formato exportable.
Pulsando el botn derecho del ratn con el cursor situado sobre la ventana grfica activa se abre el men
contextual:
en el que se selecciona la opcin que abre los procedimientos de archivo habituales.
Vol. 2, nm. 4, Pg. 28
Curso de estadstica
3. Disposicin de mltiples grficos en la misma figura
En ocasiones se desea que una misma figura contenga varios diagramas. En R se posible hacerlo dividiendo
el dispositivo de dibujo (la ventana grfica) en varias regiones o subventanas en el modo
split.screen o con layout().
(a) La funcin split.screen()
La funcin split.screen() divide el dispositivo grfico activo en una serie de regiones que en cierto
modo pueden utilizarse como dispositivos grficos separados, con el fin de representar diagramas
mltiples en el mismo dispositivo. A su vez, estos subdispositivos pueden ser divididos para configurar
aspectos ms complejos.
Al ejecutar split.screen, R permite que las funciones relacionadas con split.screen acten en
este modo particular hasta que se cierre este modo de trabajo con close.screen(all=TRUE). Las
funciones asociadas a split.screen son totalmente incompatibles con otras funciones de disposicin
de diagramas en la misma figura (como par() y layout()) y con funciones como coplot que
utilizan estas ltimas funciones.
El argumento n indica las partes en que se dividir, por ejemplo para dividir la ventana grfica en dos
partes (denominadas respectivamente screen(1) y screen(2)):
Recurdese que la forma habitual de introducir una serie de nmeros en R es el comando c( , , ...)
Funciones relacionadas
close.screen(n,
all.screens=FALSE)
Elimina las definiciones especificadas para el dispositivo grfico. Si se cierra la
ventana activa, pasa a asignarse el nmero de cdigo inmediatamente superior
a esta ventana. Si se ejecuta close.screen, R proporciona un vector de
nmeros de ventanas vlidas. Si R no est en modo split.screen la
ejecucin de este comando produce una respuesta FALSE
erase.screen(n=) Limpia la parte de ventana rellenndola con el color de fondo. Si R no est en
modo split.screen la ejecucin de este comando produce una respuesta
FALSE
screen(n=,new=TRUE) Divide el dispositivo grfico activo en n regiones o pantallas
screen Selecciona la parte de ventana que utilizar para dibujar. Si se ejecuta
screen, R proporciona (de forma invisible) el nmero de ventana
seleccionado. Sin argumentos, proporciona el nmero de ventana activa. Si R
no est en modo split.screen la ejecucin de este comando produce una
respuesta FALSE.
Argumentos
all.screens Argumento lgico que indica si todas las ventanas deben cerrarse
erase Argumento lgico que debe ser seleccionado para borrar
figs Argumento vectorial bidimensional que describe el nmero de filas y
columnas en una matriz grfica o una matriz de 4 columnas. En esta caso
cada fila define una subventana con valores indicativos de izquierda a
derecha, parte inferior y superior de la pantalla: 0 es el extremo inferior
izquierdo y 1 el superior derecho
n Argumento numrico que indica que ventana va a ser utilizada para
dibujar(screen), ser borrada (erase.screen) o ser cerrada
(close.screen) Esta ltima opcin acepta un vector de nmeros de
ventanas
new Argumento lgico que indica si la ventana debe borrarse como parte de la
preparacin para dibujar en ella
screen Argumento numrico que indica la particin de la pantalla, por defecto es 1,
la ventana activa
Precauciones: El dibujo debe completarse totalmente antes de proceder a utilizar otra ventana porque el
regresar a un diagrama para agregar elementos puede producir efectos impredecibles.
Vol. 2, nm. 4, Pg. 29
Curso de estadstica
Muchos dispositivos utilizan fondos transparentes por defecto. Por tanto, al utilizar erase.screen
puede parecer que esta instruccin no funciona correctamente. Esto se soluciona con la instruccin
Ejemplo
Se desea representar en la misma figura tres diagramas descriptivos de las observaciones de la
concentracin cataltica de ALT estudiada anteriormente.
En primer lugar, se divide la ventana grfica en tres subventanas denominadas, de izquierda a derecha
1, 2 y 3:
Seguidamente se selecciona la subventana activa y a continuacin el diagrama que debe ser alojada en
ella:
Igualmente en la subventana 2
y en la 3
En la ventana grfica habrn ido apareciendo los correspondientes diagramas hasta completarse:
2
5
3
0
3
5
4
0
4
5
5
0
5
5
0 400 1000
2
5
3
0
3
5
4
0
4
5
5
0
5
5
Index
A
L
T
Histogram of ALT
ALT
F
r
e
q
u
e
n
c
y
25 40 55
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
3
0
0
3
5
0
Si se desea introducir alguna modificacin, por ejemplo en el histograma entrado en tercer lugar, debe ser
eliminado. La instruccin correspondiente es:
que produce el siguiente resultado en el dispositivo grfico.
2
5
3
0
3
5
4
0
4
5
5
0
5
5
0 400 1000
2
5
3
0
3
5
4
0
4
5
5
0
5
5
Index
A
L
T
Histogram of ALT
ALT
F
r
e
q
u
e
n
c
y
25 40 55
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
3
0
0
3
5
0
Para dejar el modo split.screen se introducir:
Vol. 2, nm. 4, Pg. 30
Curso de estadstica
Se puede comprobar que ya no hay divisin de la ventana grfica:
(b). Funcin layout()
La funcin layout() divide el dispositivo grfico activo en varias regiones (definidas por el conjunto de
filas y columnas definidas en el argumento mat) donde se ubicarn sucesivamente los diagramas. El
nmero de filas y columnas est limitado a 50. As mismo, el nmero de regiones est limitado a 500. Los
valores que identificarn las regiones o subventanas sern nmeros enteros empezando por el 1
15
. Si se
trata de 3 subventanas: {1,2,3}, de cuatro subventanas: {1,2,3,4}, de seis: {1,2,3,4,5,6}. R produce estas
secuencias de nmeros con las instrucciones 1:3, 1:4, 1:6 respectivamente. Por tanto, las instrucciones
siguientes producirn las correspondientes particiones de la ventana. Por defecto layout() divide el
dispositivo en dimensiones regulares. Si se deseara modificar esta circunstancia deber incluirse los
argumentos widths y heights para modificarlos.
layout (mat,
widths=rep(1,ncol(mat)),
heights=rep(1,nrow(mat)),
respect=FALSE)
layout.show(n=1)
lcm(x)
Argumentos
heights Argumento numrico: vector de valores que indican la altura (relativa o absoluta, como en
widths) de las filas en el dispositivo grfico
n Argumento numrico: nmero de diagramas a ser representado
mat Argumento numrico: matriz
16
que indica el nmero de ventanas que especifica la
localizacin de los siguientes n diagramas en el dispositivo de salida.
respect Argumento lgico o matricial. Controla si una unidad de amplitud de columna es la misma
medida fsica de una unidad de altura de fila. En caso de ser una matriz debe tener las

15
Es posible utilizar el cero para dejar subventanas vacas. As mismo es posible producir diseos
complejos introduciendo valores diferentes en el argumento m de matrix ()
16
Una matriz se crea con la funcin matrix(x,f,c) donde los argumentos son:
x valores de los elementos de la matriz
c columnas
f filas
Por ejemplo,
producir una matriz de dos filas por cuatro columnas, siendo sus elementos los ocho primeros nmeros
naturales
Por defecto (como se ha utilizado en este ejemplo) la funcin matrix() dispone los elementos por
columnas. Si se deseara introducirlos por lneas deber incluirse la opcin byrow=TRUE en la sintaxis de
matrix():
que producir:
Vol. 2, nm. 4, Pg. 31
Curso de estadstica
mismas dimensiones que mat y cada elemento debe ser 0 1
x Argumento numrico: dimensin que ser interpretada como nmero de centmetros
widths Argumento numrico: vector de valores que indican la amplitud relativa de las columnas en
el dispositivo grfico (Si se desea especificar amplitudes absolutas en cm-, deber
utilizarse la funcin lcm()
Para dividir el dispositivo grfico en cuatro subventanas, dos columnas y dos filas se utilizar la
instruccin:
1
2
3
4
Se puede obtener la ubicacin del siguiente diagrama con:
que producir la siguiente imagen:
1
y se introducirn las correspondientes instrucciones grficas, por ejemplo:
que producirn sucesivamente la figura:
2
5
3
5
4
5
5
5
Histogram of ALT
ALT
F
re
q
u
e
n
c
y
25 30 35 40 45 50 55 60
0
1
0
0
2
0
0
3
0
0
-3 -2 -1 0 1 2 3
2
5
3
5
4
5
5
5
Normal Q-Q Plot
Theoretical Quantiles
S
a
m
p
le
Q
u
a
n
tile
s
0 200 400 600 800 1000
2
5
3
5
4
5
5
5
Index
A
L
T
Vol. 2, nm. 4, Pg. 32
Curso de estadstica
Si se desea un diagrama de dimensiones determinadas (por ejemplo, de 10 cm x 10 cm) se introduciran
las opciones siguientes:
que produciran una figura como la siguiente (prescindiendo de la reduccin para su edicin en el presente
texto):
2
5
3
0
3
5
4
0
4
5
5
0
5
5
4. Dispositivos grficos
R puede utilizar diversos entornos grficos que codifica internamente con un nmero. Cuando se ejecuta
una funcin grfica se abre un dispositivo grfico, que por defecto es una ventana grfica. Este dispositivo
grfico por defecto tiene asignado el cdigo 1 y se denomina nulo, NULL. La ventana grfica, si se
est trabajando en un entorno Windows se denomina windows, si la plataforma es Mac se denomina
macintosh y si es Linux se llama X11. Este dispositivo no es el nico, sino que R ofrece una serie de
dispositivos donde grabar el grfico:
bitmap Si se dispone de GhostScript, pseudo dispositivo de mapa de bits
bmp Dispositivo de mapa de bits tipo BMP
jpeg Dispositivo de mapa de bits tipo JPEG
pdf Escribe ordenes grficas tipo PDF en un fichero
pictex Escribe ordenes grficas tipo LaTeX/PicTeX en un fichero
postscript Escribe ordenes grficas tipo POSTSCRIPT en un fichero
png Dispositivo de mapa de bits tipo PNG
xfig Dispositivo para archivos de formato grfico XFIG
windows Dispositivo grfico para Windows (pantalla, impresora o Windows metafile
A la lista de dispositivos abiertos se accede mediante
El ltimo dispositivo abierto es aquel sobre el que se escriben las grficas generadas. Para saber cul es
este ltimo dispositivo abierto hay que utilizar la funcin dev.cur():
El dispositivo activo puede cambiarse utilizando dev.set(which=dev.next()) y cerrarse mediante
dev.off. Para cerrarlos todos, graphics.off.
?device Da una lista completa de los dispositivos grficos disponibles
dev.cur() Indica el dispositivo activo y su nmero de cdigo
dev.list() Indica los dispositivos que se hallan abiertos. Su ejecucin
devuelve los nmeros de todos los dispositivos abiertos excepto del
dispositivo por defecto 1 o NULL
dev.next(which = dev.cur()) Seleccionan el dispositivo abierto siguiente (o el anterior,
Vol. 2, nm. 4, Pg. 33
Curso de estadstica
dev.prev(which = dev.cur()) respectivamente) en la lista, salvo que no haya ninguno abierto
dev.off(which = dev.cur()) Cierra el dispositivo especificado (por defecto el activo) de modo
que queda activo el siguiente en la lista de dispositivos abiertos. El
dispositivo 1 no puede cerrarse. R muestra entonces l nmero
del nuevo dispositivo activo
dev.set(which = dev.cur()) Establece como dispositivo activo el representado por el nmero
x. Si no hay dispositivo con este nmero, x equivale a
dev.next(). Si which=1 abre un nuevo dispositivo
graphics.off() Cierra todos los dispositivos grficos abiertos
Adems en Windows, la funcin win.metafile abre un dispositivo meta-archivo de Windows.
win.metafile (filename="",
width=7,
height=7,
pointsize=12,
restoreConsole=TRUE)
Tambin en Windows, si se desea registrar diversas imgenes consecutivas, puede hacerse de la siguiente
forma:
Con la ventana grfica activa, en la barra de herramientas de la consola R:
debe pulsarse en para abrir el siguiente men:
y pulsar en
A partir de este momento, con las teclas o o n se accede a las diferentes grficas registradas.
Anexo 1
Una forma sencilla de obtener esta informacin es utilizar la informacin que tiene la funcin hist().
Cuando se pide sta informacin:
R proporciona lo siguiente:
Vol. 2, nm. 4, Pg. 34
Curso de estadstica
En la primera variable del objeto est el vector de clases (que corresponde a la opcin por defecto, el
criterio de Sturges) y en la segunda el recuento de cada una de estas clases.
Para mayor comodidad y no tener que volver a teclear esta informacin, se puede crear dos variables (que
se denominaran, por ejemplo bi y fr)que la recojan:
de este modo es sencillo realizar el diagrama de sectores:
25
30
35
40
45
50
55
o de barras: