El anlisis exploratorio proporciona un conjunto de mtodos, los cuales de una
manera fcil y rpida permite obtener informacin respecto a la distribucin de los datos o comportamiento de la variable, la tendencia central, la dispersin y la asimetra de un conjunto de datos, previo al anlisis definitivo. Los mtodos de anlisis exploratorio (A. E. .! se caracteri"an por ser ms reveladores y resistentes a la presencia de datos discordantes. Dato Discordante #n dato se conoce como aberrante o discordante si es notablemente diferente de los dems. Estos datos discordantes pueden tener su ori$en en un error de re$istro, caso en el cual $eneralmente se pueden corre$ir antes de anali"ar los datos, o suceder en efecto %ue esa unidad estadstica ten$a un comportamiento realmente diferente a los dems, en este caso tendr %ue usarse mtodos %ue no resulten muy afectados por la existencia de ese dato(s!. GRAFICA DE TALLO Y HOJAS &'()*+#&&,-( a! &ada dato se separa en dos partes, de esto tenemos %ue cada dato como mnimo debe tener dos cifras, una de ellas ser la .oja y estar constituido por una sola cifra y la otra(s! constituirn el tallo. Ejemplo/ *allo Hoa
01 2 )e entender %ue este es el/ (3mero 0.12 si la unidad de .oja es 4.45 (3mero 01.2 si la unidad de .oja es 4.5 (3mero 012 si la unidad de .oja es 5 (3mero 0124 si la unidad de .oja es 54 b! )e tra"a una lnea vertical escribiendo a la i"%uierda los tallos y a la derec.a las .ojas correspondiente a cada tallo. 6ara determinar de manera rpida los tallos, es conveniente anotar el recorrido de la variable y determinar la unidad de .oja. Ejemplo/ )upon$amos %ue las notas de los alumnos oscilan entre/ 78.9: y 5:.:;. )i la unidad de .oja es 4.5 entonces los tallos sern/ 1 Lic. Mara A. Zacaras Daz Tallo Hoa !" # $%&' 8 < 1 = 54 55 59 50 52 5: )i la unidad de .oja es 5, entonces Los tallos sern/ Tallo Hoa !( # &'
4 5 La (nidad a (tili)ar de*ende del conte+to en el ,(e se est- tra.aando% c! )i observamos %ue el n3mero de tallos es pe%ue>o o el n3mero de .ojas es muy $rande y deseamos .acer una presentacin ms detallada podemos abrir la lnea correspondiente a cada tallo en dos o cinco lneas. Ejemplo ?rfica (@ 5 Pro/edio Ponderado 0ra1ica Tallo 2 Hoas Al(/nos Tallo Hoas 11 Extremos (=<5.0) 5 : 1 9 8 :: 8 < 444922 0 < ::< 0 1 459 9 1 :: 54 = 4459990022 = = ::8<<<<11 5< 54 44559999002222222 54 54 ::::888811 50 55 5555590000222 = 55 ::88811== 52 59 44444555599002 2 59 ::<1 0 50 400 5 50 8 0 52 999 5 52 1 1 Extremos (>=17.6) Anc.o tallo/ 5.444 &ada .oja/ 5 caso ?rfica (@ 9 Pro/edio Ponderado Gra1ica Tallo 2 Hoas Al(/nos Tallo Hoas 11 Extremos (=<5.0) 5 : 1 9 8 :: = < 444922::< : 1 459:: 5= = 4459990022::8<<<<11 9< 54 44559999002222222::::888811 99 55 5555590000222::88811== 51 59 44444555599002::<1 2 50 4008 2 52 9991 1 Extremos (>=17.6) Anc.o tallo/ 5.444 &ada .oja/ 5 caso
En las $rficas (@ 5 y (@ 9, la expresin Anc.o de tallo indica %ue los datos %ue .an sido resumidos en esta $rafica, son n3meros con 0 cifras decimales. 2 Lic. Mara A. Zacaras Daz d! En caso de %ue existan uno o dos datos muy pe%ue>os o muy $randes con relacin al resto, esos pueden consi$narse al principio o al final de la tabla respectivamente. )i el dato es pe%ue>o si le antepone la palabra 3AJO% )i el dato es $rande si le antepone la palabra ALTO% Estos datos no intervienen en la construccin de la tabla. Ejemplo/ Densidad *o.lacional del Per4 *or De*arta/entos (&enso 5==0! De*arta/entos Densidad Po.lacional Ama"onas = Ancas. 9<.: Apurimac 5= Are%uipa 52.1 Ayacuc.o 55.< &ajamarca 0= &allao 224:.1 &usco 52.1 Auancavelica 51.5 Auanuco 51.2 ,ca 9<.5 Bunn 92.5 La Libertad :4.0 Lambaye%ue 88.1 Lima 518.9 Loreto 9 Cadre de ios 4.1 Co%ue$ua 1.0 6asco =.2 6iura 0=.0 6uno 5:.0 )an Cartn 55.9 *acna 50.= *umbes 02 #cayali 0.9 5aria.le6 ensidad 6oblacional del 6er3 por epartamentos. efinicin &onceptual/ Es el n3mero de personas por Dm. &uadrado. Recorrido6 74.1 , 224:.0; Tallo Hoa !( # &' ! Lic. Mara A. Zacaras Daz 4 4 9 0 1 = = 5 5 5 0 2 2 : 1 1 = 9 2 < < 0 2 = = 7 8 4 8 8 Alto !&9:%;' Li/a Alto (224:.1! callao
Inter*retaci<n6 En cuanto a la tendencia central, podemos decir %ue en la mayora de Los departamentos el n3mero de .abitantes por Dm 9 oscila entre 55 a 5= personas. La variabilidad es $rande ya %ue oscila entre casi un .abitante .asta 88 AabEDm 9 por departamento. La distribucin de los datos es asimtrico con cola .acia la derec.a, es decir en la mayora de los departamentos .ay pocos .abitantes por Fm 9 y .ay pocos departamentos en los %ue .ay muc.os .abitantes por Dm 9 . =edidas de Posici<n% C(antiles% Adems de las medidas de *endencia &entral, ispersin, tambin .ay al$unas medidas 3tiles de posicin G no centralH %ue suelen utili"arse al resumir o describir propiedades de un conjunto de datos, sobre todo si ste es numeroso. A estas medidas se les denomina c(antiles% Al$unos de los cuantiles ms utili"ados son los eciles, %ue dividen los datos ordenados en dcimos y los 6ercentiles %ue dividen los datos ordenados en centsimos. Percentiles%
6ara introducir la definicin de percentil, ordenemos el conjunto de datos 5 9 , ,..., t x x x , de tal manera %ue (5! x sea el menor, (9! x sea el %ue le si$ue y as sucesivamente .asta tener el mayor valor ( ! t x . As se tiene %ue (5! x IJ (9! x IJ K..IJ ( ! t x . &ada n3mero dentro del parntesis indica la posicin del dato. (donde GtH indica el total de datos, es decir, puede ser i$ual al total de datos poblacionales, (, o al total de datos muestrales, n! De1inici<n% El valor ( ! i x es el percentil 5447(iL 4.:!Et; del conjunto de datos. e esta definicin podemos deducir %ue el percentil 6 F , es el dato con posicin (tFE544!M4.:. &uando el valor de la posicin no es un n3mero entero, el percentil se .alla como el promedio de los datos cuyas posiciones estn prximas a la posicin .allada. Ejemplo. Los si$uientes datos corresponden a las notas del curso de &lculo , de 59 Alumnos/ " Lic. Mara A. Zacaras Daz 59, 1, 55, 50, =, 1, 59, 54, 52, 50, 5:, =. N&ul es el valor del percentil 04O )olucin. 5. )e ordenan los datos de menor a mayor. 1, 1, =, =, 54, 55, 59, 59, 50, 50, 52, 5:. 9. )e .alla la posicin del dato, como t J ( J 59, entonces, la posicin del dato es/ 759P04E544; M 4.: J 2.5. 0. El valor del percentil 04 es/ 6 04 J ( (2! x M (:! x !E9 J (=M54!E9 J =.: 6odemos observar %ue debajo del valor =.: aproximadamente %uedan el 04Q de los datos. Gr-1ico de Caas &onstruccin/ 5. 6ara su construccin, es necesario conocer o calcular los si$uientes valores/ x min R x max R L') &#A+*,LE)R LA E)S,A&,-( ,(*E+&#A*TL,&AR +EU5 J &#A+*,L5L 0 esviacin intercuartlicaR +EU9 J &#A+*,L5 V 5.: esviacin intercuartlicaR +EU0 J &#A+*,L0 M 5.: esviacin intercuartlicaR +EU2 J &#A+*,L0 M 0 esviacin intercuartlica. 9. )e tra"a una lnea .ori"ontal de lon$itud proporcional al recorrido de la variable, %ue llamaremos eje. Los extremos del eje sern el mnimo y el mximo de la distribucin. El eje se $rad3a se$3n la escala conveniente y se se>alan los valores referenciales +EU5, +EU9, +EU0 W +EU2.(en realidad estas marcas referenciales no aparecen en el $rfico final! 0. 6aralelamente al eje se construye una caja rectan$ular con altura arbitraria y cuya base abarca desde el primer cuartil .asta el tercer cuartil. &omo vemos, esta caja indica $rficamente el intervalo de variacin del :4Q de los valores centrales de la distribucin de los datos. 2. La caja se divide en dos partes, tra"ando una lnea en la posicin de la mediana. As, cada una de las partes en %ue .a %uedado dividida la caja encierra una cuarta parte de los datos. :. #na ve" dibujada la caja, se a>aden dos lneas paralelas al eje, %ue llamaremos bi$otes o extensiones, una a cada lado. )i el x min es i$ual o mayor %ue la +EU9, la extensin se prolon$a desde el cuartil 5 .asta el x min . )i el x min es menor %ue la +EU9, la extensin se prolon$a desde el cuartil 5 .asta el valor observado inmediato mayor %ue la +EU9. )i el x max es i$ual o menor %ue la +EU0, la extensin se prolon$a desde el cuartil 0 .asta el x max . )i el x max es mayor %ue la +EU0, la extensin se prolo$a .asta el valor observado inmediato menor %ue la +EU0. 8. )i .ay datos observados %ue %uedan por debajo de la +EU9 o por encima de la +EU0, se se>alan en el $rfico de modo particular, por ejemplo, con un cuadradito o 5 Lic. Mara A. Zacaras Daz cual%uier otro smbolo %ue lo represente. A estos datos, $enricamente, los denominamos A*') A6A+*A') o SAL'+E) EX*+EC') del conjunto al cual pertenecen. En ocasiones se .ace distincin entre los datos apartados A*,6,&') W A('CAL'). Los datos atpicos son los %ue %uedan comprendidos entre la +EU5 y la +EU9, y los %ue %uedan comprendidos entre la +EU0 y la +EU2. Los datos anmalos son los %ue %uedan por debajo de la +EU5 y tambin los %ue %uedan por encima de la +EU2. para diferenciarlos se utili"an marcas diferentes, por ejemplo, un cuadradito para los atpicos y una cru" para los anmalos. Ejemplo/ &onsiderando los datos asociados a la variable densidad poblacional por departamentos, tenemos/ 5. Los datos ordenados. x min J 4.1 x max J 224:.1 De*arta/entos Posici<n Densidad Po.lacional% Cadre de ios 5 4.1 Loreto 9 9 #cayali 0 0.9 Co%ue$ua 2 1.0 Ama"onas : = 6asco 8 =.2 )an Cartn < 55.9 Ayacuc.o 1 55.< *acna = 50.= Are%uipa 54 52.1 &usco 55 52.1 6uno 59 5:.0 Auancavelica 50 51.5 Auanuco 52 51.2 Apurimac 5: 5= Bunn 58 92.5 ,ca 5< 9<.5 Ancas. 51 9<.: *umbes 5= 02 &ajamarca 94 0= 6iura 95 0=.0 La Libertad 99 :4.0 Lambaye%ue 90 88.1 Lima 92 518.9 &allao 9: 224:.1 9. Ced J ( ) 50 x J 51.5 0. (8! (<! 54.0 9 c x x P + = = y (5=! (94! 08.: 9 c x x T + = = 6 Lic. Mara A. Zacaras Daz 2. e, J 08.: V54.0 J 98.9 :. +EU5 J 54.0 V 0(98.9! J L81.0 +EU9 J 54.0 V 5.:(98.9! J L9= +EU0 J 08.: M 5.:(98.9! J <:.1 +EU2 J 08.: M 0(98.9! J 55:.5
4 94 24 84 14 544 594 524 5:4 La densidad poblacional del Lima es un dato atpico y la densidad poblacional del &allao es un dato anmalo. Ejemplo. 6ara los si$uientes datos correspondientes al nivel de acide" de diferentes muestras de lluvia/ 4.57 5.62 4.12 5.29 4.64 4.31 4.39 4.3 4.45 5.67 4.39 4.52 4.26 4.4 5.78 4.73 4.56 5.08 4.41 4.12 5.51 4.82 4.63 4.29 4.6 4.26 &onstruya ,. El dia$rama de tallo y .ojas con amplitud ( unidad de .oja! 4.5 y otro dia$rama con amplitud de .oja 4.45( 6A es una medida de alcalinidadEacide". 6A i$ual a < si$nifica neutro y valores menores de < indican acide"! ,,. La $rfica de cajas. )olucin. X/ (ivel de Acide" / X R (2.59, :.<9! #.E. Cuestra de lluvia. )e cuenta con 98 muestras de lluvia, por lo tanto se tiene datos muestrales. ,.a. #nidad J 4.5 *allo Aoja 2 55999000222:::888<1 : 49:88< ,.b. #nidad J 4.45 *allo Aoja 7 Lic. Mara A. Zacaras Daz 25 99 29 88= 20 45== 22 45: 2: 98< 28 402 2< 0 21 9 2= :4 1 :5 :9 = :0 :2 :: 5 :8 9< :< 1 ,,. ?rafica de &ajas. x min J 2.59 x max J :.<9