Está en la página 1de 14
UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE CIENCIAS ECONOMICAS Y SOCIALES ESCUELA DE ESTADISTICA Y CIENCIAS ACTUARIALES CURSO PROPEDEUTICO DE ESTADISTICA TEMA 9 EXPLORACION DE DATOS CON MEDIDAS DE POSICION CONTENIDO: 9.1. Tallos y Hojas. 9.2. Valores y Letras. 9.3. Grificos de Cajas. 9.4, Transformaciones para Simetrizar Distribuciones. Prof. Carlos Ortiz Somoza €-mail:carlosortiz96@yahoo.es 9.1. DIAGRAMA DE TALLO Y HOJAS Definicisn: Es una técnica estadistica para representar un conjunto de datos, donde cada valor numérico se divide en dos partes. Asi, los digitos principales conforman el tallo y los digitos secundarios las hojas. Este diagrama, combina la forma tabular de Presentacién de datos (cuadro estadistico) con el aspecto gréfico (histograma), Ejemplo : Elabore un diagrama de Tallo y Hoja con los siguientes datos: 3143S 40S 44° 18 32 47 38 59 3,7 49 36 3,0 5 2ieeediehees 3 6anes 26) Para construir un diagrama de tallo y hoja, se divide primero cada observacién en dos partes, una que se llamard el zallo de la observacién, y la otra, Ja hoja. Por ejemplo, podriamos clegir la divisién de cada dato en dos partes, separando de los demis los digitos enteros. Asi la parte entera sera el tallo y la decimal Ia hoja. De esta manera, para el dato 3,1 el tallo es 3 y la hoja 1. Andlogamente el tallo y la hoja para 5,9 gon 5 y 9 respectivamente. La representacién se obtiene ficilmente si en una disposicién vertical colocamos del lado izquierdo el tallo y del derecho las hojas. Al hacer esta representacién con los datos de la tabla, a medida que se van formando, tendriamtos una disposicion similar a : waune Cana vere en wa on ae & 0 Podemos modificar la ~representécin anterior si ahora realizamos un ordenamiento de las hojas en cada tallo ; obteniendo finalmente : wRune Nooue wun an ao or won En una representacién de tallos y hojas, ademas de conservar los datos originales, podemos intuir la forma de un histograma de frecuencias, asi como establecer los valores extremos(1,8 y 5,9) , los valores que mas se repiten(3,1 ; 3,6 y 4,3) ; la observacién que ooupa el 8vo. lugar en orden ascendente (3,6) ; ete. Bl diagrama de tallos modificado ¢s en esencia un arreglo ordenado, una distribucién de frecuencias y un histograma de frecuencias, los tres en uno, sin sacrificar la informacién original que se refiere a las observaciones individuales mismas. 9,2.- DIAGRAMA DE VALORES Y LETRAS DEFINICION DIAGRAMA DE VALORES y LETRAS. ‘Son mecicaa que ayudan a Hentiicar puntos clave deitro de la sere de datos, al ser ‘otdensdos de manera ascendente, 1 Me er Mt id eee ae Donde: Mies el valor de a mediana, el cual vide a série en dos partes iuales, HE es el cuarto (hing) inferior, ef cual divide en dos partes lguales la primera mited e ls datos, "2 es el cuarto (hinge) superior, el cual divide en dos partes iguaes fa segunda mitad ea sovie de datos. tr sf octavo (eight) infer, es el valor que divide en das partes ef cuarto infetior Ge oe datos, 2: es al octavo (eight) superior, 65 el valor que divide en dos partes ef cuarto superior dela sere de datos, oS APLICACION La mayor utilidad de los valores letras esté en que sirven para establecer un criterio de deteccién de valores atfpices dentro de! conjunto de datos. Los valores y letras, muestran la informacién referida al comportamiento central de los datos, es por ello que sirven para defini limites a partic de los cuales algtin dato puede considerarse como atipico, respecto al comportamiiento central del grupo. Los limites que sirven para identificar valores atipicos se denominan fronteras interiores y fronteras exteriores, los cuales se construyen como: Frontera interior inferior = H1 - 1,5 RIQ y Frontera intetior superior = H2 + 1,5 RIQ Frontera exterior inferior = H1- 3 RIQ. y Frontera exterior superior = H2 +3 RIQ ‘Slendo RIQ= H2 ~ Ht Se definen dos tipos de datos atipicos, los extremos y los remotes, segtin el siguiente cxiterio: ln dato es extremo si se encuentra entre las fronteras interiores Y las fronteras exteriores. Un dato es remoto si se encuentra por fuera de las fronteras exteriores. 9.3.- GRAFICO DE CAJAS (BOXPLOTS) + Definicién 1. Es una represntacién gréfica, basada en los cuartiles, que ayuda a describir un conjunto de datos utilizando cinco estadisticos; tales son: valor minimo, Qi, Md, Qs y el Valor Maximo. 2743 [49] 31 | 32 69 | 60 | 71 [27 | 54 59 [37 [70 | 54 | 5.0 I 3,8_[ 5,7 [3,7 | 62 [59 : J 68 | 70 | 41 [26 [31 3.7 [74 [70 [47 [58 . Definicién 2. Antena Interna (AD. (se utiliza Antena, Barrera o Frontera como denominacién). Antena Interna Inferior = Alpe = Qi - 1,5(Qs— Qu) Antena Interna Superior = Alsup = Qs + 1,5 (Q3— Qu) © Definiciin 3. Valor Extremo. Un punto extremo es un valor que es inconsistente con el resto de los datos. Cuando un valor es mayor que Qs 0 menor que Qy en mis de 1.5 veces el rango intercuartil, se dice que es un valor extremo. Un valor extremo es un posible valor atipico o inusitado. EI valor extremo estaré ubicado entre las barreras internas y las barreras externas. © Definicién 4, Antena Externa. (Sindnimo Barrera, Frontera). AEsur = Q +3(Qs— Q) AEne = Qi - 3(Qs— Qi). * — Definicién 5. Valor Atipico. Es un dato que esta por debajo de la Antena Externa Inferior o que supera la Antena Externa Superior. (sinénimo: Valor Inusitado). Prof. Carlos Ortiz Somoza & ‘e-mail:carlosortiz960@yahoo.es DETALLE de un DIAGRAMA DE CAJAS "Frond exartor siperior = 3 +3 RIO Frontera hier siperioe = 03+ 1.5 R10 Valor de a sere de dats, que es ual o menor quel rotera ir serie #003, <———-o0 we | Medone Heat — 4 Valor de a ore de datos, que 0s Iguelo mayer le rortera err erie Frontera teroreferr © Q1-1.5R1O Frontera etedoriteer © Q1-3 RQ INTERPRETACION del DIAGRAMA de CAJAS -Simétrica: en este tipo de distribuciones la media, la moda y la mediana coinciden y los datos se distribuyen de igual forma a ambos lados de estas medidas. En el contexto, hay igual nimero de opiniones por encima que por debajo de la mediana. ~Asimétrica positiva 0 sesgada a la derecha: los datos tienden a concentrarse ‘hacia la parte inferior de la distribucién y se extienden mas hacia la derecha. La media suele ser mayor que la mediana en estos casos. En el contexto, las opiniones se concentran en un puntaje menor y las de mayor puntaje estan mas dispersas. ~Asimétrica negativa 0 sesgada a la izquierda: los datos tienden a concentrarse hacia la parte superior de la distribucién y se extienden mas hacia la izquierda. La media suele ser menor que la mediana en estos casos. En el contexto, las opiniones se concentran en un puntaje mayor y las de menor puntaje estén mas dispersas. Prof. Carlos Ortiz Somoza Estadistica Propedéutico-EECA-UCV MAX t MAX TIPS SOBRE EXPLORACION DE DATOS La Estadistica Descriptiva ofrece opciones para que el investigador pueda conocer Ia estructura de los datos en estudio. El célculo de Cuartiles y Percentiles nos permite introducir otras medidas de la tendencia central y de dispersidn, tales como : el Eje Medio, el Rango Intercuartilico y el Coeficiente de Variacién Intercuartil L~ El eje medio es la media aritmética dé los cuartiles 1 y 3 - Elrango intercuartHlico ¢s la diferencia entre los cuartiles 3 y 1 3.- El coeficiente de variacin intercuartil , CVQ, ¢s : = G- rQ” 4 Al igual que el cocficiente de variacién, el coeficiente de variacién intercuartil se usa para comparar la dispersién, de dos series de datos, cuando la media aritmética no es aplicable. 5.- El cdlculo de los percentiles presenta una valiosa herramienta a la hora de seleccionar items o personas que sobresalgan dentro de un conjunto ; asi por ejemplo un profesor podré establecer que aquéllas personas cuya nota Acfinitiva esté por encima del percentil 90 serin acreedoras de un premio especial ; de igual manera un entrenador deportivo podra descartar atletas ‘cuyo registro personal sca inferior al percentil 60. 6. El cdleulo de cuartiles y percentiles permite construir otro tipo de epresentacién grifica de datos conocida como diagrama de bloques y lineas (box and whisker plot). Un_diagrama de este tipo+se muestra a continuacién : = —— cvQ -4 -o--4 x, Me Q La ubicacién de Ia linea vertical trazada dentro, del bloque representa la ubicacién del valor de la mediana, Esta representacién visualiza cl comportamiento de los datos dentro del bloque y el comportamaiento global del bloque en comparacién con los brazos ; de esta manera puede ‘isualizarsc la simetria tanto intema como externa, Prof. Carlos Ortiz Somoza Estadistica Propedéutico-EECA-UCV EJEMPLO DE GRAFICO DE CAJAS: @ Caso #1: Considere la variable “edad” correspondiente a un colectivo de 20 personas (Grupo A) 36 25237) 26391 20 361 a5 an all 39 24 29 23 41 40 33 24 34 40 Solucion.- ‘Bordenar tos datos Para calcular los pardmetros estadistico, lo primero es ordenar la distribucién 20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45 ‘Ocatculo de Cuartiles \ Quel coat Primero es el valor mayor que el 25% de los valores de la distribucién. Como N= 20 resulta que N/4 = 5; el primer cuartil es : VQ el Segundo Cuartl es, evidentemente, la mediana de la distribucién, es el valor de la variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la mediana es | V_ Qs, 1 Tercer Cuattil, es el valor que sobrepasa al 75% de los valores de la distribucién. En nuestro caso, como 3N / 4 = 15, resulta? /siqve .,, Prof. Carlos Ortiz Somoza Estadistica Propedéutico-EECA-UCV EE es 2 O38 Xméx El bigote de la izquierda representa al colectivo de edades ( Xia Q1) La primera parte de la caja a (Qi, Qu), La segunda parte de la caja a (Qz, Q3) EI bigote de la derecha viene dado por (Qs, Xmas). @intormacién del diagrama Podemos obtener abundante informacién de una distribucién a partir de estas representaciones. Veamos alguna: ‘+ Laparte izquierda de la caja es mayor que la de Ja derecha; ello quiere decir que las edades comprendidas entre el 25% y el 50% de la poblacién esté mas dispersa que entre el 50% y el 75%. + Elbigote de la izquierda (Xmim, Q,) es mas corto que el de la derecha; por ello el 25% de los més jévenes estén més concentrados que el 25% de los mayores. * Elrango intercuartilico=Qs-Qu= _ . ; es decir, el 50% de la poblacién esta comprendido en —_afios. ‘Seguro que ti podrés obtener més informacién (jUtiliza la mediana!) B Caso # 2: COMPARACION DE DISTRIBUCIONES La mayor utilidad de los Diagramas de Caja es para comparar dos 0 mas conjuntos de datos. Para ello vamos a considerar otro grupo distinto dq Veinte(20) personas (Grupo B) con sus respectivas edades : 35 38 32 28 30 29 27 19 48 40 39 24 24 34 26 41 29 48 28 22 Prof, Carlos Ortiz Somoza Estadistica Propedéutico-EECA-UCV Construimos el Grafico de Caja y comparamos ambos grupos (A y B). Xmin Ql @ Q3 di teh OF Aine GRuro BE + cuco hl 20 24 33 so 4s) Xmin Qt O2 O83 Xmax A partirte dicha comparacién puede obtenerse bastante informacion de ambas distribuciones, @ Caso # 3: COMPARACION DE LOS ENTRENAMIENTOS DE UN CORREDOR DE 100 mts. Un atleta entrena para una determinada carrera y se toman los tiempos que necesita para recorrer los 100 mts, durante diez (10) dias ;cada dia se toman varios tiempos y se calculan mediana, cuattiles, valores minimo y miximos. —===—_ lp | [ | | | ; = ' a [ps eeeeneeeeeereneees | * tawweme "* Observamos que el desplazamiento de las grificas de caja hacia la izquierda indica que el entrenamiento ha dado resultado, ya que se tardan menos segundos en recorrer Ja misma distancia, siendo la diferencia entre el méximo y el minimo menor, como asi también la diferencia intercuartilica, UCV - FACES ESCUELA DE CIENCIAS ESTADISTICAS Y ACTUARIALES PROPEDEUTICO - ESTADISTICA GUIA PRACTICA CONTENIDO: TEMA9 - Dispositivo Tallo y Hoja - Graficos de Caja 1.-) Construya un Diagrama de Tallo y Hoja referido a las tasas de desempleo en 15 paises industrializados: 54% 42% 4.7% 55% 3.2% 46% 55% 6.9% 6.7% 3.7% 41% 68% 6.2% 3.6% 4.8% 2.) Considere la cantidad de anuncios por radio (con duracién de 30 seg. c/u) que pagaron el afio pasado los 45 socios de la Cémara Venezolana de Juguetes. 9% «8493 «88 OTs? SB 9H—Ss08 94 148 «156 139 1429410712555, to 1 hy i a he Wi er te M8 136125143, 120,103,113 1243 i) — Organice los datos en un Diagrama de Tallo y Hoja. ii) GAlrededor de cuales valores tiende a acumularse el mayor niimero de anuncios?. iii) {Cuél es el menor ntimero de anuncios pagado por un Comerciante?. iv) _@Cuéles fueron las tres mayores cantidades de anuncios pagado por radio?. 3.) Considere la serie de 10 datos que se indica: 3727075 |2 73 ]4]o0]1]35 Construya un Diagrama de Caja. il aato(5) es un valor Extremo 0 Atipico?. 4.) “PIDDA PIZZA” oftece la entrega a domicilio sin recargo de sus pizzas en un area de 15 kms. El Gerente del negocio requiere informacién sobre los tiempos de entrega. De una muestra de 20 entregas se obtuvo lo siguiente: Qi=15 min Vmin=13 min Vmax=30min Md=18 min Q3=22min Prof. Carlos Ortiz Somoza e-mail:carlosortic9 60@yahoo.es Se pide: i) Diagrama de Caja. ii) @Un tiempo de 33 minutos es un valor aceptable 0 extremo?. iii) {En qué intervalo de tiempo se realiza el 50% central de las entregas?. iv) gLa disribucién es simétrica 0 sesgada?. v) {Cudntos casos de entrega de Pizzas hay entre 15 y 18 minutos? ;Y entre 18 y 22 minutos?. vi) {Cudntos casos se detectan entre 15 y 22 min.?. 5.) Los resultados Académicos con la Calificacién Final de los Estudiantes en un curso de Estadistica se presentan a continuacién segin el Turno: Mafiana_ Tarde Noche Primer Cuartil 57 61 55 Segundo Cuartil 71 76 78 Hay 15 Alumnos Tercer Cuartil 81 83 85 Mit 48 57 42 ‘Maximo 1 93 95 i) Construya Diagrama de Caja para cada tuo })_gHay observaciones atipicas en algin grupo?. iii) gCual tumo logré mejor desempeito promedio?, iv) Analice la variabilidad y compare los grupos. vy) En cual tumo hay més alumnos con puntuaciones bajas?. Prof. Carlos Ortiz Somoza 3 e-mail:carlosortiz 60@yahoo.es UCV -~ FACES ESCUELA DE CIENCIAS ESTADISTICAS Y ACTUARIALES PROPEDEUTICO ~ ESTADISTICA GUiA PRACTICA CONTENIDO: TEMA 9 - Dispositivo Tallo y Hoja - Graficos de Caja 1) Construya un Diagrama de Tallo y Hoja referido a las tasas de desempleo en 15 paises industrializados: 54% 42% 47% 55% 3.2% 46% 5.5% 69% 6.1% 3.7% 47% 68% 6.2% 36% 48% 2.) Considere la cantidad de anuncios por radio (con duracién de 30 seg. clu) que Pagaron el afto pasado los 45 socios de la Camara Venezolana de Juguetes. 9% 93 88 NT 127,953 96108 ae as 1568 iso) az Of 107 195. 155) 155° 103 2127, 117-1202 13532 M1 125° 104106139 1341199789 WS oo 1258 as 20 103) 115 eae 1, i) Organice los datos en un Diagrams de Tallo y Hoja. ii) GAlrededor de cuales valores tiende a acumularse el mayor nimero de anuncios?, iii) {Cul es el menor niimero de anuncios pagado por un Comerciante? iv) _¢Cudles fueron las tres mayores cantidades de anuncios pagado por radio?. 3.) Considere la serie de 10 datos que se indica: 3]2]07is]2 7374 7oyiy3 Construya un Diagrama de Caja. El datoi5) es un valor Extremo 0 Atipico?. 4.) “PIDDA PIZZA” offece la entrega a domicilio sin recargo de sus pizzas en un rea de 15 kms. El Gerente del negocio requiere informacién sobre los tiempos de entrega. De una muestra de 20 entregas se obtuvo lo siguiente: Qi=15min Vmin=13 min Vmax=30min Md= 18min — Q3-22min il rt alioo.es Prof. Carlos Ortiz Somoza t ‘e-mail:carlosortiz960@yaloo. Se pide: i) Diagrama de Caja. ii) Un tiempo de 33 minutos es un valor aceptable o extremo?. iii) ZBn qué intervalo de tiempo se realiza el 50% central de las entregas' iv) ¢La disribucién es simétrica 0 sesgada?. v) {Cuamtos casos de entrega de Pizzas hay entre 15 y 18 minutos?. gY entre 18 y 22 minutos?. vi) gCudntos casos se detectan entre 15 y 22 min.?. 5.) Los resultados Académicos con la Calificacién Final de los Estudiantes en un curso de Estadistica se presentan a continuacién segiin el Turno: Mafana Tarde Noche Primer Cuartil 57 61 55 Segundo Cuartil 1 78 8 Hay 15 Alumnos Tercer Cuartil 81 83 85 Minimo 48 S7 42 Maximo 91 93, 9S. i) Constraya Diagrama de Caja para cada turno. ) {Hay observaciones atipicas en algun grupo?. i) {Cul turno logré mejor desempefio promedio?. iv) Analice la variabilidad y compare los grupos. v) En cual tuo hay més alumnos con puntuaciones bajas?. Prof. Carlos Ortiz Somoza a

También podría gustarte