Está en la página 1de 44
Colegio de Mateméaticas erp oe cS Matemiaticas V 2 Unidad 4 Estadistica para interpretar grandes cantidades de datos Dr. José Manuel Becerra Espinosa ent ESTADISTICA PARA INTERPRETAR GRANDES CANTIDADES DE DATOS UNIDAD 4 1. POBLACION, MUESTRA Y VARIABLES Estadistica: Es la rama de las Mateméticas que se ocupa de recolectar, organizar, presentar, analizar © interpretar datos para ayudar a una toma de decisiones mas efectiva. Se clasifica en dos grandes ramas la ‘estadistica descriptiva y a estadistica inferencial, La estadistica descritiva estudia al conjunto de métodos para organizar, resumir y presentar los datos de manera informativa, Ejemplo, El INEGI revelé en 2016 que esperanza de vida de los mexicanos es de 75.2 afios, Ejemplo, De acuerdo con Pemex, se tuvo una produccién de 2'271,000 barriles de petréleo en juio de 2017. La estaaistica inferencial estudia al conjunto de métodos probabilsticos y estacisticos utlizados para saber algo acerca de un todo, basandose en una pequefia parte de este. Ejemplo, Segin una encuesta publicada por el periédico Reforma en julio de 2017, 7 de cada 10 capitalines piensa ‘Que la inseguridad es el principal problema que se vive en Ciudad de México, Ejemplo, La empresa Philips decidé rechazar toda la produccién de focos LED del hoy al encontrar que un eterminado nimero de ellos se encontraba defectuoso. Las estadisticas de por sf no tienen sentide si no se consideran o se relacionan dentro del contexto con ‘que se trabajan. Por lo tanto es necesario entender los conceptos de poblacién y de muestra para lograr ‘comprender mejor su significado en una investigacion. Poblacion es el conjunto total de individuos, objetos 0 medidas que poseen algunas caracteristicas ‘comunes observables en un lugar y en un momento determinado. La muestra 0s un subconjunto fislmente representativo do la poblacién. Variable es cada una de las caracteristicas que pueden observarse de un elemento de la muestra. Las variables pueden ser clasificadas en dos grupos: @) Cualitativas: toman valores no numéricos. Dentro de este grupo se distinguen las: Nominativas: no existe ningin orden entre las categorias de varlables. Por B, AB, 0) 0 el color del pela (moreno, rubio, pelirojo. smplo: el grupo sanguineo (A, Binarlas: cuando toman dos valores posibles (sino), (presencia/ausencia). Por ejemplo: casado sf 0 no © tener pasaporte si o no. (Ordinales: existe un cierto orden entre las categorias de las variables, por ejamplo el nivel de estudios (sin ‘estudios, bésico, secundarios, etc.) o categoria dentro de una empresa (gerente, supervisor, empleado, etc) 1 ) Cuantitativas: toman valores numérieos. Dentro de éstas ee agrupan en: iscretas: tomas valores aislados, normalmente niimeros enteros, por ejemplo nimero de hermanos 0 de hijos. Continuas: teéricamente puede tomar cualquier valor numérico, por ejemplo, la velocidad a la que se ‘cesplaza un automévil en una carretera, Elemplo, En el plantel 8 de la ENP se quiere saber cual es el deporte més practicado por los alumnos. Se realiza tna encuesta a cinco alumnos de cada ato. Poblacién: Todos los alumnos de la escuela, Muestra: Ginco alumnos de cada curso, elegidos por sorteo. Variable: Cualtativa (deporte que practica). Ejemplo, ‘Se desea conocer cual es la estatura de los alumnos de un jardin de nifios. Se miden 10 alumnes por afo. Poblacién: Tados los alumnos del jardin de nifos. Muestra: Diez alumnos por curso, elegidos al azar. Variable: Cuantitativa continua (estatura). Ejemplo, Un fabricante de tornillos desea hacer un control de calidad, Para ello, toma 1 de cada 100 tomillos producides y analiza 2) Sies correcto 0 defectuoso, Poblacién: Todos los torillos fabricados. Muestra: 1 de cada 100 tomllos fabricados, elegido al azar. Variable: a) Cortecto 0 defectuoso: cualitativa, ») Longitud: cuantitativa continua, ‘¢} Nimero de pasos de rosea: cuantitativa discreta, 2. TABLAS DE FRECUENCIAS 2.1. TABLAS DE DISTRIBUCION DE FRECUENCIAS CON DATOS SIN AGRUPAR, Las primeras herramientas para conocer y por tanto descrbir el problema que se desea analizar las proporciona la estadistica descriptiva a través de la tabulaci6n de la informacion, Esto consiste en presentar fa informacion organizada en una tabla referida a una sola variable, es decir, que s6lo recoge la informacion ‘correspondiente a una earacteristica de cada uno de los elementos de la poblacién. Ejemplo, Se ha obtenido informacion numérica sobre los minutos de retraso de 30 empleados en una fabrica en un la. Dicha informacion es la siguiente: Minutos = (6,8,6,8,6,8,12,6,8,8, 6,8,8,8,12,12,8,8,12,6,8,6,6,8,12,6,6,6,6,6) Se puede apreciar que sélo hay tres cifras diferentes: 8, 6 y 12 minutos, que se repiten, y ademas sus valores estan desordenados. La informacion asi presentada resulta muy poco manejable a efectos de su andlsis estadistico. En primer lugar se debe ordenar, de menor a mayor retraso, por ejemplo, y agrupar los vvalores comunes en una tabulacién, En este ejemplo f= 13, lo que significa que el primer valor de la variable se repite 13 veces, es decir, que ‘89 hubo 13 retrasos de 6 minutos; fs = 12, lo que significa que el segundo valor de la variable se repite 12 veces, es decir, que hubo 12 retrasos de 8 minutos y f; = 5, lo que significa que el tercer valor dea variable se repite 5 veces, es decir, que se hubo § retrasos de 12 minutos. Tabulando esto, se tiene: xa = 12 Total La frecuencia absoluta (f) €s el nimero de veces que aparece un determinado valor en un estudio estadisteo, Sumando las eauenclas absolulas se obtenen el nimero teal de valores observados dela Variable, que se representa porn. Enesteelomplo:n =f, + fe + fa = 18+ 1245 = En general: nah thth=>fi ‘Ahora bien, la frecuencia absolutaofrece una idea respecto a si es 0 no elevada. Para sabero, se debe relerila al conjunto de los datos. Se define asi a frecuencia relativa (fr) que se obti riimero total de datos (n) 1 por cociente entre la frecuencia absoluta(f) y el x fis ha | mabe s =A 8 | p=2| f=8-F xs eae ‘3 fe=5 faa 30 Total 30 1.00 Dada su defincién, es obvio que ol valor minimo de la frecuencia relativa es cero y su valor maximo os la Unidad, Por tanto, la frecuencia relativa es tanto mas elevada cuanto mas préximo esté su valor a uno. La tabla anterior contiene los valores de las frecuencias relativas para la distribucién de las retardos. En ella, las frecuencias relativas estén expresadas en tanto por uno, pero también se pueden expresar en tanto por 3 ‘lento, mutipicando por cien cada uno de sus valores. Teniendo, ast, que el 43 por lento de los retrasos ha sido de 6 minutos, el 40 por ciento ha sido de 8 minutos y el 17 por ciento restante ha sido de 12 minutos. La suma de las frecuencia relativas es igual a la unidad: Eneste ejemplo: fr, + fr + frs 043 + 040 + 017 En general: Ir tf to fre Yn ‘También puede tener interés calcula las frecuencias acumuladas, tanto absoluta como relativa. La frecuencia acumulada absoluta, que se ropreserta por F, indica el nimero de valores de la variable iguales al considerado o inferiores a6, y se obtiene sumando, para cada valor, su frecuencia absoluta més las correspondientes a los valores anteriores de la variable. x | f| fm 6 | 13 | 04s a | 12 | 040 Fy 12 | 5 | 017 | R=fitfetfa=1241345=30 Total | 30 | 1.00 F, representa la frecuencia absoluta acumulada correspondiente al segundo valor de la variable (9 minutos) ‘ave se clra en 25, lo que indica que se han tenido 25 retrasos igual o inferior a 8 minutos. Se puede ‘cbservar, ademas, que la primera frecuencia absoluta acumulada es igual ala primera frecuencia absoluta, y que la Ultima frecuencia absoluta acumulada coincide con el nimero de datos disponibles, que en este ‘caso son 30. En general: Roth tu4 Ya La frecuencia acumuladarelatva,representada por Fr, se obiene al dvi cada freevenciascumulada ‘absoluta (F,) entre ol nmero total de datos (n), 0 bien sumando, para cada valor, su frecuencia relativa mas las correspondientes a los valores anteriores de la variable. x [A | mir Fr 6 | is | oa | 13 Fry = fry = 0.48 a | 12 | o40 | 25 Fry = fn +f = 043 +040 = 083 az [3] 0a7 | 30 | Fr = fr, + fry + fry = 043 + 000-4 0.17 = 1.00 Total | _30_| 1.00 La frecuencia acumulada relativa correspondiente al segundo valor de la variable, Fr, indica que el 83 por lento de los retardos en la fébrica tiene una duracion igual o inferior a 8 minutos. Como puede observarse, la primera frecuencia acumulada relativa es igual a la primera frecuencia relativa, y la dltima frecuencia ‘acumulada relativa es igual ala unidad. En general Pr Ph bot Pra La tabla siguiente recoge los valores de la variable y sus frecuencias, absolutas y relativas, simples y ‘acumuladas. Dado su contenido, se le conoce con el nombre de tabla de distribucién de frecuencias. Considerando que todas las demas pueden obtenerse a pair de la frecuencia absoluta, se representa como los diferentes valores que en cada caso toma el par (x, fi) x [i] m [A [Fr | 6 | 13 | 04s | 13 | 04s 3 | 12 | 040 | 25 | 083 wz | s | oa7 | 30 | 100 Total | 30_| 1.00 Hasta ahora, como se ha visto, la informacién se ha dispuesto asociando a cada valor de la variable su frecuencia. Esta forma de presentar los datos se utliza cuando la variable toma un pequefio numero de valores distintos. Ahora bien, sila variable toma un nimero grande o muy grande de valores distintos y se disponen los datos de esta manera, se obtienen unas columnas muy largas, que no proporcionan la vision de conjunto deseada. 2.2. TABLAS DE DISTRIBUCION DE FRECUENCIAS CON DATOS AGRUPADOS, Si el numero de valores que toma la variable es suficientemente grande resulta aconsejable, para una mayor comodidad en ol tratamiento de la informacién, agrupar estos valores en un nimero reducido de clases 0 intervalos. La agrupacién de los datos facilta su manejo, pero debe tenerse en cuenta que, mientras que en las distribuciones no agrupadas disponemos de toda la informaci6n correspondiente a una variable, en las distrbuciones agrupadas se pierde parte de la informacion. Un intervalo o clase es una serie de nimeros incluidas entre dos extremos, asi por ejemplo, el intervalo ‘50-55 esté formado por 50, 51, 52, 53,54 y 55, slendo 50 el mite inferior, 55 el imite superior. Existe una dil metodologia para formar distibuciones de frecuencias para datos agrupados en intervalos que es la siguiente: Paso 1. Se calcula el rango (R).~ También se llama recorrido o ampltud total. Es la diferencia entre el valor ‘mayor y el menor de los datos. R imax — nn Paso 2. Se selecciona el niimero de intervalos de clase (k).- No debe ser menor de 5 y mayor de 12, ya ‘que un nimero mayor o menor de clases podria alterar el comportamiento de los datos. Para calcular el rnimero de intervalos se aplca la regia de Sturges: 143.322: logio(n) Slendo n el tamafo de la muestra Los intervalos deben cumplir con tres caracteristicas: 2) Todos deben tener el mismo ancho. ) Un dato s6lo puede pertenecer a un solo intervalo. .¢) No debe haber intervalos vacios. Paso 3. Se calcula el ancho del intervalo (0) Se obtiene dividiendo el rango para el ndmero de intervalos: Cuando el valor de 1 no es exacto, se debe redondear convenientemente ya sea al valor superior o al inferior. aso 4. Se forman los intervalos de clase cuyo ancho es i, esto se logra agregando (i — 1) unidades al limite interior de cada clase, comenzando por el xix del rango. aso 5. Se obtione la marca de clase (2), que es el punto medio de una clase y se obtiene sumando los limites infeiores (1,) y superiores de una clase (1) y dividiendo el resultado entre dos. aso 6. Realizando el conteo de datos que cae dentro de cada clase, se calculan las marcas de clase, se Ubican ‘las frecuencias absolutas, se calculan las frecuencias relativas, asi como las frecuencias ‘acumuladas relativas, Ejemplo. ‘A.40 estudiantes se les pid que estimaran ol niimero de horas que habjan dedicado a estudiar la semana ppasada (tanto en clase como fuera de ella), obteniéndose los siguientes resultados: 36] 30] 7 | 0] 2 | 3 | 0] 50 S435 | as_[sz | «a | sa_| oo | 38 a2 [as | se | 4a | a0 | ss | 49 | 39 sa] so] 6s | a5 | se | 47 | 37 | 56 se so] 47_| se | ss_| 39 | sa] 45 Paso 1. De la tabla se observa que el valor maximo es 65 y el minimo es 30, por lo que calculando el rango se obtiene: B= Snax ~%nn = 5 ~ 30 = 35 aso 2. Calculando el nero de intervalos se obtione: 3 ky +32 logio(n) = 1+3.322-log.o(40) aso 3. Calculando el ancho se obtene: Redondeando al entero superior se obtiene 6 aso 4, Se forman los intervalos de clase cuyo rango es 6, esto se logra agregando (6 ~ inferior de cada clase, comenzando por el sai, del rango. De este modo se obtiene: 3045 5; 64S =A; 424 47; 4045 5 S445=59; 60+5=65 Paso 5. Se obtiene la marca de clase (x), que es el punto medio de una clase y se obtiene sumando los limites inferores (1,) y superiores de una clase (Lz) y divdiendo el resultado entre dos: itl, = Paso 6. Realizando el conteo de datos que cae dentro de cada clase, calculando la marca de clase y las, frecuencias se obliene’ ce 20=35| 228-25 | @ | o2 | w | e| o2 | 2 as-a| #9 aa5 | 6 | oss | as | 14] 025 | a5 aa | 27 Las | 5 [oss] 125] 19[ 0475] «ns es | 223 505 | 7 [ors] 175] 26] 055 | 459 | #432565 | 11 | o275| 275] 37 |o925| 928 0-95 | 225 5| 3 | oars] 75 || 1 | 10 Teil 20 | + [00 ‘Algunas interpretaciones de la tabla son las siguientes: El valor de f, = @ significa que 8 estudiantes dedicaron a estudiar la semana pasada entre 30 y 35 horas. El valor de horas. 50.5 significa que 7 estudiantes dedicaron en promedio a estudiar la semana pasada 50S El valor de f= 015 y %fr = 15% significa que el 0.15 0 el 15% de los estudiantes dedicaron a estudiar la semana pasada entre 36 y 41 horas. 26: Significa que 26 estudiantes dedicaron a estudiar la semana pasada entre 30 y 53 Los valores Fr, = 0.925 y %Fr, = 92.5% signfican que ol 0.925 0 o1 92.596 de los estudiantes dedicaron a estudiar la semana pasada entre 30 y 59 horas. Como se ha visto, as tablas son una manera de organizar una base de datos para tener una percepolén més clara de ellos. Sin embargo, oxisten la gréficas que son representaciones visuales mas rapidas y sencilas que permiten mostrar la informacién contenida en las tablas y expresan con mayor claridad la relacién que los datos tienen entra si. Las gréficas son un medio efectivo no solo para descriiry resumir la informacion, sino una poderosa herramienta para analizarla, 3. TIPOS DE GRAFICAS Una grética es la representacién de datos, generalmente numéricos, mediante lineas, superficies 0 simbolos, para ver la relacién que esos datos guardan entre si. Las representaciones gréficas en Estadistica deben conseguir que un simple andlsis visual ofrezca la mayor informacién posible. Las gréficas se pueden agrupar en seis tipos: 9.1. GRAFICAS DE LINEAS GRAFICA SIMPLE DE LINEAS Muestran la relacion entre dos variables cuantitativas. Es una grética que usa puntos conectados por lines para mostrar como cambia el valor dela variable dependiente representada on el eje vertical con respecto al comportamiento de una variable independiente representada en ol eje horizontal. Las escalas en los ejes pueden ser lineales,logaritmicas o ambas. Este tipo de graficas pueden usarse cuando los datos se relacionan entre si, es decir, cuando se puede decir que existe ciarta confinuidad entre las observaciones (como por ejemplo el crecimiento poblacional, la evolucién del peso o estatura de una persona a través del tiempo, el desemperio académico de un ‘estudiante a lo largo de su preparacién escola, las varlaciones presentadas en la medicion realizada en ‘algin experimento cada segundo). Ejemplo, ‘Aqui se muestra el comportamiento del porcentaje de puntualidad promedio de los trabajadores y los . Se forma la siguiente tab 16 Tnforvalos de clase. Intervalo [Limite Limite coclase | Inferior ‘Superior iy Ls, 1 49.1 496 2 496, 504 3 50.1 506 4 506 SLi 5 SL 516 6 516 521 7 52.1 526 8 52.6 531 caso se elige 0.51, valor que lattes pee Teale do ae ineralo | Lint Lint case | trevor | super t t 7 [sto | aoa 2 | ase | soa 3 | sess soss 4 [se [sta [sue | suas é | si6s | sae 7 [sie | sr [se | sae Cole as marcas do clse: x = HHH Tewalo do ase ee ease | incr | Superor | 20 uy Ls, a 1 [ao | anor aa a [ane | S012 | aa 3 [sez | sass | -soae + [snes | sti | soa S| suas | —si6s | sia0 é [ses | saa | si 7 [suse | —sa6r | saan | ser | sain | saa 7 Para que los intervalos cumplan con las tres caractersticas descrtas, normalmente se aumenta el ancho e intervalo en una cifra decimal mas que la que contiene los datos. Como es ancho es de 0.5, para este fe se va agregando desde el primer dato. Ahora, se calculan la: La frecuencia (f) que es el nimero de datos que pertenece a cada intervalo de clase. La frecuencia relativa (fn), que es la frecuencia de cada una de las clases dividida entre el ntmero total {de datos (n) La frecuencia acumulada (F,) que son los datos acumulados desde el primer dato hasta la i-ésima clase. La frecuencia acumulada relativa (Fr;) que es la frecuencia acumulada de la clase i-ésima entre el nimero total de datos (n) Por lo que la tabla completa queda de la siguiente forma: TESS [ts |nanorc|Peemcs | sana | aS Gas | ons; | sigur | S2cese |™=PVOM2) lava | scmulade | “te Uy Ls, 7 i ‘ Fn 1 | 410 | 4961 | 4936 | 5 0.08 5 06 2 | a961 | saz | 4987 | 6 0.08 11 04 3 | soaz_| soss | sosa | 12 05, 23 029) 4 | soss | suis | somo | ie 023 a ost s | sie | si6s | 5140 | 16 02 37 on 6 | sis | szas | sim | 20 025 77 036 7_| seas | sze7_| seaz | 2 003 79 039) a | seer_| saie | sess | 1 01 20 1.00 Total [| _a0 1.00 ‘Acontinuacién, se muestra el histograma en formato de gréfica de barras sobre un sistema coordenado en ‘cuyo eje x se detallan los intervalos de clase y en el eje y se ubican las frecuencias o las frecuencias relativas. Histograma 2 » 15 10 o a ae ‘Se muestra el poligono de frecuencias en su formato de linea quebrada que une los puntos de interseccl6n de la abscisa que corresponde a la marca de clase con la ordenada que puede ser la frecuencia 0 la frecuencia relatva. 18 Poligono de frecuencias 20 0 4 pt Notese como el poligono se dibuja sobre un histograma de la misma distribucion, la linea quebrada debe Lnir los centros de las bases superiores de los recténgulos del histograma. ‘A continuaci6n se presenta la ojva de frecuencias menor que como una linea quebrada que se trazan por los puntos de interseccion de las coordenadas que corresponden a las marcas de clase y sus respectivas frecuencias acumuladas o frecuencias acumuladas relativas, Ojjva de frecuencias 0 20 4, ANALISIS ESTADISTICO PARA DATOS NO AGRUPADOS 4.1. MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS. Las medidas de tendencia central son medidas de un conjunto de datos que proporcionan un valor simple ¥yrepresentativo, que resume un gran volumen de informacién. Este valor tiende a ubicarse en el centro dol ‘conjunto. Las medidas del centro més conocidas son: la mecia aritmética, la mediana, la moda, la meda Ponderada, la media geométrica y la media arménica. 19 MEDIA La media (2)_@8 el promedio de las lecturas 0 mediciones individuales que se tienen en la muestra, se

También podría gustarte