Está en la página 1de 25

CENTRO INTERDISCIPLINARIO DE INVESTIGACIN Y DOCENCIA EN EDUCACIN TCNICA

ESTADISTICA DESCRIPTIVA

MCEC-3324

Dr. Roberto de la Torre Snchez

AGOSTO-2005

1. Tabulacin y Graficacin de Datos


El propsito de esta seccin es presentar de una manera breve y simple las ventajas y limitaciones de una tcnica conocida como Distribucin de Frecuencias para la organizacin y presentacin de un conjunto numeroso de datos.

1.1.

Distribucin de Frecuencias
Una Distribucin de Frecuencias se define como una tcnica para la presentacin de una coleccin de objetos clasificados de tal forma que incluyan el nmero de objetos que pertenecen a cada clase. Se expresa mediante una representacin tabular del conjunto de datos, agrupados en clases, con las clases ordenadas y con las frecuencias correspondientes a cada clase. Para que la representacin tabular o grfica de un conjunto de datos sea una Distribucin de Frecuencias, las clases que la conforman deben satisfacer los siguientes requisitos: 1. 1. Mutuamente Excluyentes: Una observacin, dato o individuo no puede pertenecer a dos clases al mismo tiempo. 2. 2. Exhaustivas: Todos y cada uno de los datos del conjunto debe pertenecer a una clase. Racional En esencia, la distribucin de frecuencia muestra la frecuencia con la cual los objetos se distribuyen entre las diferentes clases. Por su naturaleza en cuanto al nmero de datos y la variable que representan, algunos conjuntos de datos se pueden arreglar y organizar de tal manera que su examen se realiza fcilmente. Considere por ejemplo un conjunto de datos que se obtuvo a partir de preguntarle a 100 profesores de una institucin su opinin sobre el efecto que un programa de induccin tuvo sobre la integracin de los alumnos de nuevo ingreso al ambiente acadmico de la institucin. Se les pidi que seleccionaran la opcin que mejor representaba su opinin. El programa de induccin: ___Tuvo una fuerte influencia positiva en la integracin ___Tuvo una ligera influencia positiva ___No tuvo ninguna influencia ___Tuvo una ligera influencia negativa ___Tuvo un fuerte influencia negativa Una forma de organizar los datos para efectuar tanto su organizacin como su interpretacin podra consistir en simplemente en contar el nmero de profesores que seleccionaron cada una de las alternativas disponibles, tal como se muestra en la siguiente tabla:
Respuestas de 100 profesores Respuesta Tuvo una fuerte influencia positiva en la integracin Tuvo una ligera influencia positiva No tuvo ninguna influencia Tuvo una ligera influencia negativa Tuvo un fuerte influencia negativa Nmero de profesores 30 35 20 10 5

Con los datos organizados de esta forma, se pueden generar algunos enunciados sobre el comportamiento de los datos. Por ejemplo:

El 65% de los profesores opinaron que el programa tuvo una influencia positiva (30+35 de los 100 profesores) La mayora de los profesores opinaron que el programa tuvo un ligera influencia positiva sobre la integracin de los alumnos Solamente el 15% de los profesores opinaron que el programa tuvo una influencia negativa

Un conjunto de datos como el anterior se puede organizar fcilmente para poder tener una apreciacin general de la opinin de ese conjunto de profesores. Sin embargo, muy a menudo los datos de inters en educacin y en general en las ciencias sociales resultan muy difciles de organizar. La dificultad radica no solamente por el nmero de datos sino en gran medida por la naturaleza de las variables que los datos representan. A continuacin se presenta un ejemplo para mostrar todos los elementos asociados con la organizacin de datos as como para su interpretacin y posteriormente se discutir el procedimiento para la construccin de una distribucin de frecuencias. Ejemplo DF01 Se aplic un examen de admisin de 200 preguntas a un conjunto de 100 aspirantes a ingresar a una institucin educativa. La siguiente tabla muestra los resultados obtenidos, tomando en cuenta solamente el nmero de respuestas correctas.
Tabla df01 Nmero de respuestas correctas 132 126 87 94 97 191 174 171 93 112 123 106 85 105 138 179 95 137 88 112 170 56 82 131 126 141 89 92 164 156 121 89 146 146 163 137 146 56 94 102 90 71 159 92 65 79 126 153 112 139 120 147 68 102 101 96 153 138 93 128 92 98 108 145 86 112 83 103 76 157 105 80 87 109 131 110 159 148 112 96 133 93 154 138 75 134 132 108 67 134 139 63 120 121 115 150 65 152 68 96

Los datos se analizan a partir de ciertas preguntas centrales que en general no son posibles de anticipar para cualquier conjunto de datos. Es decir, los datos se organizan y estructuran en funcin del tipo de preguntas que se requiere responder en relacin con un conjunto de datos. Para el ejemplo en cuestin, suponga que se requiere responder a preguntas del siguiente tipo:
Cul es el puntaje mnimo y cul es el puntaje mximo? Cul es el puntaje que ms veces se present? Si hubiera que separar al conjunto de datos en dos categoras que contengan 50 alumnos en cada categora, cul sera el puntaje que separara a estas categoras? S la institucin est dispuesta a aceptar solamente a los alumnos que obtuvieron el 70% de respuestas correctas, a cuntos alumnos aceptara? Suponga que la institucin est dispuesta a aceptar a los mejores 60 alumnos, a partir de qu puntaje se aceptara a un alumno? Suponga que la institucin est dispuesta a aceptar a todos los alumnos pero que los alumnos en el cuartil inferior debern tomar un curso de nivelacin, cuntos alumnos participaran en el curso y a partir de que puntaje se asignaran al grupo de nivelacin? Tomando en cuenta que el rango posible de respuestas correctas es de 0-200, qu tan dispersos se encuentran los datos? En que regin de la escala de puntajes se concentra la mayora de ellos?

Como una primera aproximacin a la respuesta a las preguntas anteriores, los datos se pueden organizar de mayor a menor o viceversa y contar el nmero de alumnos que obtuvo ese puntaje.
Tabla df01-2 X F % 56 2 2 63 1 1 65 2 2 67 1 1 68 2 2 71 1 1 75 1 1 76 1 1 79 1 1 80 1 1 82 1 1 83 1 1 85 1 1 86 1 1 87 2 2 88 1 1 89 2 2 90 1 1 92 3 3 93 3 3 94 2 2 95 1 1 96 3 3 97 1 1 98 1 1 101 1 1 102 2 2 103 1 1 105 2 2 106 1 1 108 2 2 109 1 1 110 1 1 % Acumulado 2 3 5 6 8 9 10 11 12 13 14 15 16 17 19 20 22 23 26 29 31 32 35 36 37 38 40 41 43 44 46 47 48 X F % 112 5 5 115 1 1 120 2 2 121 2 2 123 1 1 126 3 3 128 1 1 131 2 2 132 2 2 133 1 1 134 2 2 137 2 2 138 3 3 139 2 2 141 1 1 145 1 1 146 3 3 147 1 1 148 1 1 150 1 1 152 1 1 153 2 2 154 1 1 156 1 1 157 1 1 159 2 2 163 1 1 164 1 1 170 1 1 171 1 1 174 1 1 179 1 1 191 1 1 % Acumulado 53 54 56 58 59 62 63 65 67 68 70 72 75 77 78 79 82 83 84 85 86 88 89 90 91 93 94 95 96 97 98 99 100

En la tabla, la columna X representa los puntajes obtenidos, F es la frecuencia o veces en que ocurre el puntaje; la columna % representa el porcentaje de veces en que se presenta el puntaje correspondiente y la columna % Acumulado representa la suma de los porcentajes anteriores incluyendo el puntaje correspondiente. A partir de esta organizacin se puede determinar que el puntaje mnimo fue de 56 y el mximo de 191. Tambin se puede observar que el puntaje que ocurri ms veces (el ms frecuente) fue 112 ya que 5 estudiantes obtuvieron ese puntaje. Si se aceptan solamente a los alumnos que obtuvieron un puntaje mnimo equivalente al 70% de respuestas correctas, la institucin aceptara al 23% de los alumnos, ya que el 77% de ellos obtuvieron un puntaje menor a 140 (equivalente al 70% de las 200 preguntas).

Si se tomara como una primera aproximacin a la dispersin de los puntajes a la diferencia entre el valor mximo y el valor mnimo, entonces la dispersin sera igual a 135. Si se observa la tabla, se puede determinar que el 48% de los alumnos obtuvo un puntaje menor o igual a 110 preguntas y que el 52% obtuvo un puntaje mayor o igual a 112 preguntas. Por lo tanto, el conjunto de datos se separara en dos grupos con 50 alumnos alrededor de un puntaje de 111 respuestas correctas. Si la institucin estuviera dispuesta a aceptar a los mejores 60 alumnos, seran aceptados aquellos alumnos con un puntaje igual o superior a 103 respuestas correctas, ya que 40 alumnos (el 40%) obtuvieron un puntaje igual o menor a 102. Si la institucin acepta a todos los estudiantes pero el grupo compuesto por el cuartel inferior (se define como cuartil al 25% de alumnos, por lo tanto, una distribucin de datos tiene 4 cuartiles), deber inscribirse en un curso de nivelacin, entonces participaran los alumnos que obtuvieron un puntaje igual o inferior a 90 (23 alumnos). Sin embargo, la respuesta a la ltima pregunta planteada, requiere un tipo de organizacin de los datos diferente. Lo importante de una organizacin como lo anterior, es que muestra como los puntajes (nmero de respuestas correctas) se distribuyen a lo largo de la escala de posibles valores. Se puede observar en la tabla, que los datos se organizaron en dos columnas, la primera incluye valores que van de 56 a 110 y la segunda de 112 a 191. Entonces, se puede decir que hay 48 alumnos que obtuvieron un puntaje entre 56-110 y 52 alumnos con un puntaje en el intervalo 112-191. Si se observa la amplitud de los intervalos, el primero tiene una amplitud de 54 (110-56) y el segundo una amplitud de 79 (191-112). Surge as entonces el planteamiento que da origen a la organizacin de datos en una forma estructurada a partir de construir diversos intervalos y contar el nmero de veces que ocurren los puntajes dentro de cada uno de estos intervalos. Como una segunda aproximacin al esquema de organizacin, los datos anteriores se pueden organizar de tal forma que los intervalos tengan una misma amplitud. Por ejemplo, se pueden organizar de las siguientes formas:
Tabla df01-a Intervalo Frecuencia 50-59 2 60-69 6 70-79 4 80-89 10 90-99 15 100-109 10 110-119 7 120-129 9 130-139 14 140-149 7 150-159 9 160-169 2 170-179 4 180-189 0 190-199 1 Tabla df01-b Intervalo Frecuencia 40-59 2 60-79 10 80-99 25 100-119 17 120-139 23 140-159 16 160-179 6 180-199 1 Tabla df01-c Intervalo Frecuencia 50-59 37 100-149 47 150-199 16

Si se observan cuidadosamente estas tablas y se comparan con la tabla df01-2, se pueden observar dos importantes diferencias. Primera, en la tabla df01-2 se listan todos los resultados que realmente ocurrieron y se observa que por ejemplo, ningn estudiante

obtuvo un puntaje igual a 60. En la primer tabla anterior, el intervalo 60-79 indica que 10 estudiantes obtuvieron un puntaje en ese intervalo, pero no se puede precisar cuntos obtuvieron 60, cuntos 61, etc. En el agrupamiento por intervalos, se pierde en diversos grados la identidad de los valores originales, pero en cambio se gana en interpretacin. En tablas df01-a y df01-b se observa que existen dos intervalos en donde tienden a acumularse los datos (es decir, las distribuciones tienen dos modas), en los intervalos 9099 y 130-139 de la primer tabla y 80-89 y 120-130 de la segunda, mientras que las frecuencias tienden a disminuir hacia los extremos inferiores y superiores. Resulta claro que en funcin de la interpretacin, estas dos tablas proporcionan una relativa ventaja en relacin con la tabla df01-2. La tabla df01-c muestra una distribucin un poco ms homognea en relacin con las tablas df01-a y df01-b, sin embargo oculta que la distribucin tiene dos picos o modas, como se seal anteriormente. En general, se puede concluir que mientras mayor sea la longitud de los intervalos aumenta el poder de interpretacin a costa de perder la informacin de lo datos originales. El nmero de intervalos y su amplitud es una decisin arbitraria, ms no caprichosa que depende de la naturaleza de los datos y las interpretaciones que se desean derivar de ellos. Si se requiere una alta precisin en la interpretacin, si se desea estudiar las pequeas fluctuaciones de frecuencia que ocurren en diferentes puntos de la escala y el nmero de datos es grande, entonces se sugieren intervalos estrechos y como consecuencia un nmero mayor de intervalos. Por otro lado, si slo se desea tener una impresin general de los datos, entonces los intervalos pueden ser amplios. Finalmente, si el nmero de posibles valores es pequeo, entonces el agrupamiento es irrelevante. De la discusin anterior se pueden derivar algunas conclusiones. 1. No existe una regla generalmente aceptada para establecer el nmero o amplitud de las clases o intervalos y que sea apropiada para todo tipo de datos y para todos los propsitos. 2. Es imposible anticipar todos los posibles propsitos para los cuales se pueden construir distribuciones de frecuencias as como todos los posibles tipos de datos que se pueden analizar.

Construccin de la distribucin de frecuencias


La construccin de una Distribucin de Frecuencias consiste en dos pasos: 3. 1. Determinacin del nmero de clases (K). 4. 2. Conteo y asignacin de casos a clases Pero antes de proceder, introduzcamos algunos de los conceptos usados en el contexto de las distribuciones de frecuencia. Nomenclatura
Clase: Cada una de las categoras en las que se distribuye un conjunto de datos. Frecuencia de Clase (fj): Nmero de observaciones, datos o individuos que pertenecen a una clase. Tambin se conoce como Frecuencia Absoluta. Intervalos de Clase: Rango de valores de una clase expresado como un intervalo. Lmites de Clase: Valores extremos del intervalo de clase. El valor inferior del intervalo recibe el nombre de Lmite Inferior de la clase (L.I.), y el valor superior del intervalo se llama Lmite Superior de la Clase (L.S.). Tambin se conocen como Lmites Aparentes. Lmites Reales de Clase: Son los valores exactos que tericamente limitan una clase. El lmite inferior se llama Lmite Real Inferior (L.R.I.), y el lmite superior se llama Lmite Real Superior (L.R.S.). Ancho de Clase (cj): El tamao de un intervalo de clase es la diferencia entre los lmites reales que la forman. Recibe el nombre de Ancho de Clase, Tamao de Clase o Longitud de Clase. Si todas las clases son del mismo ancho, entonces el ancho comn se representa por la letra c.

Marca de Clase (Xj): Al punto medio de cada clase se le conoce como Marca de Clase. Se obtiene promediando los lmites de clase. Todos los valores que se incluyen en una clase se suponen coinciden con la marca de clase. Frecuencia Acumulada (faj): La Frecuencia Acumulada hasta la clase j se define como la suma de las frecuencias menores que el lmite real superior de la clase j. Frecuencia Relativa (frj): La Frecuencia Relativa de una clase se define como la frecuencia de la clase dividida por el nmero total de frecuencias o casos. frj = fj N Frecuencia Relativa Acumulada (fraj): La Frecuencia Relativa Acumulada de la clase j se define fra j = fa j N

como la frecuencia acumula hasta la clase j inclusive dividida por la frecuencia total:

PROCEDIMIENTO PARA LA CONSTRUCCIN DE UNA DISTRIBUCIN DE FRECUENCIAS 1. Definicin de las clases Se aplican dos posibles enfoques. El primero es determinar el nmero de clases con lo que se fija la amplitud de las clases o bien se establece la amplitud de las clases con lo que se fija el nmero de ellas. 2. Determinacin del Nmero de Clases En trminos generales no existe un criterio nico para determinar cuntas clases debern construirse. Algunos autores recomiendan un nmero de clases entre 5 y 20, otros entre 6 y 15. Inclusive se han llegado a proponer frmulas matemticas para determinar el nmero de clases. Por ejemplo, se ha propuesto que el nmero de clases (K) sea igual al Ln N/Ln 2, en donde N es el nmero de datos a agrupar. En todo caso, la eleccin del nmero de clases depende del nmero de datos y de la amplitud o dispersin de los mismos. 3. Determinacin del Ancho de Clase Se define como ancho de clase, c, a la diferencia entre los lmites reales superior e inferior de la clase. Se puede calcular empleando dos criterios:
c= Siguiente valor unitario al Mximo - Minimo K Mximo Mnimo c= K

En donde c es el ancho de clase y K es el nmero de clases. La limitante que existe usando esta definicin es que obliga a que todas las clases tenga la misma amplitud, lo cual no siempre es recomendable. En el ejemplo que nos ocupa, entonces se tendra que el rango es igual a 136 137 y suponga que se deciden construir 10 clases o intervalos de la misma amplitud, entonces el ancho de clase, c, es igual a 13.6 o 13.7. Considerando que los valores reportados son enteros, un ancho de clase conveniente sera 14. As entonces, se tendran 10 clases con un ancho de clase igual a 14. Se sugiere que el primer intervalo tenga como lmite inferior al valor mnimo observado. Entonces, la primera clase tendra como lmites reales 55.5-69.5 y como lmites aparentes 56-69.

La Distribucin de Frecuencias para el ejemplo quedara de la siguiente forma:


Clase L.I.-L.S. L.R.I.-L.R.S. F X F.R. F.A. F.R.A.

1 2 3 4 5 6 7 8 9 10

56-69 70-83 84-97 98-111 112-125 126-139 140-153 154-167 168-181 182-195

55.5-69.5 69.5-83.5 83.5-97.5 97.5-111.5 111.5-125.5 125.5-139.5 139.5-153.5 153.5-167.5 167.5-181.5 181.5-195.5

8 7 21 12 11 18 11 7 4 1

62.5 76.5 90.5 104.5 118.5 132.5 146.5 160.5 174.5 188.5

0.08 0.07 0.21 0.12 0.11 0.18 0.11 0.07 0.04 0.01

8 15 36 48 59 77 88 95 99 100

0.08 0.15 0.36 0.48 0.59 0.77 0.88 0.95 0.99 1

4. Marcas de Clase Ya se mencion que los datos individuales pierden su identidad. Entonces se hace necesario que el conjunto de datos contenidos en un intervalo en particular se representen por algn valor. Este valor se conoce como marca de clase y es simplemente el punto medio del intervalo. As, para el primer intervalo la marca de clase es 62.5. 5. Frecuencia de Clase (F) Una vez que se han definido las clases, cada caso, dato u observacin se asigna a la clase a la que pertenece en funcin de su valor y de los intervalos de clase definidos. La frecuencia de clase entonces es simplemente el nmero de casos que quedaron clasificados en esa clase. 6. Frecuencia Relativa (F.R.) Con el propsito de conocer la importancia relativa de las clases o intervalos se incluye una cantidad que representa la contribucin relativa de las frecuencias tomando como base el total de los datos observados. As, la primer clase que tiene una frecuencia igual a 8, contribuye con el 8% o con el 0.08 si la base de calculo es 100% o 1 7. Frecuencia Acumulada (F.A.) La frecuencia acumulada indica como se van acumulando los datos conforme se pasa de un intervalo al siguiente. As, para el ejemplo anterior, los primeros tres intervalos en conjunto tienen una frecuencia acumulada de 36. Es decir, si se tomaran en conjunto, existen 36 datos que tienen un valor entre 56 y 97. 8. Frecuencia Relativa Acumulada (F.R.A.) As como se calcula la frecuencia relativa, la frecuencia acumulada dividida entre el nmero de datos, representa el porcentaje de ellos que se ha acumulado hasta un determinado intervalo. A este nmero de se denomina Frecuencia relativa acumulada. Como se menciona ms adelante, la representacin grfica de la distribucin de frecuencias se efecta tomando como valores a graficar algunos de los valores adicionales, dando lugar a diferentes tipos de grficas dependiendo del valor graficado.

La Distribucin de Frecuencias para el ejemplo quedara de la siguiente forma:


Clase 1 L.I.-L.S. 56-69 L.R.I.-L.R.S. 55.5-69.5 F 8 X 62.5 F.R. 0.08 F.A. 8 F.R.A. 0.08

2 3 4 5 6 7 8 9 10

70-83 84-97 98-111 112-125 126-139 140-153 154-167 168-181 182-195

69.5-83.5 83.5-97.5 97.5-111.5 111.5-125.5 125.5-139.5 139.5-153.5 153.5-167.5 167.5-181.5 181.5-195.5

7 21 12 11 18 11 7 4 1

76.5 90.5 104.5 118.5 132.5 146.5 160.5 174.5 188.5

0.07 0.21 0.12 0.11 0.18 0.11 0.07 0.04 0.01

15 36 48 59 77 88 95 99 100

0.15 0.36 0.48 0.59 0.77 0.88 0.95 0.99 1

Comparacin de Distribuciones de Frecuencias


Hasta este momento, la discusin del tema de distribuciones de frecuencias se ha centrado en la organizacin y tabulacin de un conjunto de datos. Pero muy a menudo, la riqueza de este enfoque de anlisis est en la capacidad que tiene para comparar el comportamiento de dos o ms grupos de observaciones medidos sobre la misma variable o el mismo grupo medido sobre variables medidas en la misma escala o una combinacin de ambos. Sin embargo hay que ser muy cuidadosos en la seleccin de las medidas de comparacin. Considere el siguiente ejemplo: Ejemplo de comparacin de frecuencias Para el ejemplo que se ha estado trabajando, adicionalmente al examen de admisin tambin se aplic el Test de Aptitud Acadmica (SAT). Los datos entonces incluyen informacin sobre la seccin verbal y la seccin matemtica. Existe la nocin de que en trminos generales las mujeres tienen un mejor desempeo en la parte verbal que la matemtica, mientras que los hombres tienen un mejor desempeo en la parte matemtica. Los datos de la muestra en estudio se han organizado en una distribucin de frecuencias, de tal manera que se quiere comparar el resultado entre hombres y mujeres en la parte verbal y matemtica.
MUJERES SAT VER SAT MAT FA FR FA FR HOMBRES SAT VER SAT MAT FA FR FA FR

Clase 1 2 3 4 5 6 7

Lmites Aparentes 149.5-249.5 250.5-349.5 350.5-449.5 450.5-549.5 550.5-649.5 650.5-749.5 750.5-849.5

Lmites Reales 150-250 250-350 350-450 450-550 550-650 650-750 750-850 Total

6 20 20 9 2 57

10.53 35.09 35.09 15.79 3.51 100

1 2.33 10 17.54 3 6.98 18 31.58 12 27.91 4 9.3 25 43.86 23 53.49 14 32.56 2 3.51 3 6.98 16 37.21 2 3.51 1 2.33 9 20.93 57 100 43 100 43 100

Como una primera aproximacin a la comparacin se podra asumir que si hombres y mujeres se desempean igual en ambas pruebas, entonces las frecuencias tendran la misma distribucin. Pero de entrada y dado que el nmero de hombres no es igual al nmero de mujeres, la comparacin de las frecuencias absolutas (FA) no es vlida.

Se deber usar una medida que no dependa del nmero de casos o, alternativamente, que pondere el nmero de casos. sta es precisamente la funcin de la frecuencia relativa, que como se recordar, indica la contribucin relativa de cada frecuencia. Por ejemplo, si se comparan hombres y mujeres en la parte verbal, se puede observar que aproximadamente el 55% de ellas obtuvo un puntaje igual o superior a los 550 puntos (35.09+15.79+3.51) mientras que los hombres solamente el 9% obtuvo un puntaje igual a superior a 550 puntos. En la parte matemtica se puede observar que aproximadamente el 58% (37.21+20.93) de los hombres obtuvieron un puntaje igual o superior a 550 puntos mientras que solamente el 7% de las mujeres obtuvieron un puntaje igual o superior a 550 puntos. Se podra entonces concluir provisionalmente que los datos de esta muestra soportan la nocin de que en general el rendimiento en la parte verbal del SAT de las mujeres es superior al de los hombres, mientras que en la parte matemticas es a la inversa. Sin embargo, esta conclusin tiene que ser validada a travs de un proceso formal de prueba de hiptesis o de algn otro procedimiento.

1.2.

Graficacin de Datos
Con la emergencia de las nuevas herramientas analticas y de software computacional orientados a la presentacin y anlisis de datos, las opciones disponibles para la generacin de grficas ha generado una gran diversidad de formas de visualizar los datos. La representacin grfica aade un componente adicional para la interpretacin de los mismos. Sin embargo, la gran variedad en formatos dificulta la formalizacin de un proceso estndar para su construir. En este respecto, aqu se plantean solamente los aspectos generales tanto para la construccin como para la interpretacin de grficas. En trminos generales, las grficas auxiliares a las distribuciones de frecuencias se agrupan en dos grandes reas: histogramas y polgonos de frecuencias.

Histogramas
La forma ms sencilla de generar e interpretar un histograma es considerarlo como conjunto de rectngulos, uno para cada clase o intervalo, cuya base tiene una longitud igual a la amplitud del intervalo y cuya altura es igual a la frecuencia respectiva o a la frecuencia relativa correspondiente. Las dos siguientes grficas muestran, respectivamente, el histograma de frecuencias y frecuencias relativas del ejemplo.

F 25 20 15 10 5 0
.5 .5 .5 .5 .5 .5 .5 .5 .5 .5 69 83 97 11 25 39 53 67 81 95 -1 -1 -1 -1 -1 -1 555-1 . . . 5 5 5 5 5 5 .5 55 69 83 1. 5. 9. 3. 7. 1. 97 11 12 13 15 16 18

F.R. 0.25 0.20 0.15 0.10 0.05 0.00


55 .5 -6 9. 5 69 .5 -8 3. 5 83 .5 -9 7. 5 97 .5 -1 11 11 .5 1. 512 5. 12 5 5. 513 9. 13 5 9. 515 3. 15 5 3. 516 7. 16 5 7. 518 1. 18 5 1. 519 5. 5

Polgonos de Frecuencias
Un polgono de frecuencias o frecuencias relativas es un conjunto de lneas que unen los puntos medios de la parte superior de cada rectngulo. Para que se considere un polgono, se agrega un intervalo de igual amplitud y de frecuencia cero en ambos extremos y se unen sus puntos medios con el punto medio superior del intervalo inferior y del superior.

F 25 20 15 10 5 0
41 .5 -5 5. 5 55 .5 -6 9. 5 69 .5 -8 3. 5 83 .5 -9 7. 97 5 .5 -1 11 11 .5 1. 512 12 5. 5 5. 513 9. 13 5 9. 515 15 3. 5 3. 516 16 7. 5 7. 518 18 1. 5 1. 519 19 5. 5 5. 520 9. 5

Si se grafica la frecuencia relativa acumulada entonces se obtiene lo que se conocen como Ojivas de Frecuencias Relativas Acumuladas. Tienen la siguiente forma:
F.R.A. 1.2 1 0.8 0.6 0.4 0.2 0 55.569.5 69.583.5 83.5- 97.5- 111.5- 125.5- 139.5- 153.5- 167.5- 181.597.5 111.5 125.5 139.5 153.5 167.5 181.5 195.5

2. Tratamiento Analtico de Datos


Esta seccin tiene como propsito presentar una discusin amplia sobre uno de los aspectos ms importantes en el estudio de las distribuciones de frecuencias. Muy a menudo, una vez que los datos se han organizado para revelar su estructura y comportamiento, es necesario obtener informacin adicional que permita caracterizar al conjunto de datos como un todo. Compare por ejemplo las distribuciones A y B de la siguiente grfica. Se observa que el bloque de datos de la distribucin B se encuentra a la derecha de la distribucin A. En relacin con la variable de inters, la distribucin B se encuentra localizada en la parte superior de la escala mientras que la distribucin A se encuentra localizada en la parte inferior. Se puede observar que la forma de las distribuciones es muy parecida. Entonces las distribuciones difieren solamente en la ubicacin que guardan en la escala de la variable, es decir, tienen una locacin diferente.

Grfica 1
0.045 0.040 0.035 0.030 0.025 0.020 0.015 0.010 0.005 0.000 0 20 40 60 80 100 120 140 A B

Ahora compare las siguientes distribuciones de frecuencias. Los datos en ambas distribuciones tienen el mismo recorrido, ocupando la misma ubicacin en la escala de la variable de inters. Sin embargo en la distribucin A, hay ms datos concentrados alrededor de la lnea vertical localizada en el valor 60 que en la distribucin B. Mientras que en la distribucin B hay ms datos concentrados en los extremos de la distribucin. Se puede decir que las distribuciones difieren en el nivel de concentracin de los datos alrededor de algn valor central.
Grfica 2
0.045 0.040 0.035 0.030 0.025 0.020 0.015 0.010 0.005 0.000 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 B A

Ahora compare las distribuciones de la siguiente grfica. En la distribucin A la mayora de los valores tienden en concentrarse entre los valores 2 y 6 pero algunos valores tienden a extenderse a la derecha de la distribucin. En la distribucin B, la mayora de los valores se concentran entre los valores 6 y 8 pero algunos se extienden hacia la izquierda de la distribucin. En ambos casos se dice que son distribuciones no simtricas o sesgadas. La distribucin A est sesgada hacia la derecha o positivamente, y la distribucin B est sesgada hacia la izquierda o negativamente.
Grfica 3
0.30 0.25 0.20 0.15 0.10 0.05 0.00 0 2 4 6 8 10 12 A B

Finalmente observe las siguientes distribuciones de Frecuencia. Aparte de que tienen diferente dispersin tambin se puede observar que distribucin A es ms alta que la distribucin B. Es decir, la ordenada para el valor central de la distribucin A es mayor que la ordenada de B para el mismo valor. Grfica 4
0.045 0.040 0.035 0.030 0.025 0.020 0.015 0.010 0.005 0.000 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 B A

Las grficas anteriores muestran que las distribuciones de frecuencia pueden tener diferentes formas dependiendo en gran medida del comportamiento de los datos y su relacin entre s. La forma de una distribucin proporciona informacin adicional sobre el comportamiento de los datos. Aparte de la representacin grfica de una distribucin, existen procedimientos analticos que nos permiten establecer la forma de la distribucin sin necesidad de graficarla y al aplicar estos procedimientos se obtienen ciertas medidas que describen la forma de la distribucin. Esta seccin tiene el propsito de revisar las distintas medidas que se pueden obtener para estudiar el comportamiento de una distribucin desde la perspectiva de su forma. A estas medidas tambin se les conoce como Estadsticos Sumarios porque expresan en un solo nmero una caracterstica asociada al conjunto de los datos.

2.1.

Medidas de Tendencia Central


El propsito de las medidas de tendencia central o de locacin es doble. Por un lado, las medidas estn diseadas para identificar el valor ms representativo del conjunto de datos. Por otro lado, tambin sirven para ubicar en el continuo de la variable de inters la posicin del conjunto de datos como un todo. Primero se presentan las 3 medidas de tendencia central ms utilizadas y posteriormente se discuten las diferencias entre ellas de manera que se pueda seleccionar la ms apropiada para una situacin especfica. Introduccin En la vida cotidiana el trmino promedio tiene un uso muy extendido y quiz por ello, tiende a ser interpretado de una manera errnea. Se habla por ejemplo del mexicano promedio, del hombre promedio, de la tasa promedio de crecimiento, del alumno promedio y del profesor promedio. Quiz con el uso del trmino promedio lo que se desea significar es lo usual, representativo, normal o tpico o en el mejor de los casos, se pretende representar a un conjunto de objetos o individuos a partir de un elemento de la coleccin. Pero cualquiera que sea el caso, el uso del trmino promedio resulta conveniente cuando se analiza a un grupo de objetos o cuando se comparan grupos entre s.

En el tratamiento formal de las caractersticas de un conjunto de datos muy a menudo se requiere que el conjunto sea representado por un nmero o ndice. Si es posible construir para el conjunto de datos un histograma o polgono de frecuencia, entonces se puede observar la posicin del conjunto de datos considerado como un todo sobre la escala numrica de los datos. Definicin de medidas de tendencia central Las medidas de tendencia central o medidas de locacin, son medidas descriptivas de un conjunto de datos que indican el valor tpico o medio de los datos. Describen la posicin relativa del conjunto de observaciones en el continuo de la variable que se mide.

Media Aritmtica
Media de Datos No Agrupados

La Media Aritmtica o simplemente Media de un conjunto de N datos se representa y define como:


X= X1 + X 2 +...+XN N = Xi N i=1

La traduccin de la expresin es: sume todos los datos del conjunto y divida la suma entre el nmero de datos. Suponga el siguiente conjunto de datos: 62.5, 76.5, 90.5, 104.5, 118.5 , 132.5 , 146.5, 160.5, 174.5, 188.5 La media del conjunto de datos es, entonces: 62 .5 + 76 .5 + ... + 188 .5 1255 X = = = 125 .5 10 10
Media de Datos Agrupados

Cuando los datos proceden en una distribucin de frecuencias, todos los valores X que caen dentro de una clase se consideran iguales al valor del punto medio de la clase correspondiente. Para este tipo de datos, la media es:
X= f1X1 + f2X 2 + ... + fK XK = f1 + f2 + ... + fK

fjX j
j=1

Los trminos Xj y fj representa, respectivamente, la marca de clase y la frecuencia absoluta del intervalo correspondiente, K es el nmero de clases y N el nmero de datos en el conjunto de datos. Ahora suponga la siguiente distribucin de frecuencias:
L.R.I.-L.R.S. 55.5-69.5 69.5-83.5 83.5-97.5 97.5-111.5 111.5-125.5 125.5-139.5 139.5-153.5 153.5-167.5 167.5-181.5 181.5-195.5 F 8 7 21 12 11 18 11 7 4 1 X 62.5 76.5 90.5 104.5 118.5 132.5 146.5 160.5 174.5 188.5

Aqu, se tiene una distribucin de frecuencias por lo que se considera que los datos estn agrupados. Entonces, la media del conjunto de datos es:
X = (8)( 62 .5) + (7)( 76 .5) + ... + (1)(188 .5) 11500 = = 115 8 + 7 + 21 + ... +1 100

Propiedades de la Media Aritmtica

1. La suma algebraica de las desviaciones de un conjunto de datos respecto a su media es 0. Esto es:

(Xi X ) = di = 0
Esto significa que si para valor X se calcula su desviacin con respecto a la media la suma de esas desviaciones siempre ser 0, sin importar los valores X. Sin embargo, el concepto de desviacin con respecto a la media es una idea muy til para entender el concepto de dispersin. 2. La suma de los cuadrados de las desviaciones de un conjunto de datos con respecto a cualquier nmero a es mnima si a = X . 3. La expresin i =1 es mnima si a se selecciona de tal forma que sea igual a la media. Este concepto en central para muchos anlisis estadsticos, tales como la regresin y el anlisis de varianza.
i=1 i=1

(X

a) 2

Mediana
Definicin Se define como la Mediana de un conjunto de datos al valor de X que divide a la distribucin de datos en dos partes de igual rea o nmero de datos. Esto es, el 50% de los datos son mayores a la mediana. A la mediana tambin se le conoce como el percentil 50 o segundo cuartel.
Mediana de Datos No Agrupados

El clculo de la mediana para datos no agrupados es un proceso muy sencillo. Ordene los valores de menor a mayor. Si el nmero de datos es impar entonces la mediana ser el valor central. Si es par, entonces la mediana ser el promedio de los dos valores centrales. Por ejemplo, sea el siguiente conjunto de datos: 62.5, 76.5, 90.5, 104.5, 118.5 , 132.5 , 146.5, 160.5, 174.5, 188.5 Los datos ya estn ordenados y el nmero de datos es par. Por lo tanto la mediana ser el promedio de los dos datos centrales, esto es, el promedio del 5 y 6 nmero: Mediana: (118.5+132.5)/2=125.5
Datos Agrupados

La mediana para un conjunto de datos agrupados se define como:


N fa m 1 ~ = L + 2 *cm X m fm

En donde: m = clase que contiene a la mediana, es decir, el intervalo hasta donde se ha acumulado el 50% de los datos. Lm= Lmite real inferior de la clase que contiene a la mediana. N = Nmero total de casos fam-1 = Frecuencia acumulada hasta la clase anterior a la mediana fm = Frecuencia de la clase mediana cm = Ancho de clase de la clase mediana Suponga la siguiente distribucin de frecuencias:
Clase L.I.-L.S. L.R.I.-L.R.S. F X F.R. F.A. F.R.A.

1 2 3 4 5 6 7 8 9 10

56-69 70-83 84-97 98-111 112-125 126-139 140-153 154-167 168-181 182-195

55.5-69.5 69.5-83.5 83.5-97.5 97.5-111.5 111.5-125.5 125.5-139.5 139.5-153.5 153.5-167.5 167.5-181.5 181.5-195.5

8 7 21 12 11 18 11 7 4 1

62.5 76.5 90.5 104.5 118.5 132.5 146.5 160.5 174.5 188.5

0.08 0.07 0.21 0.12 0.11 0.18 0.11 0.07 0.04 0.01

8 15 36 48 59 77 88 95 99 100

0.08 0.15 0.36 0.48 0.59 0.77 0.88 0.95 0.99 1

La organizacin de esta distribucin de frecuencias sigue un formato estndar en lo que respecta al contenido de las columnas. Para comenzar se debe localizar la clase que contiene a la mediana. La columna de la frecuencia relativa acumulada (F.R.A.) muestra cmo se van acumulando el porcentaje de los datos. Asi, la mediana deber ser un valor comprendido entre 112 y 125, ya que hasta este intervalo se ha acumulado el 59% de ellos. Adicionalmente, la columna F.A. muestra cmo se ha ido acumulando la frecuencia absoluta. Entonces: m=5, Lm=111.5, N=100, fam-1= 48, fm= 11, cm= 125.5-111.5=14 Por lo que al sustituir estos valores se tiene:

~ 50 48 X = 111.5 + * 14 = 114.04 11
Para este tipo de clculos es necesario entender las limitaciones que tiene en relacin con la construccin de la distribucin de frecuencia. La restriccin tiene que ver con el establecimiento del Lmite Real Inferior. En algunos casos, algunas distribuciones de frecuencia se construyen con intervalos abiertos tanto del lado izquierdo como del lado derecha. Ello conduce a que si dado el caso la mediana cae en el intervalo extremo izquierdo no se puede establecer ni el lmite real inferior ni el ancho de clase. Si la mediana cae en el intervalo extremo superior, entonces se puede establecer el lmite real inferior pero no el ancho de clase. Lo anterior significa que en el caso de datos agrupados la mediana puede o no ser calculable dependiendo de cmo se construy la distribucin. Por eso se sugiere que se construya con intervalos cerrados y, de ser posible, del mismo ancho.

Moda
Definicin La Moda de un conjunto de datos es el valor que se repite con mayor frecuencia, es decir, el valor ms comn. La moda puede no existir o puede no ser nica.
Moda de Datos No Agrupados

La moda para un conjunto de datos no agrupados es el valor que ms se repite. Su clculo por lo tanto es muy simple. Se determina cul de los datos se presenta con mayor frecuencia. Los datos se pueden ordenar de menor a mayor y se cuenta las veces que se repite cada uno. Es posible que cada dato sea nico, entonces el conjunto no tiene moda. Tambin es posible que dos o ms datos se repitan el mismo nmero de veces y adems sean los que ms se repiten. Es este caso, existira el mismo nmero de modas. Esta posibilidad genera lo que se conoce como distribuciones unimodales, bimodales o polimodales. Por ejemplo, 1, 2, 3, 3, 5, 7, tiene una moda igual a 3. El conjunto 1, 2, 2, 3, 4, 4, 5, 7 tiene dos modas, 2 y 4 y el conjunto 1, 2, 3, 5, 7, 9 no tiene moda.
Moda de Datos Agrupados

La moda para un conjunto de datos agrupados se define como:

d1 X = Lm + d +d 1 2

*cm

En donde: m = La clase modal Lm = Lmite real inferior de la clase modal d1 = fm - fm-1 d2 = fm - fm+1 cm = Ancho de la clase modal Para el ejemplo anterior, los valores de la expresin se extraen bsicamente de la columna de frecuencias. As, se tiene: m= 21, Lm= 83.5, d1=21-7=14, d2=21-12=9, cm=97.583.5=14 Por lo que la moda de la distribucin es:

14 X = 83.5 + * 14 = 92.02 14 + 9 Relacin de Media, Mediana y Moda


Para distribuciones de frecuencias con una sola moda, la relacin emprica entre la media, mediana y moda est dada por:

~ X - X = 3(X - X)

Una forma de definir la simetra de una distribucin es a partir de la posicin relativa que guardan estas tres medidas. Se dice que una distribucin es simtrica si los tres valores coinciden. Si la posicin relativa es Moda, Mediana y Media, entonces la distribucin tiene sesgo positivo. Si la posicin relativa es Media, Mediana y Moda entonces la distribucin tiene un sesgo negativo. Para el ejemplo anterior, la posicin relativa es Moda (92.02), Mediana (114.04) y Media (115), por lo tanto la distribucin tiene sesgo positivo.

2.2.

Medidas de Variabilidad
Introduccin Con mucha frecuencia cuando se estudia una variable estadstica no es suficiente contar con algn nmero o ndice que pueda representar a todo el conjunto. Es posible por ejemplo, que despus de haber administrado un examen, el profesor observa que el promedio de las calificaciones de sus alumnos es aceptable y pudiera concluir que el efecto de su enseanza fue aceptable. Sin embargo se puede preguntar si los alumnos tuvieron un desempeo homogneo. De antemano sabe que algunos alumnos obtuvieron un aprovechamiento superior al promedio del grupo y algunos obtuvieron un rendimiento inferior. Para algunos, su rendimiento fue muy por debajo del rendimiento de grupo. Se puede observar entonces que no es suficiente conocer en qu punto del continuo de la variable se encuentra el conjunto de datos como un todo. Se requiere conocer tambin que tan cercanos o alejados se encuentran los datos alrededor de ese punto.

Esta situacin se puede constatar en la siguiente grfica. Las distribuciones A y B tienen la misma media, sin embargo se observa que en la distribucin A los valores se encuentran ms concentrados alrededor de la media que en la distribucin B o alternativamente, los datos de la distribucin B se encuentran ms alejados de su media que en la distribucin A. Se puede tambin decir que la distribucin A tiene una menor dispersin que la distribucin B.
0 4 .0

0 3 .0

0 2 .0

0 1 .0

0 0 .0

Como una primera aproximacin a cuantificar el tamao de dispersin se puede calcular una medida que compare cada valor con la media de distribucin. De esta primera aproximacin surge el concepto de desviacin con respecto a la media definida como X X . A mayor la diferencia el valor se encuentra ms alejado de la media. Entonces cada valor del conjunto tiene una desviacin con respecto a la media, generando as un conjunto de desviaciones con respecto a la media. Entonces, as como la media de un conjunto es una medida que representa al conjunto de todos los datos, existe una medida que represente a todo el conjunto de desviaciones? Si es as, qu propiedades debe tener esa medida y qu condiciones debe satisfacer para ser considerada como tal? Los siguientes temas apuntan a responder a estas preguntas. Definicin de medidas de variabilidad Las medidas de variabilidad son medidas descriptivas de un conjunto de datos que indican el grado de dispersin de los datos. Tambin se les conoce como medidas de dispersin. Aqu se entiende como dispersin a qu tanto los datos se extienden o agrupan sobre el continuo de la variable de inters o alrededor de alguno de ellos.

Rango o Recorrido
Definicin El Rango o Recorrido de un conjunto de observaciones se define como la diferencia entre el mayor y el menor de los datos observados, esto es: R = Max(X1, X2,..., XN) - Min(X1, X2,..., XN)
Datos No Agrupados

El Rango para datos no agrupados es simplemente la diferencia entre el mayor y el menor de los datos.
Datos Agrupados

El rango para datos agrupados en clases se define como la diferencia entre la mayor y la menor marca de clase.

Desviacin Media
Definicin

La Desviacin Media de un conjunto de observaciones se define como el promedio de las desviaciones absolutas con respecto a la media de los datos.
Datos No Agrupados

|X
M.D. =
i=1

- X| = | X X|

Datos Agrupados M.D. =

N
K

fj | X j - X|
j=1

Varianza
Datos No Agrupados
s2 =

(X i - X) 2
i =1

X i2
i =1

Datos Agrupados
K

N Xi - i =1 N

= X 2 - (X) 2

s2 =

f j (X j - X) 2
j =1

Desviacin Estndar
Definicin Se define la Desviacin Estndar o Desviacin Tpica de un conjunto de datos como la raz cuadrada positiva de la varianza. Esto es:
s = s2

Ejemplo de datos no agrupados El siguiente conjunto de datos son los resultados de un examen de 200 preguntas aplicados a 20 estudiantes: 132, 171, 138, 56, 164, 137, 159, 139, 153, 145, 126, 93, 179, 82, 156, 146, 92, 120, 138, 86, 87. Para facilitar el clculo de las medidas revisadas hasta ahora es conveniente organizar de alguna forma los datos. Se sugiere construir una tabla, ms o menos con el siguiente formato:
X 56 82 86 87 92 93 120 126 132 137 138 138 139 145 X-M -70 -44 -40 -39 -34 -33 -6 0 6 11 12 12 13 19 |X-M| 70 44 40 39 34 33 6 0 6 11 12 12 13 19 X^2 3136 6724 7396 7569 8464 8649 14400 15876 17424 18769 19044 19044 19321 21025 (X-M)^2 4900 1936 1600 1521 1156 1089 36 0 36 121 144 144 169 361

Suma Suma/20

146 153 156 159 164 171 2520 126

20 27 30 33 38 45 0

20 27 30 33 38 45 532 26.6

21316 23409 24336 25281 26896 29241 337320 16866

400 729 900 1089 1444 2025 19800 990

Las columnas adicionales se incluyen para mostrar los clculos intermedios. Observe que los datos se ordenaron en forma descendente.
Rango

El valor mximo observado fue 171 y el menor fue 56, por lo tanto: R=115
Desviacin Media

La suma del valor absoluto de las desviaciones con respecto a la media es 521.9, por lo que la desviacin media es: M.D.= 532/20 = 26.6
Varianza y desviacin estndar

El clculo de la varianza se puede efectuar de dos formas diferentes, en funcin de los datos que se disponen. La media es 2520/20=126. Forma 1: Esta forma implica conocer la suma de las desviaciones con respecto a la media al cuadrado. No confundir con el cuadrado de la suma de las desviaciones.
s2 =

(Xi - X) 2
i =1

N
2

19,800 = 990 20

Forma 2
s2 =

X i2
i =1

N Xi - i =1 N

2 337,320 2,520 = = 990 20 20

En ambos casos, la desviacin estndar es 31.46. Ejemplo de datos agrupados Suponga ahora que se tiene la siguiente distribucin de frecuencias.
Clase 1 2 3 4 5 6 7 8 9 10 Suma Suma/100 Rango L.I.-L.S. 56-69 70-83 84-97 98-111 112-125 126-139 140-153 154-167 168-181 182-195 L.R.I.-L.R.S. 55.5-69.5 69.5-83.5 83.5-97.5 97.5-111.5 111.5-125.5 125.5-139.5 139.5-153.5 153.5-167.5 167.5-181.5 181.5-195.5 F 8 7 21 12 11 18 11 7 4 1 X 62.5 76.5 90.5 104.5 118.5 132.5 146.5 160.5 174.5 188.5 FX 500 535.5 1900.5 1254 1303.5 2385 1611.5 1123.5 698 188.5 11500 115 F*|X-M| 420 269.5 514.5 126 38.5 315 346.5 318.5 238 73.5 2660 26.6 F*(X-M)^2 22050 10375.75 12605.25 1323 134.75 5512.5 10914.75 14491.75 14161 5402.25 96971 969.71

La marca de clase del intervalo inferior es 62.5 y del intervalo superior es 188.5, por lo tanto: R = 188.5-62.5 = 126
Desviacin media

M.D.= 26.6
Varianza y desviacin estndar

La varianza es 96971/100=969.7 y la desviacin estndar es 31.14.

Interpretacin de la desviacin estndar


Como se puede deducir, al disponer de diferentes opciones para representar la dispersin de los datos la dificultad para seleccionar el ms apropiado aumenta. No existe un acuerdo general de cul es el ms apropiado, dejando en manos del analista y del usuario de estas medidas el criterio para su seleccin. En general se pueden apuntar algunos criterios a considerar. Por ejemplo, se puede tomar en cuenta el nivel de resolucin que se desea alcanzar en el anlisis. As, tanto el rango como la desviacin media proveen medidas rpidas y hasta cierto punto econmicas de la dispersin, mientras que la varianza o la desviacin estndar son ms precisas pero ms difciles de calcular. Tambin es importante considerar la naturaleza de la variable que se est analizando. Para variables ordinales es ms adecuado utilizar el rango mientras que para variables intervalares o de razn es ms apropiada la varianza o desviacin estndar. Cualquiera que sea el caso, con excepcin de la varianza, las otras medidas de variabilidad estn expresadas en la misma unidad en que est medida la variable de inters. Sin embargo, cuando sea apropiado, el uso de la desviacin estndar como medida de dispersin aumenta el poder de interpretacin. Observe la siguiente grfica.

68%

95.5% 99.7% 70 80 90 2 3 100 1 1 110 2 3 120 130

La grfica corresponde a un distribucin de frecuencias con media igual a 100 y desviacin estndar igual a 10. El valor 110 se encuentra a una unidad de desviacin estndar de la media, el 120 a 2 unidades de desviacin estndar, etc. Si la distribucin es simtrica, como es el caso, aproximadamente el 68% de los datos se encuentran entre 90 y 110, es decir, entre 1 unidad de desviacin estndar de la media.

Esto es, 100 10. Aproximadamente el 95.5% de los datos se encuentran entre la media y 2 unidades de desviacin estndar, esto es, entre 80 y 120. Este comportamiento es caracterstico de la distribucin normal, como se ver ms adelante.

2.3.

Medidas de Forma
Definicin de medidas de forma Cuando se analiza una distribucin de frecuencias, es muy comn utilizar alguna medida que indique el grado y tipo de sesgo de la distribucin o tambin que tan alta o baja es la distribucin. Entonces, las medidas de forma indican estas propiedades.

Sesgo
Definicin de sesgo El Sesgo de una distribucin se define como el grado de asimetra o falta de simetra de la distribucin.
Tipos de Sesgo

Si la distribucin tiene una cola ms larga a la derecha que a la izquierda del valor central mximo, entonces se dice que la distribucin tiene un sesgo positivo o que est sesgada a la derecha. Caso contrario, se dice que tiene un sesgo negativo o que est sesgada negativamente. En distribuciones simtricas, no existe sesgo.
Sesgo Adimensional Se define como sesgo adimensional de una distribucin a: Media Moda Sesgo = Desviacin Estndar Coeficiente de Sesgo

Definicin de Coeficiente de Sesgo Es una medida del sesgo expresada como una funcin de las desviaciones de los datos con respecto a la media. Se representa y se calcula mediante:
3 = Datos No Agrupados m3 = Datos Agrupados:
K N

m3 s3

i=1

(Xi X )3
N

m3 =

fj (X j X )3
j=1

Curtosis
Definicin de Curtosis La Curtosis de una distribucin es una medida del grado de apuntamiento, generalmente comparada con el apuntamiento de la distribucin normal.
Distribucin Leptocrtica

Si el grado de apuntamiento de una distribucin es mayor que el de la distribucin Normal, se dice que la distribucin es Leptocrtica.
Distribucin Platicrtica

Si el grado de apuntamiento de una distribucin es menor que el de la distribucin normal, se dice que la distribucin es Platicrtica.
Distribucin Mesocrtica

Si el grado de apuntamiento de una distribucin es igual que el de la distribucin normal, se dice que la distribucin es Mesocrtica.
CIIDET/RTS 24

Definicin de Coeficiente de Curtosis El Coeficiente de Curtosis de un distribucin es una medida del grado de curtosis de la distribucin y se representa y calcula por:
4 = Datos No Agrupados
N

m4 s4

m4 = Datos Agrupados

(X
i=1 K

X)

N X)
4

f (X
j

m4 =

j=1

CIIDET/RTS

25