Está en la página 1de 9

CONGREGACIN DE LOS HERMANOS DE LAS ESCUELAS CRISTIANAS DISTRITO DE MEDELLN INSTITUTO LA SALLE LA EXIGENCIA DA EXCELENCIA Cdigo Material de Estudio

No. 2 Fecha 08 - 05 - 11

Docente: Anglica Mara LpezAsignatura: Estadstica Caracterizacin de datos cuantitativos no agrupados

Curso: 903 904

Para caracterizar datos no agrupados se utilizan: el diagrama de caja y bigotes, medidas de tendencia central, medidas de posicin ymedidas de dispersin. Medidas de tendencia central Las medidas de tendencia central son la media, la mediana y la moda. Media aritmtica o promedio Es un dato que pertenece a un individuo artificial, no necesariamente est en el conjunto de datos, que representa las caractersticas del grupo. La media es el punto de equilibrio del conjunto de datos.  Cuando se considera una muestra, la media aritmtica se simboliza con para un conjunto de datos se calcula as: y

Cuando se considera una poblacin, la media aritmtica se simboliza calcula de la misma forma.

y se

La media es una medida que se ve afectada por el cambio drstico de uno de los datos. Si hay un dato muy grande o muy pequeo con respecto a los dems el valor de la media cambia significativamente, es decir, la media es una medida sensible al cambio de un dato. Mediana Es el dato que divide en dos partes, porcentualmente, iguales el conjunto de datos. Cuando se considera una muestra la mediana se simboliza una poblacin la mediana se simboliza . y cuando se considera

Para calcularla, se ordena el conjunto de datos de menor a mayor y se ubica el dato de la mitad.

Si el nmero de datos es impar, la mediana es el dato que se ubica en la mitad y siempre pertenece al conjunto. Si el nmero de datos es par, la mediana corresponde al promedio de los dos datos de la mitad. En algunos casos, este valor no pertenece al conjunto. La mediana es una medida que no considera la magnitud de los datos, por ello no se ve afectada por el cambio significativo de uno de ellos. Sin embargo, al no considerar la magnitud no es una medida que describa las caractersticas de los datos cuando estn lejanos unos de otros. Moda Corresponde al dato que ms se repite dentro de un conjunto de datos. En aquellos casos en los cuales se analiza una muestra, la moda se simboliza trata de una poblacin la moda se simboliza . Sus principales propiedades son:    Clculo sencillo. Interpretacin muy clara. Al depender slo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el parmetro ms utilizado cuando al resumir una poblacin no es posible realizar otros clculos, por ejemplo, cuando se enumeran en medios periodsticos las caractersticas ms frecuentes de determinado sector social. Esto se conoce informalmente como "retrato robot". , si se

Cuando de datos cuantitativos se trata, la moda no es una medida muy utilizada para describir su comportamiento ya que carece de significado en un contexto determinado y en algunos casos pueden presentarse distribuciones bimodales y multimodales. Medidas de posicin Las medidas de posicin dividen a los datos en partes porcentualmente iguales. Las medidas de posicin son: los cuartiles, los deciles y los percentiles. Cuartiles Son las medidas en que dividen un conjunto de datos en cuatro partes iguales. Cada una representa el 25 % del total. Los cuartiles son tres valores que se simbolizan a continuacin:


. Grficamente se representa

Se puede ver que el valor del cuartil dos corresponde a la mediana. Antes del primer cuartil se encuentra el 25 % de los datos, entre el primero y el segundo cuartil se encuentra el 25 % de los datos y as sucesivamente. Para calcular el valor de los cuartiles se orden los datos de mayor a menor y se calcula el valor de la mediana, es decir . Luego, se considera la primera mitad de los datos y se calcula la mediana, este dato ser el primer cuartil. Igualmente se considera la segunda mitad de los datos y se calcula la mediana, este dato corresponde al tercer cuartil. Si el nmero de datos menores a la mediana es par, para calcular incluye. De la misma forma se procede para . Deciles Son los valores que dividen un conjunto de datos en diez partes iguales. Cada una representa el 10 % del total. Los deciles son 9 datos y se simbolizan . la mediana se

El valor del quinto decil corresponde a la mediana. El proceso para calcular los deciles es semejante al que se utiliz para calcular los cuartiles. Primero, la mediana, luego los cuartiles y la mediana de la primera cuarta parte de los datos y as sucesivamente hasta obtener los nueve deciles. Percentiles Son los valores que dividen un conjunto de datos en cien partes iguales. Cada una representa el 1 % del total de datos. Los percentiles son 99 y el percentil 50 corresponde al valor de la mediana. Estas dos medidas de posicin se utilizan en contextos donde la cantidad de datos que se va a utilizar es grande y en contextos relacionados con distribuciones de probabilidad. Medidas de dispersin Al analizar un conjunto de datos es necesario establecer algunas medidas que determinan la variabilidad o dispersin de los datos entre si. Estas medidas son: el rango, la varianza y la desviacin estndar.

Rango Corresponde a la longitud o ancho que abarcan los datos. Se define como la diferencia entre el dato mayor y el dato menor. Cuando el rango de los datos es pequeo se dice que la variabilidad o dispersin es baja y viceversa. Desviacin La desviacin de un dato es la distancia que hay entre ese valor y la media. La desviacin del i - simo dato es .

Una desviacin negativa significa que el dato es menor que la media, y una desviacin positiva significa que el dato es mayor que la media. Ya que el promedio es el punto de equilibrio de los datos, las desviaciones negativas se deben compensar con las desviaciones positivas. Por tanto, la suma de las desviaciones debe ser cero. Debido a que la suma de las desviaciones es cero, se debe considerar una medida que incluya estos valores y que no sea nula. Para ello, se calculan los cuadrados de las desviaciones, bajo el principio que si una desviacin es grande, su cuadrado ser grande. Para un conjunto de datos se tiene la siguiente definicin: Varianza Si la variable que se va a caracterizar se ha tomado de una poblacin, la varianza se define como la media de las desviaciones al cuadrado. La varianza poblacional se simboliza



Una frmula alternativa para calcular la varianza es  




donde:

corresponde a la suma de los cuadrados de los datos. corresponde a la suma de los datos elevada al cuadrado. N corresponde al nmero de datos.

La interpretacin del valor de la varianza est ligada a las unidades en las cuales est medida la variable. Si la varianza es grande, los datos estn muy dispersos y la variabilidad de la variable es alta. Si se puede concluir que la varianza es grande, entonces la media no es un buen representante del grupo ya que existen datos muy alejados entre s o datos muy lejanos del promedio. Si la variable que va a caracterizarse se ha tomado de una muestra, la varianza se define como la suma delos cuadrados de las desviaciones, sobre el nmero de datos menos uno. La varianza muestral se simboliza S2.

Es importante aclarar, que para el caso muestral, se estima el valor de una medida, por lo cual se tiende a cometer error en la estimacin, luego, la variabilidad de la variable es ms alta. La mayora de estudios estadsticos estn relacionados con muestras, por lo cual, la varianza que normalmente se utiliza para el anlisis de resultados es la muestral. La varianza es una medida de variabilidad o dispersin que debe interpretarse con cuidado, ya que, al considerar los cuadrados de las desviaciones, las cantidades tambin se elevan. Para interpretar la variabilidad de una variable sin considerar el problema de las unidades, se considera la desviacin estndar como medida alterna. La desviacin estndar corresponde a la raz cuadrada de la varianza. Para el caso poblacional, se simboliza W y se calcula:

Para el caso muestral, se simboliza S, y se calcula:


 

La desviacin estndar es una medida que tiene las mismas unidades que los datos iniciales. Por ello, al analizar si es grande o pequea no hay problema de comparacin entre unidades diferentes. Diagrama de caja y bigotes En los estudios en los cuales se caracteriza una variable cuantitativa es necesario establecer algunos criterios que permiten determinar si existen datos inusuales que afectan significativamente la media y la desviacin estndar. El criterio del diagrama de caja y bigotes cumple con esta misin.

El diagrama de caja y bigotes es una representacin grfica que permite detectar datos inusuales en la muestra.
El diagrama de cajas se construye usando la mediana y los cuartiles. La forma del diagrama se muestra en la siguiente grfica:

q1

q3

q3 q1
Pasos para construir un diagrama de caja y bigotes 1. Se calculan los cuartiles y se ubican sobre una recta real. Estos tres forman las cajas del diagrama. 2. La longitud de las cajas es la diferencia entre el primer y el tercer cuartil. A este valor se llama rango intercuartlico. 3. El primer bigote tiene longitud igual a 1,5 veces el rango intercuartlico. Es decir, el extremo superior del primer bigote est en q3+1,5(q3 q1). De la misma forma, se tiene que, el extremo inferior del primer bigote estaubicado en q1 1,5(q3 q1). El criterio para multiplicar el rango por 1,5 es estndar. En algunos diagramas se puede multiplicar por una unidad o en otros casos por dos. Los datos que se encuentren dentro de los primeros bigotes, son los que no afectan el valor de las medidas de caracterizacin.

4. El segundo bigote se construye de la misma forma. Es decir, que el extremo superior del segundo bigote est en q3 + 3(q3 q1) y el extremo inferior del segundo bigote esta en q1 3(q3 q1). Los datos ubicados sobre los segundos bigotes son los que influyen, no significativamente sobre las medidas de caracterizacin. 5. Una vez se ha construido el diagrama de caja y bigotes, se determina si existen datos que estn fuera de los dos bigotes. A estos valores se les llama atpicos o inusuales. Estos datos influyen significativamente en las medidas de caracterizacin de la variable. Si existe algn dato atpico la varianza es alta. En caso de determinar que existen datos de este estilo, se debe revisar el proceso de muestreo o se debe determinar si el dato en mencin procede de un individuo que no pertenece a la poblacin. Para caracterizar una variable cuantitativa se utilizan todos los procesos mencionados en este material.