Está en la página 1de 67

UNIVERSIDAD DE PUERTO RICO EN HUMACAO CENTRO DE COMPETENCIAS DE LA COMUNICACIN

Resumen y descripcin de los datos numricos no agrupados

PROF. VCTOR ARIEL MOJICA mayo, 2007

INTRODUCCIN

Este mdulo se cre con el propsito de atender el tema del resumen y descripcin de los datos numricos. El/la estudiante puede estudiar de manera independiente o puede usar el mdulo para complementar lo discutido en clase. Este mdulo pretende asegurar que los/as estudiantes que se matriculen en el curso ESTA 3041 Estadstica I en Administracin de Empresas - desarrollen las destrezas para resumir y describir los datos numricos para su posterior anlisis e interpretacin.

Para el profesor

INTRODUCCIN (Cont.)

Sera conveniente para los/as estudiantes, preguntarle al profesor de qu manera se evaluar el contenido del mdulo y el peso de este material en la nota final del curso en cuestin. El profesor le notificar a los/as estudiantes en cunto tiempo debe terminar de estudiar el mdulo.

OBJETIVO GENERAL

El objetivo de este mdulo es que los/as estudiantes comprendan las caractersticas o propiedades de los datos numricos (tendencia central, variacin, forma) y sus mediciones descriptivas de resumen correspondientes, como una ayuda para el anlisis e interpretacin de datos.

OBJETIVOS ESPECFICOS
Al finalizar el mdulo, el estudiantado podr: describir la propiedad de tendencia central. interpretar las diferencias entre las diversas mediciones de tendencia central como la media, la mediana, la moda, el alcance medio y el eje medio. explicar la diferencia entre la tendencia central y la tendencia no central. describir la propiedad de variacin o dispersin.

OBJETIVOS ESPECFICOS (Cont.)

interpretar las diferencias entre las diversas medidas de variacin como el alcance, el alcance intercuartil, la varianza, la desviacin estndar y el coeficiente de variacin. explicar la propiedad de la forma. apreciar el valor de las tcnicas de anlisis de datos exploratorio: los resmenes de cinco nmeros y las grficas de caja y bigotes.

INSTRUCCIONES

El/la estudiante estudiar el mdulo de manera independiente. Leer las instrucciones que se presentan con detenimiento para que pueda lograr los objetivos del mismo. No debe tratar este mdulo de manera superficial. Recuerde que el tema que este mdulo trata es fundamental para la interpretacin y anlisis de los datos numricos y para la comprensin de temas ms avanzados en estadstica.

Cada parte de este mdulo presentar instrucciones especficas que le indicarn qu debe hacer. Las partes son: Pre-prueba Presentacin de la informacin relevante Hojas de trabajo
Post-prueba

Pre-prueba

Con el propsito de diagnosticar tus conocimientos sobre el tema de resumen y descripcin de datos numricos, te solicitamos que contestes esta prueba. Al final el mdulo podrs contestar de nuevo esta prueba para que puedas corroborar si pudiste alcanzar los objetivos del mismo.

Pre-prueba

Continuar

Flujograma de contenido
salo para navegar los cuatro temas principales
Propiedades de los datos numricos Tendencia central/no central
Mediana Moda Rango medio Eje medio
cuartiles, Percentiles

Variacin
Rango Rango intercuartil Varianza

Forma
Sesgo

Media aritmtica

Desviacin estndar Coeficiente de variacin

Las caractersticas o propiedades de los datos numricos

Datos no agrupados versus agrupados

Las medidas descriptivas de las caractersticas o propiedades que se discuten en este mdulo se obtienen a partir de los datos no agrupados. En el caso de que los datos estn agrupados (por ejemplo, en una distribucin de frecuencia) se pueden generar aproximaciones de las medidas descriptivas. Tales aproximaciones no se cubren en este mdulo.

Nmero de variables

Comenzaremos con conjuntos de datos de una sola variable. Las medidas numricas de localizacin y dispersin se calculan a partir de los n valores de los datos. Si el conjunto de datos tiene ms de una variable, esas medidas numricas se pueden calcular por separado para cada variable. En el caso de dos variables, se pueden obtener medidas del grado de la relacin entre ellas. En este mdulo slo se discute el coeficiente de variacin entre dos variables.

Parmetros versus Estadsticas

En cualquier anlisis o interpretacin puede usarse una variedad de mediciones descriptivas que representan las propiedades de tendencia central, variacin y forma para extraer y resumir las principales caractersticas de la serie de datos. Si estas mediciones descriptivas se calculan a partir de una muestra de datos, se denominan estadsticas; si se calculan a partir de una poblacin de datos, se denominan parmetros.

Parmetros versus Estadsticas (Cont.)

Los smbolos que se usan son distintos para las medidas calculadas a partir de una muestra que para una poblacin aunque el clculo sea el mismo. De esta manera los smbolos indican si las medidas provienen de una muestra de datos o de una poblacin. Por ejemplo, a la media aritmtica para una muestra se le asigna el smbolo X (denominado X barra) y a la media aritmtica para una poblacin se le asigna el smbolo (denominado miu).

MEDIDAS DE LOCALIZACIN
Medidas de tendencia central La mayor parte de las series de datos muestran una clara tendencia a agruparse alrededor de un cierto punto central. Por lo tanto, para cualquier serie de datos particular, por lo general es posible seleccionar algn valor tpico para describir toda la serie de datos. El valor seleccionado representa una medida de la localizacin central del conjunto de datos. En otras palabras, estas medidas nos dicen alrededor de que valor tienden a agruparse los datos.

Medidas resistentes

Cuando las medidas que calculamos no se afectan por los valores extremos en el conjunto de datos se dice que estas medidas son resistentes. Por lo tanto, cuando sabemos que el conjunto de datos contiene algn valor o valores extremos debemos evitar calcular medidas no resistentes ya que presentan una representacin distorsionada de los datos.

MEDIDAS DE LOCALIZACIN (Cont.)


Medidas de localizacin no central Adems de las mediciones de tendencia central, tambin existen algunas mediciones tiles de ubicacin no central. Estas mediciones no nos dicen alrededor de qu valor tienden a estar los datos, sino, por ejemplo, qu dato del conjunto de datos, tiene el 25% de los datos menores a l, o el 70%, el 90%, etc.

Medidas de tendencia central

Las medidas de tendencia central que ms a menudo se usan son:


Media aritmtica Mediana Moda Rango medio Eje medio

Media Aritmtica

La media aritmtica (tambin llamada la media) es el promedio o medicin de tendencia central de uso ms comn. Se calcula sumando todas las observaciones de una serie de datos y luego dividiendo el total entre el nmero de elementos involucrados. Esta medida no es resistente ya que se afecta considerablemente por la presencia de valores extremos en los datos debido a que su cmputo est basado en cada observacin.

Media Aritmtica (Cont.)


Notacin algebraica (para muestra) Para una muestra que contiene una serie de n observaciones X1, X2,,Xn, la media aritmtica (dada por el smbolo X, denominado X barra) puede escribirse como

X=

Xi i =1

X1 + X2 + L + Xn

Media Aritmtica (Cont.)


Notacin algebraica (para poblacin) Para una poblacin que contiene una serie de N observaciones X1, X2,,XN, la media aritmtica (dada por el smbolo denominado mu) puede escribirse como

Xi i =1

X1 + X2 + L + XN

Mediana

La mediana es el valor intermedio cuando los valores de los datos se ordenan en forma ascendente o descendente. Con un nmero impar de observaciones, la mediana es el valor intermedio. Un nmero par de observaciones no tiene un nmero intermedio. En este caso la mediana se define como el promedio de los valores de las dos observaciones intermedias.

Mediana

En otras palabras, la mediana es el valor tal que 50% de las observaciones son menores y 50% de las observaciones son mayores. Una frmula que indica la posicin en que se encuentra la mediana en un arreglo ordenado de datos es : Mediana (n + 1)/2 donde n es el tamao de la muestra

Mediana

El clculo de la mediana se afecta por el nmero de observaciones, no por la magnitud de cualquier valor extremo.

Moda

La moda es el valor de una serie de datos que se presenta con ms frecuencia. A diferencia de la media aritmtica, la moda no se ve afectada por la ocurrencia de valores extremos. Sin embargo, la moda no se usa para propsitos ms que descriptivos porque es ms variable de muestra a muestra que otras mediciones de tendencia central. Un conjunto de datos puede que no tenga moda, que tenga una moda, dos modas (bimodal) o ms de dos modas (multimodal).

Rango medio

El rango medio es el promedio de las observaciones menores y mayores de una serie de datos. Esto puede escribirse como Rango medio = (X menor + X mayor)/2

Ejemplo

Eres un analista financiero de Merill Linch y has recopilado los siguientes precios de cierre de acciones de nuevas emisiones de acciones: 17, 16, 21, 18, 13, 16, 12, 11. Describe los precios de las acciones en trminos de tendencia central.

Medidas de localizacin no central


Las medidas de tendencia no-central que ms a menudo se usan son:

Cuartiles Percentiles

Cuartiles

Los cuartiles son mediciones descriptivas que dividen los datos ordenados en cuatro cuartos. (Recuerde que la mediana divide los datos ordenados en dos mitades.)
25% Q1 25% Q2 25% Q3 25%

Cuartiles

El primer cuartil, Q1, es un valor tal que 25% de las observaciones son menores y 75% de las observaciones son mayores. El segundo cuartil, Q2, es la mediana, 50% de las observaciones son menores y 50% de las observaciones son mayores. El tercer cuartil, Q3, es un valor tal que 75% de las observaciones son menores y 25% de las observaciones son mayores.

Cuartiles (Cont.)

Para aproximar los cuartiles, se usan las siguientes frmulas de posicionamiento:


Q1 valor que est en la posicin (n + 1)/4 despus de ordenarse los datos Q2 valor que est en la posicin 2(n + 1)/4 = (n + 1) /2 despus de ordenarse los datos Q3 valor que est en la posicin 3(n + 1)/4 despus de ordenarse los datos

Cuartiles (Cont.)

Reglas para obtener los valores de cuartiles:


1.

2.

3.

Si el punto de posicionamiento resultante es un entero, se elige la observacin que est en esa posicin. Si el punto de posicionamiento est a la mitad del camino entre dos enteros, se selecciona el promedio de sus valores correspondientes. Si el punto de posicionamiento resultante no es ni un entero ni un valor a la mitad del camino entre dos enteros, se redondea al punto de posicionamiento entero ms cercano y se selecciona el valor numrico de la observacin correspondiente.

Percentiles

Un percentil da informacin acerca de cmo se distribuyen los valores sobre el intervalo, desde el menor hacia el mayor. Para datos que no tienen muchos valores repetidos, el p-simo percentil divide los datos en dos partes. Ms o menos el p por ciento de las observaciones tienen valores menores que el p-simo percentil. Aproximadamente el (100 p) por ciento de las observaciones tienen valores mayores que el p-simo percentil.

Percentiles

Definicin

El p-simo percentil es un valor tal que por lo menos p por ciento de las observaciones son menores o iguales que este valor y por lo menos (100 p) por ciento de las observaciones son mayores o iguales que este valor.

Clculo del p-simo percentil


Paso 1: Paso 2: Ordene los datos de manera ascendente. Calcule un ndice de localizacin i i = (p/100)n. en donde p es el percentil de inters y n es la cantidad de observaciones. a) Si i no es entero, se redondea al valor entero inmediato mayor y este valor indica la posicin del p-simo percentil. b) Si i s es entero, el p-simo percentil es el promedio de los valores de los datos ubicados en los lugares i e i + 1.

Paso 3:

Relacin de cuartiles y percentiles

Los cuartiles tambin se pueden calcular a partir de la frmula de localizacin para percentiles. Usted debe recordar que:

Q1 = primer cuartil o percentil 25 Q2 = segundo cuartil o percentil 50 (tambin la mediana) Q3 = tercer cuartil o percentil 75.

Medidas de variacin o dispersin


Una segunda propiedad importante que describe una serie de datos numricos es la variacin. La variacin es la cantidad de dispersin en los datos.

Medidas de variacin o dispersin (Cont.)


Las medidas de tendencia central que ms a menudo se usan son:

Rango Rango intercuartil Varianza Desviacin estndar Coeficiente de variacin

Rango

El rango es la diferencia entre la observacin mayor y la menor en una serie de datos. Esto es,

Rango = X mayor X menor


El rango mide la dispersin total en una serie de datos. La debilidad del rango es que no toma en cuenta la forma en que los datos se distribuyen realmente entre el valor menor y el mayor.

Rango
El rango ignora cmo los datos se distribuyen.

Rango = X mayor X menor

7 8 9 10

7 8 9 10

Rango intercuartil

El rango intercuartil es la diferencia entre el tercer y primer cuartil en una serie de datos. Es decir,
Rango intercuartil = Q3 Q1

Esta medida slo considera la dispersin en el 50% de los datos del medio por lo que no es influenciada por posibles valores extremos.

Varianza

La varianza toma en cuenta cmo se distribuyen todos los valores en los datos. Esta medida evala la forma en que los valores fluctan alrededor de la media.

Varianza de muestra

Definicin

La varianza de muestra es aproximadamente el promedio de las diferencias cuadradas entre cada una de las observaciones en una serie de datos y la media. Para una muestra que contiene n observaciones, X1, X2,, Xn, la varianza de muestra (dada por el smbolo S2) puede escribirse como:

Varianza de muestra

S2=

i =1

(Xi X)2
n 1

(X1 X) + (X 2 X) + L + (X n X) n 1

Varianza de muestra

X = media aritmtica de muestra n = tamao de muestra Xi = isimo valor de la variable aleatoria X

Varianza de poblacin

Definicin

La varianza de poblacin es el promedio de las diferencias cuadradas entre cada una de las observaciones en una serie de datos y la media. Para una poblacin que contiene N observaciones, X1, X2,, XN, la varianza de poblacin (dada por el smbolo 2) puede escribirse como:

Varianza de poblacin

2 =

i =1

(Xi )

N
(X1 )
2

+ (X2 ) N

+ L + (X N )

Varianza de poblacin

= media aritmtica de muestra N = tamao de muestra Xi = isimo valor de la variable aleatoria X

Frmula de calculadora

Las frmulas para la varianza anteriores son frmulas de definicin, pero a menudo estas frmulas pueden rearreglarse para obtener otra frmula que permita hacer los clculos ms fcilmente.

Desviacin estndar

La desviacin estndar de muestra o poblacin (dadas por los smbolos S o , respectivamente) es simplemente la raz cuadrada de la varianza de muestra o poblacin, segn sea el caso.

Coeficiente de variacin

El coeficiente de variacin dado por el smbolo CV, mide la dispersin en los datos relativa a la media. Puede calcularse mediante CVpob = (x/x) 100% CVmuestra = (Sx/Xx) 100%

Ejemplo

Usted es un analista financiero de Merill Linch y ha recopilado los siguientes precios de cierre de acciones de nuevas emisiones de acciones: 17, 16, 21, 18, 13, 16, 12, 11. Describa la volatilidad de los precios de las acciones.

Forma

Una tercera propiedad importante de un conjunto de datos es su forma, la manera en que los datos se distribuyen. En trminos de forma, la distribucin puede ser simtrica o no. Si la distribucin no es simtrica se dice que es asimtrica o sesgada. En ingls, skewed.

Medidas de forma

Existen algunas medidas para medir la forma tales como el sesgo y la kurtosis. Sin embargo, en este mdulo no se cubren. El estudiante interesado puede accesar las siguientes pginas electrnicas:
http://en.wikipedia.org/wiki/Skewness http://en.wikipedia.org/wiki/Kurtosis

Diagrama de Caja y Bigote

A menudo se usa un diagrama de Caja y Bigote (Box and Whisker Plot) para tener una idea de la forma de los datos. Este diagrama es un resumen de cinco nmeros o medidas: el nmero menor, el primer cuartil, la mediana, el tercer cuartil y el nmero mayor.

Diagrama de Caja y Bigote

Xsmallest Q1 Median Q3

Xlargest

10

12

Interpretacin del diagrama de Caja y Bigote


Sesgo negativo
Q1 Mediana Q3

Simtrica
Q1
Mediana Q3

Sesgo positivo
Q1 Mediana Q3

Forma

Comparacin de la media aritmtica y la mediana

Para describir, en trminos generales, la forma del conjunto de datos se puede comparar la media y la mediana. Si estas dos medidas son iguales se puede considerar que los datos son simtricos o que tienen sesgo cero. Sin embargo, si la media excede la mediana, los datos pueden describirse por lo comn como de sesgo positivo o sesgados a la derecha. Si la media es menor que la mediana, los datos se pueden describir como de sesgo negativo o sesgados a la izquierda.

Tipos de forma

Media > Mediana: sesgo positivo o derecho Media = Mediana: simetra o de sesgo cero Media < Mediana: sesgo negativo o izquierdo Simrica Sesgo positivo
Moda Mediana Media

Sesgo negativo

Media Mediana Moda Media= Mediana =Moda

Causas de los sesgos

El sesgo positivo surge cuando la media se incrementa en algunos valores inusualmente altos; el sesgo negativo ocurre cuando la media se reduce en algunos valores extremadamente bajos. Los datos son simtricos cuando no existen valores extremos reales en una direccin particular de forma tal que los valores bajos y altos se compensan entre s.

Post-prueba
Conteste la siguiente post-prueba. Si es necesario estudie nuevamente los conceptos que todava no domina. Compromtase con su proceso de aprendizaje para que pueda sacarle provecho a este mdulo. Las contestaciones correctas se proveen al final del mdulo. As las podrs comparar con tus respuestas en la Pre-prueba.

Respuestas

Post-Prueba

Solucin Pre y Post-prueba


1. 2. 3. 4.

5.
6. 7. 8. 9. 10. 11.

D C D D A C D D C B D

12. 13. 14. 15. 16. 17. 18. 19. 20. 21.

A B D A C C B D B A

Bibliografa
Anderson, D. R., Sweeney, D. J. y Williams, T. A. (2005). Statistics for Business and Economics. (9na Ed.), Ohio: Thomson Learning. Berenson, Mark L. Y Levine, David M. (1999). Basic Business Statistics: Concepts and Applications. (7ma. Ed.) Prentice Hall, New Jersey. Groebner, David F., Shannon, Patrick W., Fry, Phillip C. y Smith, Kent D. (2001). Business Statistics: A Decision-Making Approach. (5ta Ed.) New Jersey: Prentice Hall.

Sugerencias de uso para el profesorado


1.

El profesor decidir de qu manera usar el mdulo dependiendo de las necesidades y particularidades de los estudiantes. Como el curso de estadstica se ensea en todas las disciplinas, ste mdulo podr ser usado por muchos/as profesores/as en mltiples reas acadmicas. Como es de esperarse, las aplicaciones o ejemplos debern modificarse para que sean pertinentes al rea de estudio.

2.

Sugerencias de uso para el profesorado


3. En este mdulo se presentarn los conceptos esenciales sobre el resumen y descripcin de datos numricos, de una forma lgica, siguiendo los objetivos especficos que se pretenden lograr con este mdulo de instruccin y que se detallan al inicio. 4. Para cada uno de estos objetivos especficos, se han preparado una serie de actividades que el estudiantado deber llevar a cabo para que se logre el propsito del mismo.

Sugerencias de uso para el profesorado


5.

6.

El tiempo para terminar el mdulo depender del estudiante. Sin embargo, el profesor del curso puede incluir preguntas y ejercicios sobre este tema en el examen que administrar avaluando o evaluando la comprensin del mismo de la forma que mejor entienda. Sera conveniente para los/as estudiantes, preguntarle al profesorado de qu manera se evaluar el contenido del mdulo y el peso de este material en la nota final del curso en cuestin. El/la profesor/a le notificar a los/as estudiantes en cunto tiempo debe terminar de estudiar el mdulo.

También podría gustarte