Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica Descriptiva
Estadistica Descriptiva
Introduc in A la
INTRODUCCIN:
E s t a d s t i c a1
La Estadstica descriptiva es una parte de la Estadstica cuyo objetivo es examinar a todos los individuos de un conjunto para luego describir e interpretar numricamente la informacin obtenida. Sus mtodos estn basados en la observacin y el recuento. Se pretende, una vez realizados, poder simplificar los datos observados para obtener de ellos una informacin lo ms completa posible del total de la poblacin. En estadstica descriptiva el material de trabajo lo constituyen los datos, que son los resultados de las observaciones. Una vez obtenidos los datos hay que ordenarlos y clasificarlos mediante algn criterio racional de modo que sea posible una visin crtica de los mismos.
En general, este tratamiento previo de los datos ser de alguno de estos tres tipos: 1) Construccin de tablas para ordenar y clasificar los datos. 2) Realizacin de grficos para representar fsicamente los datos.
3) Obtencin de estadsticos o funciones de los valores de los datos, que pretenden poner de manifiesto ciertas propiedades de los mismos.
1. Conceptos bsicos.
Cualquier elemento o ente que sea portador de informacin sobre alguna propiedad en la cual se est interesado se denomina individuo. El conjunto de todos los individuos en los que se desea estudiar alguna propiedad o caracterstica se llama poblacin. Todo subconjunto finito de la poblacin sobre el que se realice el estudio de la propiedad deseada, es una muestra. Al nmero de individuos de este subconjunto se le llama tamao de la muestra.
Ejemplo 1. Para estudiar la evolucin del cncer de mama en la poblacin femenina de un pas, se puede considerar que individuo es cada una de las mujeres residentes en el mismo, poblacin es el conjunto de todas ellas y una muestra se obtiene al observar el 1% del censo.
Con mucha frecuencia se consideran como poblacin y muestra, no los conjuntos de individuos, sino las medidas de la caracterstica asociadas a esos individuos.
Ejemplo 2. En un banco de sangre se experimenta un nuevo sistema para aumentar el perodo de conservacin de la misma. En este caso cada bolsa de sangre es un individuo; la poblacin es el conjunto de todas las bolsas del banco y una muestra se obtiene tomando un cierto nmero de bolsas para su anlisis.
Obsrvese que el concepto de individuo no va asociado necesariamente con el de persona, sino que puede ser algo de naturaleza ms abstracta.
No se pretende hacer un estudio exhaustivo del tema. Los grficos se han hecho con el procesador de textos Word.
CV
Estadstica
A su vez los datos cuantitativos se denominan continuos si los resultados pueden tomar cualquier valor real dentro de un cierto intervalo, o discretos, si slo pueden tomar ciertos valores particulares.
Ejemplo 5. Del estudio de la estatura de un cierto ncleo de poblacin se han obtenido los siguientes datos: 1.62, 1.78, 1.75, 1.58, 1.83, 1.68 y 1.81metros. Son datos continuos, pues los individuos de una poblacin pueden tener como estatura cualquier nmero real en un cierto intervalo. Ejemplo 6. Del alumbramiento de un conjunto de ratas se ha observado el nmero de cras, obtenindose los siguientes valores numricos: 5, 3, 1, 5, 3, 6, 4, 2, 5, 6, 3, 6, 5, 2, 6, 7 y 3. Por no ser posibles nmeros no naturales, es evidente que se trata de datos cuantitativos discretos.
3. Caractersticas de una muestra representativa La observacin de un determinado carcter en una poblacin puede realizarse de varias formas: a) Observacin exhaustiva: si se considera a la totalidad de los individuos. b) Observacin parcial: si se utiliza una muestra.
En los casos en que el tamao de la poblacin es muy grande el estudio estadstico se realiza sobre muestras. Para seleccionar una muestra han de respetarse dos tipos de criterios: - De carcter cuantitativo, es decir cul es le tamao adecuado de una muestra? - De carcter cualitativo, o, lo que es lo mismo, cmo debe elegirse la muestra? Hay mltiples formas de realizar un muestreo estadstico, entre otras: a) Muestreo aleatorio simple; se basa en suponer que todos los elementos de la poblacin tienen asignada la misma probabilidad de ser elegidos. Si se numeran los elementos de la poblacin, una tabla de nmeros aleatorios puede facilitar la tarea de seleccin. b) Muestreo por estratos: Consiste en clasificar previamente a la poblacin en clases o estratos y de ellos obtener muestras aleatorias. c) Muestreo por conglomerados: es en esencia el mismo sistema que el anterior con la diferencia de que ahora la poblacin se divide en clases con determinados caracteres comunes entre ellas (conglomerados). Nota. De la obtencin de muestras de las que se pueden sacar conclusiones vlidas para la totalidad de la poblacin se ocupa la Teora de muestras.
CV
Estadstica
Definicin 1. Se llama variable estadstica a la aplicacin que a cada modalidad le hace corresponder ese nmero, es decir su medida.
Ejemplo 7. En el ejemplo 6 la variable estadstica toma los valores: 1, 2, 3, 4, 5, 6 y 7.
La variable estadstica ser discreta cuando slo pueda tomar un n finito de valores y continua cuando pueda tomar todos los valores de un cierto intervalo.
Ejemplo 8. La variable estadstica del ejemplo 5 es continua y discreta la del ejemplo 6.
Definicin 2. Se llama frecuencia absoluta al nmero de individuos que toman un determinado valor de una variable estadstica (o una modalidad de un atributo). Para variables estadsticas (es decir, datos cuantitativos) puede definir: Definicin 3. Se llama frecuencia absoluta acumulada de un valor a la suma de las frecuencias absolutas de todos los valores menores o iguales que l.
Ejemplo 9. En el ejemplo 6 la frecuencia absoluta del 5 (tener 5 cras) es 4. La frecuencia absoluta acumulada del 2 es 3.
Definicin 4. Se llama frecuencia relativa a la razn entre la frecuencia absoluta y el nmero total de datos o tamao de la poblacin. Definicin 5. Se llama frecuencia relativa acumulada de un valor de una variable estadstica a la suma de las frecuencias relativas de todos los valores menores o iguales que l.
Ejemplo 10. La frecuencia relativa del 5 es 4/17 y la relativa acumulada del 2 es 3/17.
Tablas estadsticas
Las tablas estadsticas aparecen por todas partes y consisten en masas estructuradas de datos. Estn confeccionadas de tal modo que resultan muy fciles de leer y de interpretar. Hay que utilizar, fundamentalmente, el sentido comn. Para la construccin de tablas de datos cuantitativos pueden tratarse stos individualmente o agrupndolos en clases
Tratamiento individual
Para variable discreta, o que siendo continua tengamos pocos datos. Si tenemos una muestra de tamao N, la tabla se estructura as: Variable
estadstica : xi x1 x2 ...... xk
k i =1
Frecuencias
absolutas
Frecuencias
relativas
puntuales
n1 n2 ..... nk
acumuladas
N1= n1 N2= n1 + n2 ...... Nk= n1 + n2 +..+ nk
nk =N
f
i =1
=1
Ejemplo 11. Las notas de los 20 alumnos de una clase son: 4, 3, 3, 5, 6, 7, 9, 0, 5, 4, 9, 10, 2, 7, 2, 2, 5, 6, 5, 0 Vamos a calcular una tabla: CV 3
Estadstica
Variable
estadstica : xi
0 2 3 4 5 7 9
Frecuencias
puntuales ni 2 3 2 2 5 3 3
absolutas
acumuladas Ni 2 5 7 9 14 17 20
Frecuencias
puntuales fi
relativas
acumuladas Fi 1/10 5/20=1/4 7/20 9/20 14/20=7/10 17/20 20/20=1
Ejercicio 1. En un Instituto hay matriculados 2200 alumnos que se distribuyen por edades en la forma siguiente: 215 de 14 aos, 437 de 15, 421 de 16, 396 de 17, 512 de 18, 124 de 19 y 95 de 20. Formar la tabla de distribucin y de frecuencias, que incluya frecuencias acumuladas.
acumuladas
Mientras que en el caso del tratamiento individual la tabla quedaba perfectamente determinada por los posibles valores de los datos, en el de clases est claro que no sucede as, pues hay libertad para elegir el nmero de clase y los extremos de las mismas. Los intervalos, en general, deben tener la misma amplitud. Para decidir el n de clases que se deben tomar conviene tener en cuenta que si ste es excesivo con respecto al nmero de datos, pueden aparecer irregularidades accidentales provenientes de pocas observaciones en algunas clases. Sin embargo, si se toma el nmero de clases demasiado reducido se producir una prdida importante de informacin. Un criterio orientativo para decidir cuntas clases se deben tomar lo proporciona la siguiente frmula emprica debida a Sturges: k = 1 + 3.3 log n
Ejemplo 12. Se ha pasado un test de 79 preguntas a 600 personas. El nmero de respuestas correctas se refleja en la siguiente tabla: intervalos [0, 10) [10, 20) [20. 30) [30, 40) [40, 50) [50, 60) [60, 70) [70, 80) mi 5 15 25 35 45 55 65 75 f. abs. puntual 40 60 75 90 105 85 80 65 600 f. abs. acumulada 40 100 175 265 370 455 535 600 f. rel. puntual 1/15 1/10 1/8 3/20 7/40 17/120 2/15 13/120 1 f. rel. acumulado 1/15 1/6 7/24 53/120 37/60 91/120 107/120 1
Ejemplo 13. En una Caja de Reclutamiento se toma una muestra de tamao 30 de los pesos de los mozos correspondientes a un cierto reemplazo, obtenindose los siguientes datos medidos en kg: CV 4
Estadstica
71.9, 63.9, 62.3, 72.5, 78.0, 70.7, 71.4, 60.5, 60.9, 68.2, 88.5, 76.1, 82.1, 63.7, 79.8, 67.5, 50.1, 69.5, 66.1, 47.3, 72.1, 59.8, 93.7, 80.7, 61.2, 64.3, 53.7, 74.7, 96.3, 73.2. Construir una tabla de frecuencias agrupando los datos en clases de la misma amplitud. Solucin Si bien no es estrictamente necesario, en general, es conveniente ordenar los datos de menor a mayor. A continuacin se presenta la misma muestra ordenada: 47.3, 50.1, 53.7, 59.8, 60.5, 60.9, 61.2, 62.3, 63.7, 63.9, 64.3, 66.1, 67.5, 68.2, 69.5, 70.7, 71.4, 71.9, 72.1, 72.5, 73.2, 74.7, 76.1, 78.0, 79.8, 80.7, 82.1, 88.5, 93.7, 96.3. Como los valores extremos son 47.3 y 96.3 y el nmero de clases aconsejado para estos datos es 6 (aplicando la frmula de Sturges), tomaremos 6 intervalos de amplitud 10, la tabla queda estructurada de la siguiente manera:
clases
45 -55 55 -65 65 -75 75 -85 85 -95 95 -105
frecuencias absolutas Frecuencias relativas de clase acumuladas de clase acumuladas 3 3 0.1 0.1 8 11 0.266 0.366 11 22 0.366 0.733 5 27 0.166 0.900 2 29 0.066 0.966 1 30 0.033 1 30 0.9971
Intervalos no solapados. Si los datos recogidos estn ya agrupados en intervalos no solapados, como por ejemplo: Intervalo ni 120-139 32 140-149 37 150-159 23 160-169 19 Es conveniente tomar unos intervalos que contengan a stos, pero sin modificar las frecuencias. Esto es: Intervalo ni [119,5-139,5) 32 [139,5-149,5) 37 [149,5-159,5) 23 [159,5-169,5) 19 Estos nuevos valores se llaman lmites reales de la clase.
Observacin. Las tablas nos dan una visin, de la caracterstica que se est estudiando, mucho
ms clara que la que da la muestra, tal cmo se presenta inicialmente. Ejercicio 2. El nmero de personas que viven en cada uno de los portales de una gran barriada es: 63, 58, 70, 47, 120, 76, 80, 59, 80, 70, 63, 77, 104, 97, 78, 90, 112, 88, 67, 58, 87, 94, 100, 74, 55, 80, 75, 49, 98, 67, 84, 73, 95, 121, 58, 71, 66, 87, 76, 56, 77, 82, 93, 102, 56, 46, 78, 67, 65, 95, 69, 90, 58, 76, 54, 76, 98, 49, 87, 69, 80, 64, 65, 56, 69, 68, 99, 106. Construye una tabla de frecuencias2.
Series cronolgicas
Se Llaman series cronolgicas a unas tablas estadsticas que recogen observaciones hechas a lo largo del tiempo, normalmente a intervalos iguales. Es por tanto una serie estadstica en que la variable independiente es el tiempo.
Ejemplo 14. El nmero de mdicos colegiados en Espaa en el perodo de 1984 - 1992:
Aunque la variable es discreta conviene agruparlos en clases ya que hay un nmero muy grande de datos.
CV
Estadstica
1984 99730
1985 107503
1986 119890
1987 123543
1988 129897
1989 138967
1990 147978
1991 152943
1992 156748
Ejercicio 3. La produccin editorial espaola de libros de sociologa y Estadstica, en los aos que se indica es: Aos 1991 1992 1993 1994 1995 1996 1997 n 345 487 589 376 479 652 741 Hacer una tabla de frecuencias absolutas y relativas puntuales. Expresar la relativa en porcentajes.
Variables cualitativas
Ejercicio 4. El censo, en miles de cabezas, del ganado en el territorio espaol, en 1994 fue:
Ganado Bovino Ovino Caprino Porcino Caballar Mular Asnar Nmero de cabezas 5300 18047 2601 12308 264 153 164
Variables cuantitativas.
Diagrama de barras: Se asocia a una tabla de frecuencias ya sea absoluta o relativa. Sobre un eje horizontal se representan los valores discretos que toman los datos y sobre cada uno de ellos se coloca una barra vertical (o un rectngulo) de longitud (altura) proporcional a la frecuencia.
CV 6
Estadstica
Ejemplo 15. Vamos a hacer un diagrama de barras de frecuencias absolutas para el ejemplo 6.
f
.
.
.
1 2 3 4 5 6 7
figura 1
Polgono de frecuencias: Como el anterior se asocia a una tabla de frecuencias. Se representan en un sistema cartesiano los puntos aislados y luego se unen por medio de segmentos (poligonal). Se usa sobre todo para frecuencias acumuladas (figura 1). Tambin para series cronolgicas.
Ejercicio 5. La esperanza de vida al nacimiento ha evolucionado desde 1900, como se refleja en la tabla siguiente:
Aos Varones Mujeres 1900 33,9 35,7 1910 40,9 42,6 1920 40,3 42,1 1930 48,3 51,6 1940 47,1 53,2 1950 59,8 64,3 1960 67,4 72,2 1970 69,6 75,1 1980 72,6 78,6
Grficos acumulativos: Se construye a partir del mismo eje horizontal del grfico de barras, llevando sobre cada valor discreto una vertical de longitud proporcional a la frecuencia acumulada, absoluta o relativa, de dicho valor. Se suele completar el grfico dndole forma de una escalera de peldaos horizontales.
CV
Estadstica
Cuando las variables son continuas, o discretas agrupadas, los grficos que ms se utilizan son: el histograma de frecuencias y los polgonos de frecuencias (absolutas o relativas) Histogramas de frecuencias. Sobre el eje de abscisas se marcan los extremos de las sucesivas clases y con base en cada clase se dibuja un rectngulo de altura proporcional a la frecuencia (absoluta o relativa) observada en dicha clase3.
60 50 40 30 20 10 0
30 20 10 3 4 5 6 7 figura 3
Figura 2
Ejercicio 6. En la siguiente tabla se presenta la distribucin por edades del nmero de muertes registradas en Espaa (datos hasta el 30-9-94) a causa del SIDA.
Edad en aos <3 3-9 10-12 13-14 15-19 20-24 25-29 30-34 35-39 40-49 50-59 60-69
N de muertes
411
171
35
31
247
909
544
a) Construye la tabla de frecuencias relativas agrupando los datos en las siguientes categoras de edad: 0-9, 10-19, 20-29, 30-39, 40-49, 50-59 y 60-69 aos. b) Representa grficamente la informacin obtenida en el apartado a) mediante un histograma,
Cuando se trabaja con clases de amplitudes diferentes es ms adecuado el histograma de frecuencias relativas por unidad de amplitud: En abscisas se marcan los extremos de las sucesivas clases y con base en cada una de ellas se dibuja un rectngulo de rea proporcional a la frecuencia relativa.
CV
Estadstica
Polgono de frecuencias. Se asocia a cada clase un punto del plano cartesiano, de abscisa el valor de la marca de clase y de ordenada la frecuencia observada en dicha clase. Uniendo los puntos resulta una lnea quebrada que se denomina polgono de frecuencias (figura 3) Polgono de frecuencias acumuladas. Partiendo del valor cero en el extremo izquierdo de la primera clase, el polgono acumulado va tomando en los sucesivos extremos derechos de las clases un valor igual a la frecuencia acumulada. Uniendo los puntos as obtenidos resulta el polgono acumulativo de frecuencias (figura 4).
50 40 30 20 10 0 0 3
figura 4
Ejercicio 7. Los jugadores de un determinado equipo de baloncesto se clasifican, por altura, segn la tabla siguiente: Altura 1,70-175 N de jugadores 1 1,75-1,80 3 1,80-185 4 185-190 8 1,90-1,95 1,95-2,00 5 2
7. Parmetros estadsticos.
Las tablas estadsticas son una forma organizada de dar toda la informacin, todos los datos de que disponemos. Con las grficas estadsticas se pierde algo de informacin, pero el mensaje entra por los ojos, que es lo que se pretende. En cualquiera de los dos casos, la cantidad de datos que se dan es excesiva para que sea operativo, por ejemplo para la comparacin con otras distribuciones.
Por ello se definen los parmetros estadsticos, que nos van a servir para resumir en nmeros aspectos relevantes de la distribucin, que puedan dar una idea de la misma o permitir compararlas con otras.
Clases de parmetros estadsticos4 Medidas de centralizacin: media (ya conocida), moda (el valor que se presenta con ms frecuencia) y mediana (el valor del individuo que ocupara el lugar central s se colocaran ordenados de menor a mayor). Tienen como misin representar con un nmero a la serie estadstica bajo el punto de vista de su posicin.
Se ampla el apartado en el Anexo (se darn las fotocopias despus de recoger los trabajos) 9
CV
Estadstica
Medidas de dispersin: rango o recorrido, desviacin media, varianza, desviacin tpica, coeficientes de Pearson... Sirven para medir el grado de alejamiento de los datos respecto de una medida central. Medidas de posicin: cuartiles, deciles, centiles o percentiles. Sealan la situacin de algunos valores importantes de la distribucin.
En la ordenacin que se hizo para la mediana se llaman cuartiles primero, segundo y tercero a los que superan exactamente al 25%, 50% y 75% de los valores. El segundo cuartil es la mediana.
Medidas de asimetra, para sealar si la distribucin est sesgada hacia uno u otro lado. Medidas de apuntamiento o curtosis que indican si la distribucin es ms o menos puntia-
guda. Para el clculo prctico de muchos parmetros estadsticos se utilizan tablas que facilitan dichos clculos (Las frmulas para hallar los parmetros estadsticos ms usuales se dan despus)
TABLA 1
xi
TABLA 2
ni
xi ni
xi x
xi x ni ( xi x ) 2 ( xi x ) 2 ni
.....
xi
ni
xi ni
x i2
x i2 ni
x i3
x i3 ni
.....
xi
0 2 3 4 5 7 9
ni 2 3 2 2 5 3 3 20
xi ni
0 6 6 8 25 21 27 93
xi x
4,65 2,65 1,65 0,65 0,35 2,35 4,35
x i x ni
9,30 7,95 3,30 1,30 1,75 7,05 13,05
( xi x ) 2
21,62 7,02 2,72 0,42 0,12 5,52 18,92
( xi x ) 2 ni
43,24 21,06 5,44 0,84 0,60 16,56 56,76
la media es 93/20=4,65
Ejemplo 18. Construir la tabla 2 con los datos del ejemplo 13.
clases
45 -55 55 -65 65 -75 75 -85 85 -95 95 -105
Marcas de clase
frecuencia
xi 50 60 70 80 90 100
ni 3 8 11 5 2 1
xi ni
150 480 770 400 180 100
x i2
2500 3600 4900 6400 8100 10000
x i2 ni
7500 28800 53900 32000 16200 10000
Ejemplo 175. a) Hallar la media y la varianza de la variable cuyos valores y frecuencias absolutas vienen dadas en la tabla adjunta Valores de la variable frecuencias
5
3 1
5 3
4 4
2 1
0 3
8 1
7 2
Propuesto en selectividad. 10
CV
Estadstica
xi
0 2 3 4 5 7 8
ni
3 1 1 4 3 2 1 15
xi ni
0 2 3 16 15 14 8 58
xi2
0 4 9 16 25 49 64
xi2ni
0 4 9 64 75 98 64 314
b)
x=
2 =
CV
11
Estadstica
(ANEXO)
1. Si sumamos una constante a todos los valores la media aumenta en el mismo nmero.7 Es decir si xi= xi + A x = x + A 2. Anlogamente, si x i = kx i ,entonces x = kx
x=
n x n
i i
(x
x) = 0
Si se trabaja con datos agrupados para la frmula anterior, [1], se toma xi igual a las marcas de clase. MODA6 Mo Es el valor de la variable de mayor frecuencia.
La distribucin puede tener varias modas Para el caso continuo se habla del intervalo modal (el de mayor frecuencia ni).
a= x . Un inconveniente de la media es que los datos con valores extremos pueden influir excesivamente en su evaluacin. Clculo de la moda8 Para calcular la moda, para datos agrupados, se puede usar la frmula
(x
a ) 2 , es mnima si
M o = Li +
ni ni 1 c ( ni ni 1 ) + ( ni ni +1 )
[2] (c es la ampitud de
MEDIANA ME Es el valor que ocupa el lugar central CUANTILES Se llama cuantil de orden de una distribucin al valor de la variable que deja por debajo de l al % de los elementos de la poblacin. Los que ms se usan son los cuartiles y los centiles o percentiles. La mediana coincide con el cuartil segundo Q2.
la clase modal)
ni-1
ni c
ni+1
Li Mo Clculo de la mediana Si la distribucin tiene un n impar de datos siempre existe una nica mediana y es precisamente el valor central en la relacin ordenada de menor a mayor. Si el n de datos es par se toma como mediana la media de los valores centrales Para hallar la mediana, cuando los datos estn agrupados, se puede usar el polgono de frecuencias acumuladas (Figura 1)y buscar la abscisa que
N N i 1 M e = Li + 2 c ni
corresponde a y = N/2 (por interpolacin lineal).
Figura 1 N/2
Li Me La frmula anterior [3], nos da dicho valor. En ella: Ni-1 es la frecuencia absoluta acumulada hasta llegar a la clase mediana, ni la frecuencia absoluta de la clase mediana, Li el lmite inferior de la clase mediana y c la amplitud de dicha clase. Los cuartiles y centiles se calculan de forma anloga a la me diana (usando el polgono de frecuencias acumulativo) . Veremos en los ejercicios resueltos cmo se asigna un valor. CV
6
Esta propiedad permite hacer traslaciones de los datos para simplificar los clculos 12
Estadstica
RANGO Tambin llamado recorrido, es la diferencia entre el mayor y el menor de los datos. DESVIACIN MEDIA Es la media de las desviaciones respecto de la media.
Clculo del rango. Para el caso continuo, se toma la diferencia mxima posible entre los lmites de intervalos. Clculo de la desviacin media9 Como la suma de las desviaciones respecto de la media da cero lo que se toma son las diferencias en valor absoluto. La fmula es:
Dm =
VARIANZA 2 Se define como la media de las desviaciones cuadrticas respecto de la media. DESVIACIN TPICA Se define como la riz cuadrada de la varianza:
Clculo de la varianza. De la definicin se tiene:
x x n n
i i 2
Propiedades
(x x) = n
i i
ni
= 2 .
1. Si se suma una constante a todos los valores de la variable la desviacin tpica no vara. 2. Si se multiplican todos los valores de la variable por el mismo nmero, la desviacin tpica queda multiplicada por el mismo nmero 3. Se verifica que
=
frmula que simplifica su clculo.
x n n
2 i i
x2
Se utiliza para eliminar la influencia de las unidades en el valor de la dispersin y mide la dispersin relativa de la muestra..
Por definicin se calcula mediante la frmula:
Cp =
TIPIFICACIN Para comparar dos series datos estadsticos se normaliza (o tipifica) la variable COEFICIENTES DE ASIMETRA Y CURTOSIS Sirven para medir la simetra y el apuntamiento de las series estaddticas
Si el coeficiente de asimetra es:>0 la curva es sesgada a la derecha, y s es<0, sesgada a la iizquierda
8
Z=
X x
Se dice que se ha tipificado la variable. Clculo de los coeficientes de asimetra y apuntamiento. El coeficiente directo de asimetra se define as:
(x =
x ) 3 ni
i
: 3 :
x ) 4 ni
El de apuntamiento : 4
(x =
ni
: 4
Observacin. Cuando se trabaja con datos agrupados se toma xi igual a la marca de clase.
CV 13
Estadstica
EJERCICIOS resueltos
1. a) Completar los datos que faltan en la siguiente tabla estadstica, donde f, F y fr representan, respectivamente, la frecuencia absoluta, acumulada y relativa:
x 1 2 3 4 5 6 7 8 7 7 5 28 38 45 f 4 4 16 0,16 0,14 F fr 0,08
2. Observados los alquileres de un conjunto de despachos se ha obtenido: Alquileres en ni miles de pesetas [0,15) 17 [15,30) 130 [30,45) 180 [45,60) 30 [60,75) 10 [75,90) 5 Calcula la moda y la mediana. Solucin: Como los datos son agrupados tenemos: para la moda la frmula: m0 = Li +
b) Calcula la media, mediana y moda de esta distribucin Solucin a) La frecuencia relativa de 1 es 0,08 =
4 , N
Para la mediana usamos el polgono acumulativo de frecuencias xi [0,15) [15,30) [30,45) [45,60) [60,75) [75,90) ni 17 130 180 30 10 5 Ni 17 147 327 357 367 372
3. Una empresa petrolera ha tenido unos beneficios anuales de 2000 millones de pesetas. En dicho sector la media es de 1500 millones y la desviacin tpica de 450 millones. Un comercio tuvo un beneficio de 8 millones. La media del sector es de 6 millones y la desviacin tpica de 2,5 millones. Cul tuvo mejor beneficio respecto a su sector?. Solucin Tipificamos las variables9
Al tipificar las variables las medimos en unidades de desviacin tpica, lo que permite compararlas. 14
CV
Estadstica
2000 1500 500 86 2 = = 11 , ; para el comercio: = = 1,3 1,5 1,5 450 450
Luego tuvo mayor beneficio respecto de su sector el comercio, ya que se desvi por encima de la media en 1,3, mientras que la petrolera slo 1,1. 4. De dos muestras la primera con media 30 y desviacin tpica 4 y la segunda de media 50 y desviacin tpica 5, cul es la que aparece ms dispersa? Solucin Calculamos el coeficiente de variacin de Pearson10, Cp = 4/30 = 0,13 y 5/50 = 0,1, luego es ms dispersa la primera. 5. Se quiere hacer una revisin mdica a los empleados de una empresa. Se han escogido 3 muestras del mismo nmero de empleados. De la primera muestra se han revisado 6 personas por hora, de la segunda 5 personas por hora y de la tercera 4 personas por hora. Hallar el promedio de las revisiones. Solucin Se trata del cociente entre las magnitudes: nmero de personas y nmeros de horas. Al calcular los cocientes se ha mantenido fijo el nmero de personas. Por tanto para hallar el promedio se ha de calcular la media armnica, cuya definicin es:
de ambas:
mh =
N 1 i =1 x i
. mh = 3/(1/6+1/5+1/4) =4,86
6. Un profesor hace 3 exmenes considerando que el 2 es ms importante que el 1 y el 3 ms importante que el 2. Para calcular la nota del alumno que promedio te parece el ms indicado? Solucin La media ponderada: que se define as: m p =
x p
i i =1 N
p
i =1
7. Se considera una distribucin de datos agrupados en intervalos cuyo polgono de frecuencias acumuladas es el de la figura. Calcula: a) Tabla de distribucin de frecuencias acumuladas. b) la media. Solucin a)
xi 20 40 60 80 ni 3 6 5 0 6 Ni 3 9 14 14 20
20 14 9 3 20 40 60 80 100
100
b)
x=
10
CV
15
Estadstica
8. En la fabricacin de un cierto tipo de clavos, aparecen un cierto n de ellos defectuosos. Se han estudiado 200 lotes de 500 clavos cada uno obteniendo:
1 5
2 15
3 38
4 42
5 49
6 32
7 17
8 2
Calcular la mediana y el percentil 20. Solucin: Se construye la tabla estadstica con las columnas de las frecuencias absolutas acumuladas, siendo sta:
N de piezas N de lotes (fa) Frec. absoluta acumulada.
5 5 15 20 38 58 42 100 149 49 181 32 198 17 200 2 200 Como es par la distribucin la mediana es la media de los valores centrales. Los valores centrales son 4 y 5, por tanto la mediana es 4,5. 9. En el estudio de un cierto fenmeno se obtiene la siguiente tabla: xi ni 7 6 10 7 12 16 16 17 19 22 20 19
1 2 3 4 5 6 7 8
El percentil 20
21 17
Se tiene:
= 104 , y
rresponde al dato 12; 3.26=78, correspondiente al dato 20. Luego: Q1=12, Q3=20
10. La siguiente tabla muestra las frecuencias relativas, fi, de respuestas correctas contestadas a un test de 24 preguntas por 50 personas.
x fi 0-4 0,1 5-9 0,3 10-14 15-19 20-24 0,3 0,2 0,1
15 10 5
0-4
5-9
CV
16
Estadstica
11. La distribucin de las notas obtenidas por 60 alumnos en un examen, agrupados en intervalos, es: Notas [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10) n de alumnos 1 2 5 7 9 15 11 6 3 1 Determine: a) la media; b) la moda; c) el percentil 90. Solucin Construimos la tabla con las marcas de clase. xi 0,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5 8,5 9,5 fi 1 2 5 7 9 15 11 6 3 1 60 xif 0,5 3 12,5 24,5 40,5 82,5 71,5 45 25,5 9,5 315 4 5 Mo 6 Por semejanza de tringulos : 7
9
a) La media es x =
315 = 5,25 60
b) El intervalo modal es [5,6). El valor que se asigna se obtien aplicando la frmula [3] Mo = 5 +
15 9 1 = 5,6 15 9 + 15 11
Veamos de dnde sale esta fmula. Como indicamos en la teora el punto que se asigna es el de la figura 15
x x 1-
11
c) Para el clculo del percentil 90 necesitamos el plgono de frecuencias acumulada [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10) ni 1 2 5 7 9 15 11 6 3 1 Ni 1 3 8 15 24 39 50 56 59 60
56 54 50
90 90 = 60 = 54 100 100
7 P90 8 Por interpolacin lineal. y 50 = 6 (x-7) Para y = 54, 4 = 6x 42, de donde P90= x = 7,67
12. De un conjunto de 10 datos de media 5 se elimina uno de ellos, de forma que los 9 datos restantes tienen media 4. Qu dato se ha suprimido. Solucin Por definicin de media se tiene:
CV
17
Estadstica
EJERCICIOS propuestos
1 Los jugadores de un determinado equipo de baloncesto se clasifican segn por altura segn la tabla siguiente: 1,70-1,75 1,75-1,80 1,80-1,85 1,85-190 1,90-195 1,95-2,00 altura 1 3 4 8 5 2 n de jugadores Queremos analizar la variable altura para ello se pide: a) la media, la moda y la mediana. b) la desviacin tpica. c) los cuartiles 1 y 3. 2. Los pacientes que acuden a una consulta mdica se distribuyen, segn la edad, en una tabla: X(edad) N (frecuencia) [0, 10) 7 [10, 20) 10 [20,30) 30 [30, 40) 18 [40, 50) 12 [50,60) 3
Se pide: a) El histograma de frecuencias. b) La media, desviacin tpica, mediana y moda. c) Porcentaje de pacientes menores de 40 aos que acuden a la consulta. 3. a) Calcula la media, moda, mediana y el percentil 70 de la variable del ejercicio 6. b) Calcular el coeficiente de variacin de Pearson (Cp =
x
4. En un Instituto de bachillerato existen dos grupos de COU para la asignatura de Matemticas II. Las calificaciones de la 1 evaluacin para una muestra de 10 alumnos de cada grupo fueron las siguientes: Grupo A Grupo B 0 2 1 2 1 4 3 4 5 4 5 5 6 5 8 6 8 6 9 8
CV
18