Está en la página 1de 67

SMC

ESTADISTICA DESCRIPTIVA Prof.: Sergio Moscoso Cerda 1.0 Definiciones Bsicas 1.1 Estadstica: Es la disciplina que se preocupa de recopilar, organizar y analizar datos cuantitativos o cualitativos para luego emitir una opinin y posteriormente tomar una decisin La estadstica se divide en dos partes

Descriptiva o Exploratoria Estadstica : Inferencial


1.2 Estadstica Descriptiva La Estadstica Descriptiva es la que trabaja con todos los elementos de una muestra y los clculos realizados slo son validos para dicha muestra. 1.3 Estadstica Inferencial Es la que hace que todas las mediciones hechas a una muestra sean validas para la poblacin de la que se sac la muestra. 1.4 Rol de la Estadstica en la investigacin Cientfica Una de las caractersticas del hombre es que busca constantemente una explicacin racional de los fenmenos que lo rodean. Es tarea propia de la ciencia el observar adecuadamente los hechos, discernir que elementos son constantes en ellos y determinar las leyes que lo rigen, es decir, sus relaciones constantes y universales. 1.5 El Mtodo Cientfico Es el mtodo propio de la ciencia, el que se aplica al ciclo completo de una investigacin, desde el enunciado del problema hasta la evaluacin de los resultados obtenidos. En el mtodo cientfico podramos distinguir en forma esquemtica, y con las limitaciones que esto supone, las siguientes etapas:

SMC

Enunciado del problema Formulacin de la(s) Hiptesis Mtodo Cientfico: Verificacin de la(s) Hiptesis Interpretacin de los resultados
Enunciado y eleccin del problema La eleccin de un problema se hace con el fin de averiguar sus causas que lo producen o de encontrarle soluciones al problema, depender de los juicios de valor del investigador y de las condiciones sociales, polticas y econmicas en las cuales se desarrolla la ciencia. El enunciado puede hacerse a travs de la descripcin de la situacin problema o mediante el planteamiento de una pregunta. Formulacin de una Hiptesis La hiptesis es una explicacin de la situacin problema o una respuesta posible a la pregunta planteada. Se formula en trminos afirmativos respecto a relaciones entre variables pertinentes. - Verificacin de la(s) hiptesis Siendo la hiptesis una explicacin o una respuesta general, muchas veces no es posible investigar directamente su veracidad. Se procede en estos casos a deducir en forma lgica consecuencias particulares de la hiptesis La verificacin puede hacerse, sobre todo en las ciencias exactas, mediante demostraciones tericas basadas en relaciones aceptadas en el estado actual del conocimiento. En el campo de las ciencias sociales la verificacin se hace, a travs de la recoleccin de informacin o de observacin de los fenmenos. Esto implica la aplicacin de una serie de procedimientos estadsticos. Interpretacin de los resultados Con los datos obtenidos en la etapa anterior se decide si se ha de rechazar o no la hiptesis en estudio.

SMC

La verdad absoluta, seguir siendo la meta final y desconocida del mtodo cientfico. Los logros se reducirn a construir un cuerpo de conocimientos con estructura lgica y soportes racionales que resista la verificacin emprica. 1.6 El Mtodo Estadstico Es un conjunto de procedimientos aplicados en secuencia lgica a la obtencin y anlisis de datos. Es el Mtodo Estadstico el que nos proporciona las tcnicas necesarias para recolectar y analizar la informacin requerida. En el que se distinguen las siguientes etapas

Planificacin Etapas del mtodo Estadstico: Ejecucin


1.6.1 La etapa de Planificacin En esta etapa debemos considerar las siguientes fases

Definicin de Objetivos Definicin del Universo Etapa de Plabificacin: Diseo Muestral Definicin de unidades de observacin Plan de tabulacin y anlisis
Definicin de objetivos Corresponde formalmente a la descripcin del problema que da origen a la investigacin. Se debe sealar detalladamente lo que se pretende investigar, es decir, dar respuestas a: - el qu - cmo - donde - cuando - por qu

SMC

Definicin del Universo o Poblacin Se debe definir el grupo del cual se extraer la informacin y a la cul se referirn los resultados. Diseo de la muestra La teora de Muestreo o de Diseo y Anlisis de Experimentos puede garantizarnos que la informacin que generaremos nos permitir proyecciones vlidas al universo de inters. Definicin de las unidades de observacin, escalas de clasificacin y unidades de medidas Puede ocurrir que en una misma investigacin tenga varios objetivos especficos que requieran estudiar unidades de observacin diferentes. Por lo tanto, se debe definir claramente las unidades de observacin Preparacin del plan de tabulacin y anlisis El cuidado en este aspecto nunca podra considerarse excesivo, debera llegarse, tal vez, hasta considerar alternativas de anlisis adecuadas para compensar algunas alteraciones accidentales del plan de trabajo.

1.6.2 La etapa de Ejecucin En esta etapa podemos reconocer las siguientes fases:

Recoleccin de la informacin Etapa de Ejecucin: Elaboracin de la informacin Anlisis de resultados


Recoleccin En esta etapa se recoge la informacin cualitativa o cuantitativa. Dado que los datos recogidos suelen tener diferentes magnitudes (ej. peso y estatura) puede decirse que esta etapa consiste en la medicin de las variables. La recoleccin puede realizarse de diferentes maneras, a veces por simple observacin y en otras ocasiones se requieren complejos procedimientos de medicin La calidad tcnica de esta etapa es fundamental ya que de ella depende que se disponga de datos exactos y confiables en los cuales se fundamentan las conclusiones de toda investigacin

SMC

Elaboracin de los informes En esta etapa se elaboran los cuadros y los grficos que permiten una inspeccin precisa y rpida de los datos Presentar la misma informacin tanto en un cuadro como en su correspondiente grfico permite obtener una clara idea de la distribucin de las frecuencias de las caractersticas estudiadas Anlisis de resultados En esta etapa, mediante formulas estadstica apropiadas y el uso de tablas especficamente diseadas, se efectan las comparaciones de las estadsticas. El anlisis estadstico de los datos consiste en la comparacin de estadsticos con el propsito de decidir si existen diferencias significativas. Cada prueba de anlisis estadstico debe utilizarse siempre en funcin del tipo de diseo de investigacin que se haya seleccionado para la comprobacin de cada consecuencia verificable deducida a partir de la hiptesis general de investigacin

1.7 Poblacin: Es obvio que todo estudio ha de estar referido a un conjunto de personas o cosas. Este conjunto de personas o cosas es lo que denominaremos Poblacin Las personas o cosas que forman parte de la poblacin se denominan elementos. En sentido estadstico un elemento puede ser algo con existencia real, como un computador o una casa, o algo ms abstracto como un voto o un intervalo de tiempo. A su vez, cada elemento de la poblacin tiene una serie de caractersticas que pueden ser objeto del estudio estadstico. As, por ejemplo si consideramos como elemento a una persona, podramos distinguir en ella las siguientes caractersticas de inters: Sexo Edad Nivel educacional Profesin Peso Color de pelo Religin. Etc. Segn su tamao la poblacin se puede dividir en:

SMC

Poblacin Finita Poblacin : Poblacin Infinita


Poblacin finita Cuando el nmero de elementos que forman la poblacin es contable, por ejemplo el nmero de estudiantes por clase Poblacin infinita Cuando el nmero de elementos que forman la poblacin es no contable, por ejemplo el nmero de productos que hay en el mercado. Ahora bien, por lo general en un estudio estadstico no se puede trabajar con todos los elementos de la poblacin por un asunto de costo o de imposibilidad de tener toda la informacin, sino que se realiza sobre un subconjunto de la poblacin, lo que llamaremos Muestra 1.8 Muestra Es un subconjunto de la poblacin y se llama muestra o subpoblacin, por ejemplo al hacer un estudio sobre los estudiantes de la Universidad se podr tomar a los estudiantes que cursan tercer ao y de este subconjunto slo a los estudiantes varones. Existen dos grandes formas para seleccionar una muestra:

Aleatorio o Probabilstico Muestreo : No aleatorio o de Juicio


- Muestreo Aleatorio o Probabilstico En este tipo de muestreo, todos los elementos de la poblacin tienen la misma chance de figurar en la muestra - Muestreo no Aleatorio o de Juicio En este tipo de muestreo, se usa el conocimiento y la opinin personal para identificar los elementos de la poblacin que van a incluirse en la muestra. En ocasiones, el muestreo no aleatorio sirve de muestra piloto para decidir como seleccionar despus una muestra aleatoria.

SMC

Como nuestro trabajo lo debemos realizar con muestras obtenidas de alguna poblacin, de modo que al realizar un muestreo lo podemos hacer aplicando uno o ms de los siguientes mtodos de muestreo:

i) Muestreo Aleatorio Los elementos incluidos en esta muestra han sido seleccionados mediante algn procedimiento de sorteo o azar que signa alguna chance no nula a cada elemento de la poblacin, hablamos de Muestreo Aleatorio Simple. Ejemplo 1: Un curso tiene 20 alumnos y en el se realiza el siguiente experimento consistente en elegir 4 alumnos cualesquiera del curso, para hacer la seleccin se listan los alumnos por apellido del 1 al 20, luego se colocan en una bolsa las fichas numeradas y posteriormente se sacan a ciegas una tras otra las cuatro fichas y sin devolverlas a las bolsa (tambin se puede sacar las cuatro a la vez). El nmero escogido, corresponde al alumno que lleva ese nmero en la lista del curso. Cuntas muestras podramos escoger? Para dar respuesta a la pregunta anterior es necesario definir el concepto de Combinacin: Una combinacin se define como:

n n! = ; n , 0 r n r r ! ( n r )!
Por lo tanto, es posible determinar la cantidad de muestras posibles como:

20 20! = 4845 = 4 4! (20 4)!

Donde

SMC

20! (tamao de la poblacin)! = 4!(20 4)! (tamao de la muestra)! (tamao de la poblacin tamao de la muestra)!

Algunos tipos de muestreos son: Muestreo por Estratos En muchas situaciones, existe un factor que divide naturalmente a la poblacin de inters en subpoblaciones o Estratos ms o menos homogneos. Este procedimiento de muestreo puede darnos mayor precisin que el muestreo aleatorio simple, pero a un costo mayor. Ejemplo: Hacer un estudio por estratos socioeconmicos Ejemplo 2: Si en el ejemplo 1 el curso esta formado por 12 hombres y 8 mujeres. Segn esta divisin del curso estara dividida por estratos. El primer estrato compuesto por los alumnos hombres y el segundo por las alumnas mujeres. Si se hace un muestreo aleatorio no tendramos garanta de que la muestra contenga la misma proporcin de hombres y mujeres que hay en la poblacin. Si se quiere asegurar que los estratos en que se ha dividido la poblacin estn presentes en la muestra en la misma proporcin de la poblacin, entonces, se debe tomar una muestra aleatoria de cada estrato con tamao proporcional al que tiene el estrato poblacional (muestreo aleatorio estratificado). En el ejemplo la proporcin del estrato hombres es 60% y la proporcin del estrato mujeres es 40%. As, si deseamos escoger 4 alumnos cualquiera del curso, de modo que los estratos hombres y mujeres queden representados en la misma proporcin como lo estn en la poblacin, entonces se debe elegir 2,4 hombres (la aproximacin, siempre, se hace por exceso), es decir, se seleccionan 3 hombres y 2 mujeres. Cuntas muestras del tipo anterior se pueden escoger? 12 12! Los Hombres se pueden elegir de = = 220 3 3! (12 3)! 8 8! Las mujeres se pueden elegir de = = 28 2 2! (8 2)!

SMC

Por lo tanto, hay 220 formas diferentes de seleccionar a los hombres y 28 formas diferentes de seleccionar a las mujeres, entonces el total de muestras posibles es

12 8 = 6160 3 2

Es decir,

tamao del trimer estrato tamao del segundo estrato tamao de la muestra en el estrato tamao de la muestra en el estrato
Muestreo Sistemtico Los elementos se seleccionan de la poblacin con un intervalo uniforme que se mide en el tiempo, en el orden o en el espacio. Ejemplo 3: Se quiere entrevistar a todo dcimo estudiante de una escuela. Deberamos asignar a cada estudiante un nmero entre 00 y 99 y luego se comienza a escoger una muestra; cada dcimo nmero, es decir, 1, 11, 21, y as sucesivamente. Los estudiantes asignados con los nmeros 2, 3, 4 y 5 no tendrn oportunidad alguna de ser seleccionado.

Muestreo por Conglomerados En este caso se divide la poblacin en grupos o conglomerados y luego se selecciona una muestra aleatoria de ellos. Este muestreo se usa cuando se advierte considerable variacin dentro de cada grupo pero esencialmente semejantes entre s. Ejemplo 4: S un equipo de investigacin de mercados esta tratando de determinar por muestreo el nmero promedio de TV. por familia en una ciudad, podra utilizar un mapa de la ciudad para dividir el territorio en manzanas y luego seleccionar cierto nmero de manzanas (Conglomerados) para realizar la entrevista. Como hemos visto, los caracteres o datos de un elemento pueden ser de muy diversos tipos, por lo que los podemos clasificar en dos tipos de variables:

SMC

10

Cuantitativas Variables : Cualitativas


Variables Cuantitativas: son las que se describen por medio de nmeros tales como el peso, la estatura, nmero de hermanos, etc., las observaciones de este tipo se definen, por lo general, sobre un intervalo o sobre una escala de proporciones. Las mediciones que se definen en una escala de intervalo se pueden distinguir y ordenar en forma numrica y sus diferencias son significativas por ejemplo la medicin de la temperatura. Pude escogerse entre registrar la temperatura en grados Celsius o en grados Fahrenheit. De esta forma el origen de las escalas es diferente, pero el significado de la diferencia entre 10C y 15C es el mismo que tiene la diferencia entre 20Fy 25F. Si una medicin rene los requisitos de una escala de intervalo y adems tiene punto de origen, entonces la medicin se define sobre una escala de proporciones. Por ejemplo, las estaturas, los pesos y otros se encuentran definidos sobre una escala de proporciones ya que tienen verdaderos puntos ceros Adems, este tipo de variables se puede dividir en:

Discretas Variables Cuantitativas: Continuas


Variables Discretas: Son aquellas que se describen solo por un nmero entero, es decir, aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo el nmero de hijos por pareja Variables Contnuas: Son aquellas que por su naturaleza admiten que entre dos valores la variable pueda tomar cualquier valor intermedio, por ejemplo el peso, la estatura, etc. En muchos casos el tratamiento estadstico hace que la variable discreta se trabaje como continua y viceversa

SMC

11

Variables Cualitativas o Atributos: son las que indican una cualidad o atributo, por ejemplo sexo, religin, profesin, etc. Estas variables se pueden clasificar en:

Nominales Variables Cualitativas: Ordinales


Variables Ordinales: Son aquellas que sugieren una ordenacin, por ejemplo nivel de agresividad de un estudiante, satisfaccin con un servicio, etc. Variables Nominales: Es la que emplea un nombre o un nmero para denominar una caracterstica de inters, por ejemplo, las personas pueden clasificarse de acuerdo con su sexo, en este caso pueden emplearse los smbolos M y H 0 y 1 El siguiente diagrama se esquematiza los tipos de variables
Nominales:No hay ningn orden en las categorias Cualitativas: Ordinales: Hay un orden en las categorias Tipos de variables: Discretas: Conteo de casos Cuantitativas: Continuas:Mediciones de caracteristicas

2.0 0rdenamiento de la informacin En este punto nos vamos a ocupar de Estadstica Unidimensionales, es decir, donde el inters es una caracterstica de cada punto muestral. El ordenamiento se hace en tablas de frecuencias tambin llamadas tablas estadsticas las que podemos clasificar segn el nmero de observaciones y segn el recorrido de la variable. Tablas tipo I Cuando el tamao de la muestra y el recorrido de la variable es pequeo, por ejemplo si tomamos la edad de los 5 miembros de una familia: 2, 5, 17, 38, 40

SMC

12

Tablas tipo II Cuando el recorrido de la variable es pequeo y el tamao de la muestra es grande por lo tanto hay valores de la variable que se repiten. Ejemplo 5: La siguiente muestra corresponde a la cantidad de personas que trabajan por familia Cantidad de persona que trabajan por familia 2 1 2 4 2 1 2 1 1 3 4 2 1 1 1 1 3 2 3 2 4 2 1 4 4 2 2 2 1 3

2 2 2 3 1

1 3 2 2 3

1 2 2 1 3

2 1 2 3 4

Se puede observar que el recorrido de la variable va de 1 a 4, por lo tanto al hacer un conteo de la variable se tiene la siguiente tabla

Tabla 1 Personas que trabajan 1 2 3 4 Total

N de familias 16 20 9 5 50

Tablas tipo III Cuando el tamao de la muestra y el recorrido de la variable son grandes, por lo tanto ser necesario agrupar en intervalos de clases. Ejemplo 6: La siguiente muestra corresponde a los ingresos semanales, en miles de pesos, de 50 trabajadores de la empresa SAM y Ca. Ltda.

93 80 105 103 91

74 94 78 82 87

86 105 79 86 92

107 88 98 89 87

77 66 86 87 90

92 107 97 93 89

77 95 112 104 86

87 69 97 77 96

100 80 79 87 73

77 83 96 114 94

SMC

13

Evidentemente, el recorrido de la variable es grande, por lo tanto necesitamos tabular con intervalos de clases. Para decidir sobre la cantidad de intervalos se debe tener en cuenta las siguientes consideraciones: - Al tomar pocos intervalos aumenta la perdida de informacin - Los intervalos pueden ser Cerrados o Semicerrados - Normalmente se suele trabajar con no ms 10 o 12 intervalos - Una forma de establecer la cantidad de intervalos de clases necesario esta dado por:

Cantidad de intervalos de clase = 1+3.3 log n


Donde n es el tamao de la muestra

Ejemplo: tabulemos la muestra anterior en cinco intervalos de clases semi-cerrados, como tenemos que el recorrido real va de 66 a 114 y al modificar el recorrido de 65 a 115. Por lo tanto, la amplitud del recorrido modificado es 50 y, como la tabulacin es de 5 intervalos luego la amplitud de cada intervalo de clase es de 10, por lo tanto, tenemos la siguiente tabla Tabla 2 Intervalos de Clase

Conteo 4 11 20 9 6 50

Yi-1 - Yi
65 - 75 75 - 85 85 - 95 95 - 105 105 - 115 Total

Ejemplo: tabulemos la muestra anterior segn la cantidad de intervalos dados por

Cantidad de intervalos: 1+3,3log 50 = 6.6


Y, aproximando a 7 intervalos se tiene:

SMC

14

Intervalos de clases

Conteo 2 9 8 14 9 6 2

y i 1 y i
66.00 72.86 72.87 79.73 79.74 86.60 86.61 93.47 93.48 100.34 100.35 107.21 107.22 114.08

2.1 Tipos de frecuencias Uno de los primeros pasos que se realizan en cualquier estudio estadstico es la tabulacin de resultados, es decir, recoger la informacin de la muestra resumida en una tabla en la que a cada valor de la variable se le asocian determinados nmeros que representan el nmero de veces que ha aparecido. Estos nmeros se denominan frecuencias. As se tienen las siguientes frecuencias:

Absolutas (ni ) Relativas ( hi ) Frecuencias : Absolutas Acumulada (Ni ) Relativa Acumulada (H ) i


Frecuencia Absoluta Esta frecuencia la denotaremos ni y la definiremos como el nmero de veces que aparece en la muestra un valor de la variable. La suma de todas las frecuencias absolutas es igual al tamao de la muestra, es decir

n
i =1

=n

Esta frecuencia en una medida que est influida por el tamao de la muestra, al aumentar el tamao de la muestra aumentar tambin el tamao de la frecuencia absoluta. Esto hace que no sea una medida til para comparar por esto es necesario introducir el concepto de frecuencia relativa

SMC

15

Frecuencia relativa Esta frecuencia la denotaremos hi y la definiremos como el cuociente entre la frecuencia absoluta y el tamao de la muestra

hi =

ni ; 0 hi 1 n

La frecuencia relativa es un tanto por uno, sin embargo se puede escribir en tanto por ciento. La suma de todas las frecuencias relativas deber igual a uno

h =1
i =1 i
Frecuencia Absoluta Acumulada (Ni) Para poder calcular este tipo de frecuencia hay que tener en cuenta que la variable estadstica ha de ser cuantitativa o cualitativa ordenable. La frecuencia Absoluta Acumulada es el nmero de observaciones que hay desde el valor menor de la variable hasta un valor determinado de ella. Esta frecuencia tiene dos propiedades. a) La primera frecuencia absoluta acumulada es igual a la primera frecuencia absoluta:

( N1 = n 1 )
=n

b) La ltima frecuencia absoluta acumulada es igual al tamao de la muestra, es decir Nn

Frecuencia Relativa Acumulada (Hi) Es el porcentaje de observaciones que hay desde el valor menor de la variable hasta un valor determinado de ella. Esta frecuencia tiene dos propiedades a) La primera frecuencia relativa acumulada es igual a la primera frecuencia relativa

( H1 = h 1 )

b) La ltima frecuencia relativa acumulada es igual a uno (1), Hn

=1

SMC

16

Ejemplo 7: Del Ej.5 se tiene se obtiene la tabla 3 Personas que trabajan N de familias

Xi
1 2 3 4 Total

ni
16 20 9 5 50

hi
16/50 20/50 9/50 5/50 1.0

hi%
32 40 18 10 100

Ni
16 36 45 50

Hi
16/50 36/50 45/50 50/50

Hi%
32 72 90 100

Ejemplo 8: Del Ej.6 se obtiene la tabla 4 Intervalos de clase

Yi-1 - Yi
65 - 75 75 - 85 85 - 95 95 - 105 105 - 115 Total

ni
4 11 20 9 6 50

hi
4/50 11/50 20/50 9/50 6/50 1

Ni
4 15 35 44 50

Hi

Yi

4/50 70 15/50 80 35/50 90 44/50 100 1 110

3.0 Grficos Estadsticos Un grfico estadstico es la representacin de datos en el plano con el propsito de obtener una impresin visual del conjunto de datos, que facilite su rpida comprensin. Todo grfico debe ser sencillo y auto explicativo. El tipo de grfico para los propsitos anteriores depender del tamao del recorrido de las variables as como del nivel de medicin de estas. Tipos de grficos En estadstica los grficos ms comunes son: - Grficos de barras: Simples o separadas Cada valor de las variables se representa por una barra cuyo largo corresponde a la frecuencia con que se observa ese valor - Histogramas y polgonos de frecuencias Estn constituidos por un conjunto de rectngulos contiguos, levantados en el eje horizontal sobre cada uno de los intervalos de clase.

SMC

17

Los polgonos de frecuencias son adecuados para representar la distribucin de frecuencias de una variable contnua cuando todos los intervalos de clase tienen la misma amplitud - Grficos lineales Son grficos adecuados para analizar la existencia de asociacin entre dos variables contnuas, con nivel de medicin en escala de intervalos o razn - Grfico de correlacin o diagramas de dispersin Son grficos adecuados para analizar la existencia de asociacin entre dos variables contnuas (x, y), con nivel de medicin en escala de intervalos razn - Grficos Circulares Se utilizan para representar distribuciones de frecuencias para el caso de variables discretas y cualquier nivel de medicin, con pocos valores - Pictogramas Se utilizan para presentaciones en pblico o para fines publicitarios Todos estos tipos de grficos se pueden resumir en el siguiente cuadro

SMC

18

SMC

19

Otros grficos de uso frecuente son: Diagrama de tallo y hoja Cada dato se divide en dos partes, una conocida como tallo, que se pone en una primera columna, y la otra denominada hoja, que se pone en fila frente al tallo correspondiente. No existe una regla fija para determinar cul es el tallo y cul es la hoja de un dato. Ejemplo 9: Hagamos 10 intervalos con el ejemplo 6 Diagrama de Tallo y Hoja para x (unidad) = 1,0 donde 1.2 representa a 12 Frecuencia 2 2 7 4 12 8 6 3 4 2 Tallo y Hoja 6. 69 7. 34 7. 7777899 8. 0023 8. 666677777899 9. 01223344 9. 566778 10. 034 10. 5577 11. 24

El rango de la variable se ha dividido en 10 intervalos de clases llamados tallos, cada uno de ellos reprensado por una fila del diagrama. El primer nmero de cada fila presenta la cifra de las decenas de cada valor de la variable en su correspondiente clase. El resto de los nmeros de cada fila, llamados hojas, son las cifras de las unidades de todos los elementos de la clase definida por la fila. De esta forma, adems de representar la distribucin de los elementos en forma de histograma horizontal, en el diagrama se observan los propios elementos. Las hojas permiten analizar la simetra, la normalidad y otras caractersticas de la distribucin de igual forma que un histograma

Grfico de cajas Tanto la media como la desviacin estndar podran no ser medidas adecuadas para representar un conjunto de datos. Para superar estas dificultades y como forma de resumir grficamente los datos, se sugiere confeccionar un diagrama, conocido como diagrama de caja, que contenga la siguiente informacin

SMC

20

i) ii) iii)

La mediana Md = Q2 Los extremos E1 y E2 Los cuartiles Q3 y Q1

El grafico de caja y bigotes permite analizar y resumir un conjunto de datos univariantes dado. Esta herramienta de anlisis exploratorio de datos va a permitir estudiar la simetra de los datos, detectar valores atpicos y vislumbrar un ajuste de los datos a una distribucin de frecuencias determinada. El grfico de caja y bigotes divide los datos en cuatro reas de igual frecuencia, una caja central dividida en dos reas por una lnea vertical y otras dos reas representadas por dos segmentos horizontales (bigotes) que parten del centro de cada lado vertical de la caja. La caja central encierra el 50 por ciento de los datos. El sistema dibuja la mediana como una lnea vertical en el interior de la caja. Si esta lnea est en el centro de la caja no hay asimetra en la variable. Los lados verticales de la caja estn situados en los cuartiles inferior y superior de la variable. Partiendo del centro de cada lado vertical de la caja se dibujan los dos bigotes, uno hacia la izquierda y el otro hacia la derecha. El bigote de la izquierda tiene un extremo en el primer cuartil Q1, y el otro en el valor dado por el primer cuartil menos 0,5 veces el rango intercuartlico, esto es, Q1 0,5 Q3 Q1

El bigote de la derecha tiene un extremo en el tercer cuartil Q3 y el otro en el valor dado por el tercer cuartil ms 1,5 veces el rango intercuartlico, esto es,

Q3 + 1,5(Q3 Q1 ) . El sistema considera valores atpicos (outliers) los que se


encuentren a la izquierda del bigote izquierdo y a la derecha del bigote derecho. El sistema separa estos datos del resto y los representa mediante puntos alineados con la lnea horizontal central para que sean fciles de detectar. En el interior de la caja central se representa la media con un signo ms. A continuacin se presenta el grafico de caja y bigotes para la variable X de los ingreso mensuales de 50 trabajadores (ejemplo n 6)

SMC

21

70

80

90

100

110

S
El grafico permite afirmar que la variable vara entre 64 y 114 y que el 50% central de los sueldos gana entre 80 (Q1) y 96,25 (Q3). Por otra parte, no existen valores de la variable anormalmente grandes (outliers), ya que en la figura no aparecen puntos alineados con los bigotes. La distribucin es aproximadamente simtrica, ya que las zonas de la derecha e izquierda en el rea central de la figura son aproximadamente iguales. La mediana corresponde aproximadamente a 89 de la variable

SMC

22

LABORATORIO N 1

Problema 1 Los siguientes datos corresponden a la duracin, en aos, de los componentes de una vacuna 2.0 0.7 1.5 4.5 1.3 3.0 6.0 4.0 0-9 6.2 0.3 5.8 5.8 1.5 5.7 3.3 6.6 1.9 0.7 6.3 1.3 0.2 4.8 2.8 1.5 0.5 2.3 0.7 5.3 0.4

a) Construye una tabla de distribucin de frecuencias usando 5 intervalos de clase b) Dibuja su histograma y su polgono de frecuencias c) Qu porcentaje de los componentes tienen una vida entre 1.48 y 2.75?. Usa la tabla de distribucin de frecuencias d) Qu porcentaje de los componentes tienen una vida menor a 5.32 aos?. Usa la tabla de distribucin de frecuencias Problema 2 Los siguientes datos representan el periodo de vida, en segundos, de 50 mosquitos que estn sujetos a un nuevo insecticida en un experimento controlado de laboratorio 18 12 14 13 10 20 17 18 8 12 10 8 17 18 15 8 9 14 7 19 25 12 16 10 6 14 14 31 5 8 13 7 8 28 13 19 9 7 17 14 18 15 15 14 18 24 22 12 15 21

a) Construye una tabla completa de distribucin de frecuencias para este conjunto de datos, usando 6 intervalos de clase b) Dibuja un grfico de torta para las frecuencias relativas Usando la tabla de distribucin de frecuencias, responde: c) Qu porcentaje de los mosquitos lograron una vida bajo la presencia del insecticida por arriba de 29,5 segundos? d) Interpreta el valor de: 1) La tercera frecuencia absoluta 2) La segunda frecuencia relativa 3) La cuarta frecuencia absoluta acumulada 4) La tercera frecuencia relativa acumulada

SMC

23

Problema 3 Los contenidos de nicotina, en miligramos, de 40 cigarrillos marca CANCER se registraron de la siguiente manera 1.02 1.76 2.14 2.54 1.54 1.47 1.35 2.14 1.93 1.47 2.36 3.11 1.78 2.15 2.17 0.98 2.31 1.94 1.87 2.15 0.78 1.57 1.27 1.37 1.78 0.97 0.67 1.36 1.54 2.16 1.36 2.15 2.28 1.28 1.29 2.14 1.35 2.78 1.47 1.06

Encuentra para este conjunto de datos: a) Una tabulacin de frecuencias en intervalos cerrados de amplitud 0,41 b) Interpreta los valores de n2, h3 y N4 c) Grafica la frecuencia absoluta y la absoluta acumulada d) Que porcentaje de los cigarrillos tiene a los ms 1,92 miligramos de nicotina? Problema 4 La siguiente distribucin muestra corresponde a los puntajes de un examen de estadstica: 63 88 79 92 76 70 66 77 77 81 77 70 86 75 74 87 98 61 83 81 78 82 41 81 67 87 68 78 76 70 46 60 81 94 92 79 77 52 84 82

a) Utilizando una amplitud de intervalo de 5, construye una tabla de frecuencias b) Con una amplitud de 3, 10, 20 analiza la conveniencia o inconveniencia del empleo de estos tamaos de intervalos c) Para el punto (a) construye los grficos correspondientes d) Tabula esta muestra sin agrupar los datos e) Construye los grficos para (d)

SMC

24

4.0 MEDIDAS ESTADSTICA Las medidas estadsticas pretenden resumir o describir la informacin de la muestra para de esta forma tener un mejor conocimiento de la poblacin, cuestin que es uno de objetivos de la estadstica para as poder tomar una decisin. Por ahora nos referiremos solo a variables que sean cuantitativas dado que con las variables cualitativas no se pueden hacer operaciones aritmticas Estas medidas las podemos clasificar en: Medidas de resumen Nos sirven para calcular los valores centrales de la variable, en este tipo de medidas se identifican la Media, la Medina y la Moda

Media Medidas de resumen: Mediana Moda

Medidas de Dispersin Nos dan una idea sobre la representatividad de las medidas de resumen.

Minmo y Mximo Rango Varianza Medidas de Variabilidad: Desviacin Estndar Coeficiente de variacin Rango intercuartil y percentil
Medidas de la Distribucin Estas medidas miden la forma que tiene la distribucin. Estas medidas son

Asimetra Medidas de la distribucin: Curtosis

SMC

25

Medidas de la Asimetra o Sesgo Nos permite ver si la distribucin tiene el mismo comportamiento por encima y por debajo de los valores centrales Medidas de la Forma Comparan la forma de la distribucin con la forma de la Distribucin Normal.

4.1 Medidas de Resumen Las medidas de resumen que se analizarn son: a) La Media b) La Mediana c) La Moda

4.1.1 La Media: La media o promedio es un valor representativo de un conjunto de datos de la variable y se definir como:

x=

y n
i =1 i

Ejemplo: Supongamos la siguiente informacin tomada de la tabla n 2 Intervalos de clase

Yi-1 - Yi
65 - 75 75 - 85 85 - 95 95 - 105 105 - 115 Total

ni
4 11 20 9 6 50

yi
70 80 90 100 110

ni yi
280 880 1800 900 660 4520

y=

4520 = 90.4 50

SMC

26

Esto significa que 90.4 es el valor que representa a los 50 sueldos

Propiedades de la Media a) Media de una variable ms o menos una constante Si hacemos que M[ x ] sea igual a la media y k = constante, entonces se tiene

M [ x k ] = M [ x] k
Es decir, si a una variable se le suma o resta una constante la nueva media es igual a la media de la variable ms o menos la constante Ejemplo: supongamos que a todos los sueldos de la tabla n 2 se les da un aumento de 10, entonces, calcula el valor de la nueva media Solucin I Aumentaremos cada sueldo en 10 de modo que se tenga la siguiente informacin

Intervalos de clase

Yi-1 - Yi
65 - 75 75 - 85 85 - 95 95 - 105 105 - 115 Total

ni
4 11 20 9 6 50

yi
70 80 90 100 110

( y i + 10 ) ni

320 990 2000 990 720 5020

Por lo tanto, la nueva media es y =

5020 = 100.40 50

Solucin II Usaremos la propiedad, donde k= 100, entonces, se tiene

M [yi + k ] = M [yi ] + k M [ y i + k ] = 90.40 + 10 = 100.4

SMC

27

b) Media de una variable por una constante

M[ a x ] = a M[ x ] ;

Con a = constante, x = variable

Es decir, la media de una variable por una constante es igual a la media de la variable por la constante Ejemplo: Supongamos que a los 50 trabajadores de la tabla n 2 se les da un aumento del 5%, entonces calcula el valor de la nueva media Solucin I Aumentaremos cada sueldo en 5%

Intervalos de clase

Yi-1 - Yi
65 - 75 75 - 85 85 - 95 95 - 105 105 - 115 Total

ni
4 11 20 9 6 50

yi
70 80 90 100 110

( y i 1.05 ) ni
294 924 1890 945 693 4746

Por lo tanto, la nueva media es y = Solucin II Usaremos la propiedad

4746 = 94.92 50

M [a y i ] = aM [ y i ] M [1.05 y i ] = 1.05 90.40 = 94.92

c) Media de una Constante

M[k] = k, donde k es una constante.


Es decir, la media de la constante es la constante

SMC

28

Observacin: Todas estas las propiedades de la media se pueden demostrar usando las propiedades de las sumatorias d) - Slo puede ser calculada en distribuciones de variables cuantitativas - Todos los valores son incluidos en el clculo de la media - Una muestra slo tiene una media - Es una medida de resumen til para comparar dos o ms poblaciones - Es la nica medida de resumen donde la suma de las desviaciones respecto a la media es igual a cero. Por lo tanto, podemos considerar a la media como el punto de balance de una muestra Si designamos a Zi como las diferencias entre un valor de la variable y su correspondiente media, se tiene

Zi = yi y
Ejemplo: i) supongamos que el sueldo de un trabajador, de la tabla n 2, es de 100, entonces,

Zi = 100 90.4 = 9.6


Esto quiere decir que este trabajador esta 9.6 unidades de sueldo por sobre el promedio ii) supongamos que el sueldo de un trabajador es de 80, entonces

Zi = 80 90.4 = 10.4
Esto quiere decir que este trabajador esta 10.4 unidades de sueldo por debajo del promedio iii) Supongamos que el sueldo de un trabajador es de 90.40, entonces,

Zi = 90.4 90.4 = 0
Esto quiere decir que el sueldo de este trabajador es igual al promedio Relacin entre las desviaciones

SMC

29

De acuerdo a la definicin de desviacin, entonces, se tiene que

Z=

y n
i =1 i

Y = 0

Esto es la media de las desviaciones respecto de la media es cero

Desventajas de la media aritmtica - Si algunos valores son extremadamente grandes o extremadamente pequeos la media no es una medida apropiada para representar a la muestra - No se puede determinar si en una distribucin de frecuencias hay intervalos de clases abiertos

Media en funcin de las Medias de las Submuestras Por ejemplo si una distribucin es dividida en n submuestras la media total de la distribucin se podra calcular usando la siguiente expresin:

y=

y1 n1 + y 2 n2 + + y n nn n1 + n2 + + nn

Ejemplo: supongamos la informacin de la tabla n 2

Intervalos de clase

Yi-1 - Yi
65 - 75 75 - 85 85 - 95 95 - 105 105 - 115 Total Calcular el promedio de

ni
4 11 20 9 6 50

yi
70 80 90 100 110

ni yi
280 880 1800 900 660 4520

SMC

30

i) los que ganan menos de 85 ii) los que ganan 85 o ms iii) usados las medias anteriores calcula la media global

y1 =

1160 = 77.3333 15 3360 = 96 35

y2 =

y=

77.333 15 + 96 35 = 90.399 15 + 35

Lo que comprueba la relacin anterior

4.1.2 Media Geomtrica: x G La media geomtrica, que representaremos como G, se define como:
n n x G = n x1 1 x2 2 nk xk

El empleo ms frecuente de la media Geomtrica es el promediar variables tales como porcentajes, tasas, nmeros de ndices, etc.; se usa en los casos en los que se supone que la variable presenta variaciones acumulativas Ejemplo: tomemos la informacin de la tabla n1

Personas que trabajan 1 2 3 4 Total Calculemos la media geomtrica

N de familias 16 20 9 5 50

SMC

31

n n x G = n x1 1 x2 2

nk xk x G = 50 116 220 39 45 = 1,8471

4.1.3 Media Armnica: x H La media Armnica, que representamos como H, se define como:

xH =

n 1 x ni i =1 i
k

Ejemplo: tomemos la informacin de la tabla n 1


1 n xi 1 16 1 2 20 1 3 9 1 4 5 30,25

Personas que trabajan 1 2

N de familias 16 20

3 4 Total

9 5 50

xH =

n 50 xH = = 1,1620 k 1 30,25 x ni i =1 i

Obsrvese que la inversa de la media armnica es la media aritmtica de los inversos de los valores de la variable. No es aconsejable en distribuciones de variables con valores pequeos. Se suele utilizar para promediar variables tales como productividades, velocidades, tiempos, rendimientos, tipos de cambio, etc.

SMC

32

4.2 La Mediana (Med) La mediana es el valor central de la variable, es decir, si la muestra esta ordenada en forma creciente o decreciente, el valor que divide en dos partes iguales a la muestra segn el tamao de esta 4.2.1 Clculo de la mediana si los datos corresponden a variables discretas Para esto tendremos en cuenta el tamao de la muestra.

a) Si n es impar, hay un trmino central el que podr determinarse de la siguiente manera:

n +1 2
y el trmino que ocupe ese lugar ser la mediana, por ejemplo si tenemos la siguiente muestra 1, 4, 58, 10, 12, 14, 20

Entonces, n = 7, luego se tiene que

n +1 7 +1 = =4 2 2
Al ordenar la informacin se tiene que:

1 4 10 12 14 20 58 Med
Es decir, la Mediana ser el trmino que ocupe el 4 lugar, o sea 12

b) Si n es par, hay dos trminos centrales los que podrn determinarse de la siguiente manera:

SMC

33

n n 2 y 2 + 1
La mediana ser, entonces, la media de estos dos valores, por ejemplo

2, 3, 7, 21, 34, 45, 50, 86

Luego. n = 8, entonces se tiene que

8 8 2 y 2 + 1
2 3 7 21 34 45 50 86 4 to 5to
Es decir, los trminos 4 y 5 corresponden a los valores 21 y 34 respectivamente, luego la mediana es

Med =

21 + 34 = 27,5 2

4.2.2 Propiedades de la Mediana - La mediana resulta razonablemente estable frente a pequeos cambios realizados a los datos

- La mediana es no sensitiva a valores extremos (outliers) - Para un conjunto de n datos existe una nica mediana Si n es impar, la mediana resulta ser uno de los datos de la muestra. En caso en que n es par, la mediana resulta igual a uno de los datos de la muestra slo si los n n datos ubicados en los lugares y + 1 son iguales. 2 2

SMC

34

- La mediana no usa toda la informacin de la muestra, dado que la mediana es calculada usando solo los valores centrales de los datos, el resto de los datos son desestimados.

Ejemplo 1: Int. de clase 5 - 12 12 - 19 19 - 26 26 - 33 33 - 40 40 - 47 47 - 54 Total


ni 12 16 20 12 10 6 4 80 Yi 8.5 15.5 22.5 29.5 36.5 43.5 50.5 Ni 12 28 48 60 70 76 80 hi 0.15 0.20 0.25 0.15 0.125 0.075 0.05 1 Hi 0.15 0.35 0.60 0.75 0.875 0.95 1

El grafico es:

La mediana se encuentra intersectando la recta Y= 50 con ojiva, es decir, se encuentra intersectando la recta y = 50 con la recta que pasa por los puntos (19, 35) y (26, 60). La ecuacin analtica de la recta que pasa por los puntos (19,35) y (26, 60) es

SMC

35

Y=

25 x 230 . 7 7

La interseccin de esta recta con Y = 50 nos da el valor de x= 23,2

4.2.3 Calculo de la Mediana si la variable es continua, la tabla deber ser de intervalos, entonces, se calcula de la siguiente manera:

n N j 1 Med = Li + c 2 ni
Donde: Li: Limite inferior del intervalo de la clase de la mediana c: Amplitud del intervalo de la clase de la mediana Nj-1: Frecuencia absoluta acumulada anterior a la de frecuencia absoluta acumulada de la clase de la mediana ni: Frecuencia absoluta del intervalo de la clase de la mediana Ejemplo2: De la tabla 4 se tiene que

n = 25; C = 10; Nj-1 = 15; ni = 20; Li = 85 2


Luego la mediana es:

25 15 Med = 85 + 10 = 90 20

4.3 La Moda (Mod.) La moda es el valor de la variable que tiene mayor frecuencia absoluta, es la nica medida de resumen que tiene sentido estudiar en una variable cualitativa.

SMC

36

Por su definicin, la moda no es nica, pues puede haber distribuciones que tengan ms de una moda. En cuyo caso tendremos una distribucin que sea uni modal o polimodal segn sea el caso, como se muestra en el grafico siguiente

Por lo que el clculo de la moda en distribuciones discretas o cualitativas no requiere de una explicacin mayor, sin embargo, el clculo de la moda para distribuciones cuantitativas contnuas es necesario hacer algunos clculos. La moda se la define como:

i ) Mod = Li +

ni ni 1 c ( ni ni +1 ) + ( ni ni 1 ) ni +1 c ni +1 + ni 1

ii ) Mod = Li +

Ejemplo 2: Veamos sus clculos con un ejemplo para lo cual utilizaremos la informacin de la tabla 4

Intervalos de clase

ni

Yi-1 - Yi
65 - 75 75 - 85 85 - 95 95 - 105 105 - 115 Total 4 11 20 9 6 50

SMC

37

Como el intervalo que tiene mayor frecuencia absoluta es el tercero, entonces, al reemplazar en las formulas anteriores se tiene lo siguiente:

i ) Mod = 85 + 10

( 20 11) = 87,37 20 11) + ( 20 + 9 ) (


9 = 89,50 9 + 11

ii ) Mod = 85 + 10

Observndose una buena aproximacin entre estos valores


4.4 Medidas de Localizacin Las medidas de localizacin dividen la distribucin en partes iguales, sirven para clasificar a un elemento dentro de una determinada poblacin o muestra.

Este tipo de valores que identifican un cierto porcentaje de la muestra son conocidos generalmente con el nombre de percentiles o fractilas. En general, si disponemos de n datos y 0 < < 1, y queremos calcular el percentil 100% , conocido como cuantil procedemos de la siguiente manera: i) ii) iii) Ordenar la muestra en forma ascendente Calcular q = ( n + 1) Si q es entero, el percentil 100% ser el dato ubicado en el q-simo lugar. Si q no es entero, el percentil 100% ser el promedio de los datos ubicados en el lugar (q) y (q+1).

Ejemplo 3: Si disponemos de 30 datos, entonces el percentil 25% ser q = 0,2530 = 7.5, por lo tanto el percentil 25% ser el promedio de los datos ubicados entre el 7 y 8 lugar (despus de ordenar la muestra en forma ascendente)

SMC

38

4.4.1 Cuartiles Esta medida de localizacin divide a la variable en cuatro partes iguales respecto al tamao de la muestra, los cuartiles son cuatro a saber:

Q1: Cuartil inferior, valor de la variable que supera al 25% de los datos de la muestra Q2: Valor de la variable que supera al 50% de los datos de la muestra, este valor corresponde al valor de la Mediana. Q3: Cuartil superior, valor de la variable que supera al 75% de los datos de la muestra Por lo tanto, los cuartiles primero y tercero se los define como:

n 4 Ni 1 Q1 = Li + C ni 3n 4 Ni 1 Q3 = Li + C ni

Ejemplo 3: De la tabla 4 se tiene que

Intervalos de clase

ni
4 11 20 9 6 50

Ni
4 15 35 44 50

Yi-1 - Yi
65 - 75 75 - 85 85 - 95 95 - 105 105 - 115 Total

SMC

39

De modo que al reemplazar en los Cuartiles correspondientes tenemos: a) Dado que

n = 12,5 lo que nos indica que el primer cuartil se encuentra en el 4

segundo intervalo y reemplazando en Q1 tenemos lo siguiente

12,5 4 Q1 = 75 + 10 = 82,73 11
Esto significa que el 25% de la muestra tiene ingresos inferiores a 82,73 y que el 75% de la muestra tiene ingresos mayores que 82,73

b) Dado que

3n = 37,5 4

lo que nos indica que el tercer cuartil est en el cuarto

intervalo y reemplazando en Q3 tenemos lo siguiente

37,5 35 Q3 = 95 + 10 = 97,78 9
Esto significa que el 75% de la muestra tiene ingresos inferiores a 97,78 y que el 25% de la muestra tiene ingresos superiores a 97,78
4.4.2 Deciles Los decles son nueve y dividen a la variable en diez partes iguales respecto al

tamao de la muestra, dk = decil k-simo, es aquel valor de la variable que deja a su izquierda k10% de la distribucin. Los deciles los denotaremos por D y se los define por:

k n 10 Ni 1 Dk = Li + C con k = 1, 2,3,...,9 ni

SMC

40

4.4.3 Percentiles Los Percentiles son 99 y dividen a la variable en cien partes iguales respecto al tamao de la muestra, Pk = percentil k-simo, es aquel valor de la variable que deja a su izquierda el k100% de la distribucin. Los Percentiles los denotaremos por P y se los define por:

k n 100 N i 1 Pk = Li + C con k = 1, 2,3,...,99 ni


4.4.4 Quintiles Los quintiles son 4 y dividen a la variable en cinco partes iguales respecto al tamao de la muestra qk = quintil k-simo, es aquel valor de la variable que deja a su izquierda el 20%, 40%, 60% o 80% de la distribucin. Los quintiles los denotaremos por q y se los define como

kn Ni 1 5 con k = 1, 2, 3, 4 qk = Li + c ni

SMC

41

LABORATORIO N 2 Problema 1 Del laboratorio n 1 y del problema n 1 Calcula e interpreta

1) La media utilizando las frecuencias absolutas y las relativas 2) La nueva media si los tiempos aumentan en 0,25 aos 3) La nueva media si los tiempos disminuyen en 0,50 aos 4) La nueva media si los tiempos aumentan en 15% 5) La nueva media si los tiempos disminuyen en 20% 6) la media si la muestra se dividi en 3 submuestras 7) Comprueba que la media de las desviaciones respecto de la media es cero 8) El valor de la mediana 9) El valor de la moda 10) El valor del primer y tercer cuartil 11) El valor de D6, P85 y Q4 12) El valor del rango Percentil 13) El valor del rango Semi- intercuartil 14) La varianza, Utiliza la definicin y el calculo abreviado 15) La desviacin tpica o estndar 16) Si la distribucin es dividida en tres submuestras, cul de ellas es ms homognea? 17) Si la submuestra es dividida en dos submuestras, cul es el sesgo de ellas? 18) Cul es el valor de k del pregunta 16?

SMC

42

5.0 Medidas de Dispersin Las medidas de dispersin miden el grado de variabilidad que tienen los datos de una muestra respecto a una medida de resumen, la que por lo general es la media.

Para entender mejor esta medida lo haremos con el siguiente ejemplo. Supongamos el promedio de edad de dos equipos de bsquetbol es de 20 aos y, con esta informacin pretendiramos describir la distribucin de la edades por equipo nos daramos cuenta que con el promedio no estamos en condiciones de hacerlo, para ello hacemos un listado de las edades de dos equipos de bsquetbol

Equipo A: 20-19-21-18-22 Equipo B: 24-15-31-12-18 Ahora, por simple impeccin de los datos nos damos cuenta que el promedio de edad no es un buen descriptor de la muestra. Se puede observar que las edades del equipo A estn ms cerca de promedio respecto a las del equipo B La idea de dispersin se relaciona con la mayor o menor concentracin de los datos entorno a un valor central, generalmente la media, como se muestra el los grficos siguientes

SMC

43

Las medidas de dispersin o variabilidad que estudiaremos son:


i) Los rangos: son los valores que se obtienen mediante una diferencia ii) Desviacin Total y desviacin Media: son valores que se obtienen mediante una diferencia entre algn valor de una variable y su media iii) Varianza: Talvez sea el estadstico de variabilidad ms importante, e indica el grado de variacin que tienen los datos respecto de un valor central generalmente la madia

SMC

44

5.1 El rango Es la diferencia entre el valor mayor y el valor menor de la distribucin. Al comenzar a tabular se midi el rango de la muestra.

Los rangos ms comunes son:


1) Rango Intercuartil El rango Intercuartil es la diferencia entre el tercer y el primer cuartil:

Q3 Q1
Ejemplo 6: De la tabla 4 se tiene que

Q3 Q1 = 97,78 82,73 = 15,05


Por lo tanto, aqu se encuentra el 50% de la muestra

2) Rango Semi Intercuartil El rango semi Intercuartil es la semidiferencia entre el tercer y primer cuartil

Q=

Q3 Q1 2

Ejemplo 7: De la tabla 4 se tiene lo siguiente

Q=

Q3 Q1 15,05 = = 7,525 2 2

3) Rango Percentil El rango percentil es la diferencia entre el percentil noventa y el percentil diez

P90 P 10

SMC

45

5.2 Desviacin Total y Media

La desviacin total la denotaremos por por

y la desviacin media la denotaremos

y se definen de la siguiente manera:

Para datos no agrupados

m =

| x
i =1

x|

n
n

t = | xi x |
i =1
Para datos agrupados

m =

n | y y |
i =1 i i

t = ni | yi y |
i =1

Ejemplo 5: Las muestras siguientes corresponden a las notas de Estadstica de dos cursos A y B respectivamente

SMC

46

Curso A

Notas
0,5 1,5 2,5 3,5 4,5 5,5 6,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5

Yi
1 2 3 4 5 6 7

ni
4 8 7 8 7 8 4

ni | yi y |
12 16 7 0 7 16 12 = 70

Yi*ni
4 16 21 32 35 48 28 = 184

n
n =1

= 46

De la tabla anterior para este curso se tiene lo siguiente:

y = 4,0

t = 70 m =
70 = 1,52 46
Curso B

Notas
0,5 1,5 2,5 3,5 4,5 5,5 6,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5

Yi
1 2 3 4 5 6 7

ni
3 4 7 24 18 3 1 = 60

ni | yi y | 9 8 7 0 18 6 3 = 51

Yi*ni
3 8 21 96 90 18 7 = 243

De la tabla anterior se tiene lo siguiente:

SMC

47

y = 4,0

t = 51 m =
51 = 0,85 60

Por lo tanto, el curso B tiene menos dispersin que el curso A, es decir, las notas del curso B estn ms cerca de la media Para el clculo de la desviacin total y media de datos no agrupados se procede de manera similar. Una manera de resolver el problema de la sensibilidad del rango frente a los valores extremos, es eliminar algn nmero predeterminado, o ms usualmente un porcentaje predeterminado de observaciones desde la parte inferior y superior de la muestra. Lo anterior elimina la influencia de los valores extremos.

5.3 La Varianza La varianza es una estadstica de variabilidad que aprovecha la informacin contenida en todas las observaciones de la muestra. Se la define como:

SMC

48

Cuasi varianza o varianza poblacional

a ) Para datos no agrupados en intervalos de clase

1 n = xi x n 1 i =1
2

o =
2

(
n i =1

xi x n 1

b) Para datos agrupados en intervalos de clase

2 =

1 ( x i x )2 ni n 1 i =1

o 2 =

(x
i =1

x )2 ni n 1

SMC

49

Varianza muestral

S2

a ) Para datos no agrupados en intervalos de clase

1 n S = xx n i =1
2

o S =
2

(
n i =1

xx n

b ) Para datos agrupados en intervalos de clase

1 n 2 S = xx n i =1

ni

o S2 =

(
n i =1

xx n

ni

Notemos que si los n valores xi, para i = 1,...,n fueran iguales dispersin, entonces

( x x)
i

no habra

= 0 para cada i = 1,...,n y por lo tanto

S2 = 0
Ejemplo 8: Tomemos las edades del equipo A de bsquetbol Como la edad promedio del equipo es de 20 aos, entonces, se tiene

Edad
20 19 21 18 22

x) 0 1 1 4 4 x =10
2 i

(x

SMC

50

Luego la cuasivarianza o varianza poblacional es:

S2 =

10 = 2,5 5 1

La varianza o varianza muestral es:

S2 =

10 =2 5

Esto es el promedio de las desviaciones al cuadrado

Si los datos estn agrupados en intervalos de clases se tiene:

1 k = ni yi y n 1 i =1
2

1 n S = ni yi y n i =1
2

SMC

51

Ejemplo 9: De la tabla 4 se tiene

Yi
70 80 90 100 110

ni
4 11 20 9 6 = 50

( y y ) n
2 i

yi 2 ni

1164.64 1189,76 3,20 829,44 2304,96 = 5992

19600 70400 162000 90000 72600 = 414600

Por lo tanto la varianza muestral es

S2 =

5992 = 119,84 . 50

5.3.1 Mtodo abreviado: de clculo de la varianza

S =
2

yi 2 ni
i =1

( )
)

S calculamos la varianza de esta manera y tomando la informacin de la tabla 4 se tiene:

S2 =

414600 90,40 2 = 119,84 50

5.3.2 Propiedades de la varianza


2 1) Varianza de una variable ms una constante, haciendo S = V [ x ]

V [ k + y i ] = V [ y i ]; k = cons tan te

SMC

52

2) Varianza de una variable por una constante

V [ k y i ] = k 2 V [ y i ]; k=constante
Verificar estas propiedades con la tabla n 4

5.3.3 La Desviacin Tpica o Estndar: S Dado que al calcular la varianza la unidad de medida original queda elevada al cuadrado. Para muchas aplicaciones eso resulta inconveniente y por eso se suele preferir la estadstica llamada Desviacin Tpica. La que se la define como

S= S

Lo que representa el promedio de las desviaciones


5.3.4 Coeficiente de Variacin Es un estadstico de dispersin que tiene la ventaja de que no lleva asociada ninguna unidad de medida, por lo que nos permitir decir entre dos muestras, cual es la que tiene mayor dispersin. La denotaremos por C.V y se le define por:

C.V =

S y

Ejemplo 10: De la tabla 4 se tiene lo siguiente:

C.V =

122,29 = 0,1223 . 90,40

Es decir la distribucin tiene una variabilidad de 12,23% respecto de la media

SMC

53

5.3.5 Medidas de Dispersin para datos cualitativos

Las medidas de dispersin para datos cualitativos est basadas en las frecuencias, estas miden el grado de heterogeneidad de los valores de la muestra, es decir, el grado en el cual los valores de la muestra estn divididos entre las categoras.

i)

Si todos los datos estn en una sola categora diremos que la dispersin es homognea, es decir la dispersin es cero. Si hay un nmero igual de datos en cada categora se describir la dispersin como heterognea, es decir, los valores de la muestra estn dispersos tanto como es posible

ii)

Ejemplo 11 Ejemplo(A) de distribucin homognea Sexo Hombres Mujeres Frecuencia 30 0

Ejemplo (B) de distribucin heterognea Sexo Hombres Mujeres Frecuencia 15 15

5.3.5.1 Radio de Variacin: (RV)

El radio de variacin mide la proporcin de observaciones de la muestra que no estn en la clase modal. El valor de RV cuando no hay dispersin, es decir, cuando los datos estn en una sola categora es cero. El clculo del Radio de Variacin se realiza de la siguiente manera. Construir la tabla de frecuencias

SMC

54

Encontrar la moda (fmod a : frecuencia modal)


. Dividir

la moda por el tamao de la muestra (n)

RV =

n fmod a n

De otra manera RV = 1
Ejemplo: Del ejemplo (A)

fmod a n

RV = 1

30 =0 30

Ejemplo: Del ejemplo (B)

RV = 1

15 1 = 30 2

Observacin: Se puede decir de RV, es que los valores bajos (prximos a cero) indican bajo monto de dispersin, mientras que valores altos (prximos a 1) indican una alta dispersin. El uso ms comn del RV es para comparar la dispersin de dos o ms distribuciones muestrales.

SMC

55

En general el RV no usa toda la informacin de la muestra (esta basado en la moda) y es sensible a pequeos cambios en los datos, pero no es afectada por los valores extremos.

6.0 Medidas de la Forma Estas medidas nos indican la forma que tiene la distribucin, es decir, a la forma horizontal y la forma vertical

6.1 Simetra Las medidas de Simetra, al igual que la Curtosis, son medidas de la forma de la distribucin, es frecuente que los valores de una distribucin tiendan a ser similares a ambos lados de las medidas de tendencia central. La simetra es importante para saber si los valores de la variable se concentran en una determinada zona del recorrido de la variable.

La simetra se puede medir en funcin de los valores de la media, la moda y la mediana. Por lo que puede ocurrir lo siguiente: a) Media > Med > Mod, entonces el sesgo el positivo b) Mod > Med > Media, entonces el sesgo es negativo Esta situacin queda reflejada en los siguientes grficos

SMC

56

- Si la simetra es igual a cero diremos que la distribucin es simtrica, en este caso las desviaciones a la derecha y a la izquierda de la media se compensan

- Si la simetra es menor que cero diremos que es asimtrica negativa ya que la mayora de las observaciones estn a la derecha de la proyeccin de la media - Si la simetra es mayor que cero diremos que es asimtrica positiva ya que la mayora de las observaciones estn a la izquierda de la proyeccin de la media

6.1.1 Los Sesgos Esta medida nos otorga el grado de asimetra de una distribucin. Si los resultados son positivos, entonces los sesgos son positivos. Los sesgos se pueden calcular de la siguiente manera

SMC

57

Primer coeficiente de sesgo de Pearson

Sesgo =

y Mod S

Ejercicio: calcula el primer coeficiente de sesgo de Pearson, utiliza la tabla n 4

Segundo coeficiente de sesgo de Pearson

Sesgo =

3 y Med S

Ejercicio: calcula el segundo coeficiente de Pearson, utiliza la tabla n 4

Coeficiente de simetra del tercer momento de R.A. Fisher Este coeficiente se basa en la comparacin con la media de todos los valores de la variable

Sesgo = 1

1 =

m3

1 =

1 k x x n i =1 j 1 n xj x i =1
k

ni
3 2

ni

SMC

58

Ejercicio: calcula el tercer coeficiente de Pearson, utiliza la tabla n 4

Interpretacin

A : Si As > 0 Asimetra positiva B: Si A s = 0 Simetra C: Si A s < 0 Asimetra negativa


6.2 Medida de Apuntamiento: Curtosis La Curtosis es una medida del apuntamiento, la que nos indicar cuan puntiaguda es la distribucin.

Hay tres tipos de curvas acampanadas, las que se muestran en los grficos siguientes

SMC

59

Este coeficiente lo vamos a denotar por K y se calcula de la siguiente manera


La Curtosis calcula por el cuarto momento

K = 2

2 =

m4

2 =

1 k x x n i =1 j 1 n xj x i =1
k

ni ni
2

Ejercicio: calcula la Curtosis por el cuarto momento, utiliza la tabla n 4

SMC

60

Interpretacin

A : Si k > 0 Ditribucin Leptocrtica B: Si k = 0 Distribucin Mesocrtica C: si k < 0 Distribucin Platicrtica


La Curtosis calculada por Cuartiles y Percentiles se define como

Q3 Q1 2 K= P90 P10
Ejercicio: calcula la Curtosis de la tabla n 4 utilizando cuarteles y percentiles Observacin: La distribucin Normal tiene una Curtosis de K = 0,263

SMC

61

6.3 Medidas de Concentracin

Para medir el nivel de concentracin de una distribucin de frecuencia se pueden utilizar distintos indicadores, entre ellos el ndice de Gini. Este ndice se calcula aplicando la siguiente frmula:

IG =

(H
i =1 i =1

qi )
i

n 1

Hi es la frecuencia relativa acumulada. i varia entre 1 y (n-1)


Mientras que qi se calcula aplicando la siguiente frmula:

qi =

Sumas Parciales de (xi ni )

x n
i =1 i

El ndice Gini (IG) puede tomar valores entre 0 y 1:

Si IG = 0: concentracin mnima. La muestra est uniformemente repartida a lo largo de todo su rango.

Si IG = 1: concentracin mxima. Un slo valor de la muestra acumula el 100% de los resultados.

Ejemplo: vamos a calcular el ndice Gini de una serie de datos con los sueldos de los empleados de una empresa (millones).

SMC

62

Sueldos: Xi 3.5 4.5 6.0 8.0 10.0 15.0 25.0

Empleados: frecuencias absolutas ni Ni

Frecuencias relativas: %

10 12 8 5 3 1 1
= 40

10 22 30 35 38 39 40

hi 25.0 30.0 20.0 12.5 7.5 2.5 2.5


=1

Hi 25.0 55.0 75.0 87.5 95.0 97.5 100

Ahora calculamos los valores de Hi y qi


Xini Suma parcial de
Suma parcial de xi ni 247

xi 3.5 4.5 6.0 8.0 10.0 15.0 25.0

ni 10 12 8 5 3 1 1 40

Ni 10 22 30 35 38 39 40

Hi:% 25.0 55.0 75.0 87.5 95.0 97.5 100


(entre 1 y (n-1))= 435

Xini 35 54 48 40 30 15 25 35 89 137 177 207 222 247

qi =

H i qi 10.83 18.97 19.53 15.84 11.19 7.62 0 83.98

14.17 36.03 55.47 71.66 83.81 89.88 100

Por lo tanto,

IG =

83.98 = 0.1931 435

Un ndice Gini de 0,1931 indica que la muestra est bastante uniformemente repartida, es decir, su nivel de concentracin no es excesivamente alto.

SMC

63

Ejemplo: Ahora vamos a analizar nuevamente la muestra anterior, pero considerando que hay ms personal de la empresa que cobra el sueldo mximo, lo que conlleva mayor concentracin de renta en unas pocas personas.

Sueldos: Xi

Frecuencias absolutas ni Ni 10 20 28 33 36 36 40

Frecuencias relativas: % hi 25.0 25.0 20.0 12.5 7.5 0.0 10.0 Hi 25.0 50.0 70.0 82.5 90.0 90.0 100

3.5 4.5 6.0 8.0 10.0 15.0 25.0

10 10 8 5 3 0 4

Ahora calculamos los valores de Hi y qi


Xini Suma parcial de Xini 35 80 128 168 198 198 298
Suma parcial de xi ni 298

xi
3.5 4.5 6.0 8.0 10.0 15.0 25.0

ni
10 10 8 5 3 0 4 40

Ni
10 20 28 33 36 36 40

Hi:%
25.0 50.0 70.0 82.5 90.0 90.0 100 (entre 1 y (n-1))= 407.5

qi =

H i qi
13.26 23.15 27.05 26.12 23.56 23.56 0 136.70

35 45 48 40 30 0 100

11.74 26.85 42.95 55.38 66.44 66.44 100

Por lo tanto, el ndice de Gini es:

IG =

136.70 = 0.3455 407.5

El ndice Gini se ha elevado considerablemente, reflejando la mayor concentracin de rentas que hemos comentado

SMC

64

LABORATORIO N 3 Problema 1 En una zona de la comuna de Santiago, La superficie de las viviendas tiene la siguiente distribucin

Superficie (m2) 50 - 60 60 - 70 70 - 80 80 -100 100-120

Frecuencia relativa (%) 20 25 15 25 15

Calcula: a) La superficie media por vivienda (Sol. 77,5m2) b) La varianza de la varianza de la distribucin (Sol. 338,75)
Problema 2 Un automovilista participa en una competicin en la que obtiene, para los distintos recorridos, las siguientes velocidades medias

Recorrido A-B B-C C-A

Distancia (km.) 400 600 1000

Velocidad (Km/h) 50 60 100

Calcula la velocidad media conseguida en la competencia (Sol. 78 km/hr)


Problema 3 Una empresa agrcola tiene 5 predios dedicados a la produccin de trigo. Las producciones y rendimientos obtenidos son los siguientes

Predio

Produccin Rendimiento (Qm ) (Qm/Ha) A 2500 10 B 3000 20 C 4000 25 D 6000 15 E 7000 14 Calcula el rendimiento medio por Ha. Para el conjunto de los predios (Sol. 4440,47619)

SMC

65

Problema 4 Un grupo de alumnos ha obtenido las siguientes notas en Matemtica y Estadstica

Notas 1 2 3 4 5 6 7

Matemtica N Estudiantes 0 10 15 23 32 10 10

Estadstica N Estudiantes 5 4 6 16 50 16 3

a) Determina para que ramo el grupo es ms homogneo. Sol. Estadstica b) Determina el puntaje estndar para los dos ramos, s la nota es 4,5 Sol zm = 0,02143 y ze =0,02308
Problema 5 Despus de haber sido evaluados los trabajadores de una empresa se dividieron en cuatro grupos, de los cuales tenemos los siguientes datos

Grupo N trabajadores A 30 B 40 C 50 D 60

Nota media Varianza 6,0 6,5 5,0 4,0

1,00 1,69 0,81 0,64

a) Calcula la nota media para toda la empresa (Sol. 5,16667) b) Calcula los coeficientes de variacin de cada grupo Sol. CA = 0,17777 CB = 0,20 CC = 0,18 CD = 0,20 c) Qu grupo es ms homogneo? d) Calcula la desviacin tpica de todas las notas de la empresa (Sol.0,97219)

SMC

66

Problema 6 En una empresa metalrgica los empleados se clasifican en tres categoras: tcnicos, especialista y administrativos. El nmero de empleados, el salario medio mensual y la varianza de los salarios de cada categora en el mes de agosto de 2000 son los que aparecen en el siguiente cuadro

Nmero De Empleados Tcnicos 20 Especialistas 100 Administrativos 40

Categora

Salario medio mensual Miles $ 200 120 100

Varianza de los salarios millones $ 400 49 25

a) Calcula el salario medio para el conjunto de la empresa y la dispersin de los salarios Sol. 125 y 875 b) En la discusin para fijar los salarios de 2001 han sido propuesta tres alternativas. 1) El aumento de todos los salarios en un 5% 2) El aumento de todos los salarios en $ 5500 mensuales 3) El aumento de los salarios segn la siguiente escala: 4% a los tcnicos, 5% a los especialistas, y 5,5% a los administrativos a) Calcula los salarios medios que resultan las tres alternativas y la dispersin en cada caso Sol. Promedio: Tec. = 208; Esp = 126 y Ad = 105,5 Sol. Dispersin: Tec = 20,80; Esp =7,35 y Ad = 5,275 b) Cul de las tres alternativas tiene mayor efecto para reducir la dispersin inicial de los salarios para la empresa?

SMC

67

También podría gustarte