Está en la página 1de 33

UNIVERSIDAD AUSTRAL DE CHILE FACULTAD DE CS.

ECONMICAS Y ADMINISTRATIVAS INSTITUTO DE ESTADISTICA

BAIN 052 ESTADSICA Y PROBABILIDAD PARA INGENIERA


ASIGNATURA DEL CURRICULUM DE LAS CARRERAS DE INGENIERA DE LA FACULTAD DE CIENCIAS DE LA INGENIERA, DE LA UNIVERSIDAD AUSTRAL DE CHILE

APUNTES DE CLASES
Versin Segundo Semestre 2011

Profesores Gastn Vergara Daz Luis Ojeda Silva Magaly Moraga Crdenas Osvaldo Rojas Quintanilla Noviembre 2011

Unidad de Aprendizaje ESTADSTICA DESCRIPTIVA


BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

I. EL MTODO ESTADSTICO II. PROCESAMIENTO ESTADSTICO DE UNA VARIABLE: DISTRIBUCIN DE FRECUENCIAS III. RESUMENES NUMRICOS: ESTADGRAFOS DE POSICIN, DISPERSIN Y FORMA 3.1. Estadgrafos de posicin central (o estadgrafos de tendencia central) 3.2. Estadgrafos de posicin no central (o simplemente de estadgrafos de posicin) 3.3. Estadgrafos de dispersin 3.4. Estadgrafos de forma IV. APLICACIONE EN EL MBITO DE LA INGENIERA

I. EL MTODO ESTADSTICO 1.1. Qu es la Estadstica? La Estadstica se ocupa de los mtodos y procedimientos para recoger, clasificar, resumir y analizar los datos. As como de realizar inferencias a partir de ellos con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. Estadstica Descriptiva e Inferencial La Estadstica se puede dividir en dos grandes ramas: la Estadstica Descriptiva y la Estadstica Inferencial. Estadstica Descriptiva: procedimientos empleados para organizar y resumir conjuntos de observaciones en forma cuantitativa. El resumen de los puede hacerse mediante tablas, grficos o valores numricos. Los conjuntos de datos que contienen observaciones de ms de una variable permiten estudiar la relacin o asociacin que existe entre ellas. Estadstica Inferencial: mtodos empleados para inferir algo acerca de una poblacin basndose en los datos obtenidos a partir de una muestra. Los datos estadsticos son clculos aritmticos realizados sobre los valores obtenidos en una porcin de la poblacin, seleccionada segn criterios rigurosos. 1.2. El mtodo estadstico - etapas de un estudio estadstico El Mtodo Estadstico es un procedimiento que se aplica al ciclo completo de una investigacin, desde el enunciado del problema hasta la evaluacin de los resultados obtenidos. El Mtodo Estadstico nos entrega un procedimiento estructurado de trabajo, el cual se organiza en tres grandes fases: planificacin, ejecucin y conclusiones. i) Planificacin. Plantear hiptesis y objetivos: Planteamiento del problema, especificacin de hiptesis y definicin de objetivos. Disear el experimento: Definicin de la poblacin y la muestra, las unidades estadsticas (unidades elementales, elementos o unidades de anlisis), las variables o caractersticas y las unidades de medida, los datos y los parmetros. Determinacin de las tcnicas de muestreo e instrumentos de recoleccin. Especificacin de las tcnicas estadsticas de anlisis. ii) Ejecucin: Recolectar los datos y analizarlos. Recoleccin, Depuracin y Organizacin de los datos. Presentacin de los datos (los cuales deben expresarse de forma que su lectura sea sencilla. Existen 3 formas de presentacin: con palabras para pocos datos-, mediante tablas estadsticas y mediante grficos estadsticos). Resumen de los datos. Inferencia en los casos en los que se trabaja con muestras. iii) Obtencin de conclusiones. Explicar el sentido de todos los resultados obtenidos y recomendar o tomar las decisiones finales. 1.3. Conceptos ligados a la definicin estadstica del problema Poblacin: Es el conjunto de todos los elementos que cumplen ciertas propiedades y entre los cuales se desea estudiar un determinado fenmeno (pueden ser hogares, nmero de tornillos producidos por una fbrica en un ao, lanzamientos de una moneda, etc.). Llamamos poblacin estadstica o universo al conjunto de referencia sobre el cual van a recaer las observaciones. Muestra: es el subconjunto de la poblacin que es estudiado y a partir de la cual se sacan conclusiones sobre las caractersticas de la poblacin. La muestra debe ser representativa, en el sentido de que las conclusiones obtenidas deben servir para el total de la poblacin. Individuo: (unidades estadsticas, unidades elementales, elementos o unidades de anlisis): cada uno de los elementos de la muestra o de la poblacin (personas, tornillos, hospitales, comercios) y sobre los que recaer la observacin. Variable: cada uno de los rasgos o caracterstica de los elementos de una poblacin y que varan de un individuo a otro (salario, color de ojos, sexo, nmero de hijos). Los datos: son los valores que alcanzan las unidades en las variables estudiadas Parmetro: es un solo valor obtenido para describir en forma sumaria las caractersticas pertinentes o un estado de naturaleza acerca de una poblacin. Una poblacin puede que tenga muchas caractersticas y, por consiguiente , tambin muchos parmetros, Sin duda, no todos los parmetros de una poblacin son necesarios en una situacin problemtica dada; su eleccin depende de la naturaleza del problema. Estadgrafo o estadstico: Es una funcin definida sobre los valores de la muestra. Se usa a menudo para estimar un parmetro y resumir las caractersticas en la muestra.

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

1.4. Clasificacin de las variables Clasificacin de las variables segn su naturaleza. Las variables pueden ser cualitativas o cuantitativas. Generalmente se utiliza el trmino modalidad cuando hablamos de caracteres cualitativos y el trmino valor cuando estudiamos caracteres cuantitativos. Una variable no es sino el conjunto de las distintas modalidades o valores que toma un carcter. o Variables cualitativas (o categricas): aquellas que no aparecen en forma numrica, sino como categoras o atributos (sexo, profesin, color de ojos, tipo de torno). o Variables cuantitativas: las que pueden expresarse numricamente (temperatura, salario, nmero de goles en un partido, dimetro de un perno, largo de un perno). Se pueden cuantificar los resultados experimentales por medio de instrumentos adoptando unidades de medida para valorar los diferentes resultados. Variables cuantitativas segn el tipo de valores que pueda tomar pueden ser discretas o continuas. Variables discretas: son el resultado de contar y slo toman valores enteros (nmero de hijos, nmero de defectos, nmero de clientes que llegan a una estacin de servicio); Variables continuas: son el resultado de medir, y pueden contener decimales (temperatura, peso, altura, dimetro). Se pueden subdividir a voluntad. Pueden tomar, entonces, cualquier valor de un determinado intervalo. Clasificacin de las variables segn la escala de medida. Las variables pueden corresponder a cuatro niveles de medicin: o Nominal: hace referencia a datos que slo pueden clasificarse en categoras; existen slo conteos; no existe orden particular para los grupos. Ejemplo: color de ojos, marca de computadores. o Ordinal: corresponde a aquellos datos que se pueden agrupar en categoras y ordenarlas segn algn tipo de gradacin. Ejemplo; nivel de dolor, nivel de preferencia. o de Intervalo: incluyen la nocin de orden y admiten las operaciones de suma y resta. Aqu se pueden establecer relaciones de igualdad y desigualdad, de orden y de igualdad de intervalos. Esto supone que hay una unidad de medida constante y uniforme a lo largo de todos los valores posibles de esta variable. En una escala intervalo el valor cero es un valor obtenido por consenso, es decir, arbitrario y no tiene un significado de ausencia del atributo. o de Razn: tiene las caractersticas de la escala de intervalo, pero se agrega un punto cero absoluto tal que significa ausencia del atributo y la razn o cociente de dos nmeros es significativo pudindose aplicarles todo tipo de instrumental matemtico. Ejemplo: ingreso familiar. Elemento de una variable: Se distinguen los 5 elementos: Nombre o denominacin de la variable. Definicin o conceptualizacin. Conjunto de valores inherentes de la variable o categoras (cdigos) definidas por el investigador. Procedimientos para categorizar las unidades de anlisis. Algunos resmenes numricos; Parmetros o estadgrafos Cuadro 1. Ejemplos de descripcin de los elementos de una variable Ejemplo 1 Ejemplo 2 Nombre: Estado civil. Nombre: Ingresos. Definicin: Situacin civil en relacin con las leyes y Definicin: Recursos monetarios netos, incluyendo las costumbres el pas. bonificaciones que percibe una persona por su Categoras: 01) Soltero(a) ocupacin principal y secundaria durante el perodo de 02) Casado (a) referencia de la encuesta. 03) Viudo (a) Categoras: En forma de niveles o simplemente 04) Divorciado (a) intervalos. d) Categorizacin:Cul es su estado civil? Niveles de Ingreso: Alto. Medio. Bajo e) Estadgrafos: Proporcin de solteros. Intervalos: Por ejemplo 4 intervalos Menos de 100.000; 100.001 a 300.000; 300.001 a 700.000; 700.001 y ms. Categorizacin: Cul es su ingreso total el ltimo mes? Estadgrafos: Ingreso medio. Dispersin de los ingresos.
Fuente: Elaboracin propia.

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

1.5. Fuentes de datos estadsticos Fuentes secundarias: Se pueden encontrar datos (estadsticas) relacionadas en artculos publicados, tesis, revistas, peridicos, etc. Fuentes primarias: La informacin deber recolectarse y analizarse. Algunas formas de recolectar datos de primera mano es mediante registros, diseo de experimentos, encuestas (muestrales, censales), etc. II.- PROCESAMIENTO ESTADSTICO DE UNA VARIABLE: DISTRIBUCIN DE FRECUENCIAS 2.1. Distribucin de frecuencias La distribucin de frecuencias es la representacin estructurada, en forma de tabla, de toda la informacin que se ha recogido sobre la variable que se estudia. Contiene un listado de las distintas modalidades del fenmeno considerado, con la frecuencia absoluta, relativa y acumulada de cada una. Cuando el nmero de modalidades es demasiado grande (esto ocurre siempre con las escalas continuas) se agrupan en clases. TABLA 1. Modelo de tabla de distribucin de frecuencias Variable (Valor) fa(X) X1 X2 ... Xi ... Xn fa(X1) fa(X2) ... fa(Xi) ... fa(Xn) Faa(Xi) =
j 1

Simple

Frecuencia absoluta Acumulada

Simple

Frecuencia relativa Simple en Acumulada porcentaje fr(X)*100 fr(X1)% fr(X2)% ... fr(Xi)% ... fr (Xn)% Fra(Xn) =
j 1

Faa(X) Faa(X1) = fa(X1) Faa(X2) = fa(X1) + fa(X2) ...


i

fr(X) fr(X1) = fa(X1)/n fr(X2) = fa(X2)/n ...

Fra(X) Fra(X1) = fr(X1) Fra(X2) = fr(X1) + fr(X2) ...


i

Acumulada en porcentaje
Fra(X)*100 Fra(X1)% Fra(X2)% ...

fa ( X j )
...
n

fr(Xi) = fa(Xi)/n ...

Fra(Xi) =
j 1

fr ( X j )
...
n

Fra(Xi)% ...

Faa(Xn) = n =
j 1

fa ( X j )

fr (Xn) = fa(Xn)/n

fr ( X j )
=1

Fra(Xn)% =100%

n
Fuente: Elaboracin propia.

Frecuencia absoluta de una modalidad es el nmero de veces que se repite esa modalidad como resultado de un experimento. Frecuencia relativa es la frecuencia absoluta partida por el nmero total de observaciones. Porcentaje: La frecuencia relativa es un tanto por uno, sin embargo, hoy da es bastante frecuente hablar siempre en trminos de tantos por ciento o porcentajes, por lo que esta medida resulta de multiplicar la frecuencia relativa por 100. Frecuencia acumulada (Absoluta o relativa): Igual que en cada uno de los anteriores casos pero sumando, no slo, los resultados de la modalidad de que se trate, sino tambin los de todas las precedentes. No es vlido para datos de escalas nominales, ya que en ellas no existe el orden. Porcentaje acumulado: Se define como la frecuencia relativa acumulada por 100. 2.2 Procesamiento estadstico de una variable nominal

En la Distribucin de frecuencias slo tienen sentido las frecuencias absolutas simples, relativas simples y relativas simples en porcentaje.
Ejemplo: Construya una tabla de distribucin de frecuencias para la especialidad de los profesionales del rea de ingeniera de CODELCO, considerando una muestra de 20 profesionales. Datos del problema: Variable X: Especialidad de los profesionales del rea de ingeniera de CODELCO Tipo de variable: Cualitativa, Nominal. Categorias de La variable: I = Informtico; C = Civil; E=Electrnico; M = Mecnico; R = Riesgos Datos: X1= C X2=I X3= M X4= E X5= M X11= M X12= C X13= E X14= M X15= I X6= M X7= R X8= C X9= I X10= M X16= M X17= C X18= R X19= M X20= R

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

Tabla 3. Distribucin de profesionales segn especialidad ESPECIALIDADES fa(X) INFORMTICA fa(I)=3 CIVIL fa(C)=4 MECNICA ELECTRNICA RIESGOS
Fuente: Elaboracin propia.

fr(X) fr(I)=0,15 fr(C)=0,20 fr(E)=0,40 fr(M)=0,10 fr(R)=0,15

fr(X)% 15 20 40 10 15 100

fa(E)=8 fa(M)=2 fa(R)=3 20 1

Ejercicio: Practicar con datos de Tabla en Anexo 1.


2.3. Procesamiento estadstico de una variable ordinal o cuantitativa discreta con pocos valores En este caso, en la distribucin de frecuencias cobran sentido todas las columnas del modelo de Tabla 1. Ejemplo: Construya una tabla de distribucin de frecuencias para la variable correspondiente al nmero de trabajadores por empresa, en una muestra de 20 empresas pequeas de la Regin de Los Ros. Datos del problema: Variable X: Nmero de trabajadores por empresa Tipo de variable: Cuantitativa, discreta, de razn. Datos: E1 = 6 E2 = 5 E3 = 4 E4 = 4 E13 = 6 E14 = 2 E19 = 5 E5 = 3 E6 = 3 E7 = 4 E8 = 4 E17 = 4 E18 = 6 E20 = 3 E9 = 5 E10 = 5 E11 = 4 E12 = 5 E15 = 4 E16 = 3 Clasificacin: Ubicar el valor menor de la variable X: Xmn = 2 Ubicar el valor mayor de la variable X: Xmx = 6 Se identifican los valores distintos de X y se denotan por xi (para destacar el hecho de la reduccin de datos que estamos realizando). x1= 2 x2= 3 x3= 4 x4= 5 x5= 6 Aqu: m=5 (De los 20 valores hay 5 distintos). Tabla 4. Distribucin de frecuencias del nmero de trabajadores de 20 empresas. Nmero de fa(Xi) fr(Xi) fr(Xi)% Faa(X) Trabajadores Xi 2 1 1/20=0,05 5 1 3 4 4/20=0,20 20 5 4 7 7/20=0,35 35 12 5 5 5/20=0,25 25 17 6 3 3/20=0,15 15 20 TOTAL n =20 1 100
Fuente: Elaboracin propia.

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

Fra(X) 0,05 0,25 0,60 0,85 1

Fra(X)% 5 25 60 85 100

Ejercicio: Practicar con datos de Tabla en Anexo 1.


2.4. Representacin grfica de distribuciones de frecuencias: variables cualitativas o cuantitativas discretas con pocos valores. La representacin grfica de datos tiene la ventaja de que es capaz de ofrecer de forma inmediata una perspectiva global de los resultados de un estudio. GRFICO DE BARRAS Se puede usar para describir cualquier nivel de medicin (nominal, ordinal, de intervalo o de razn), pero fundamentalmente para las variables discretas.

Hay varios tipos de grficos de barras: 1) De barras simples; 2) De barras agrupadas (o pareadas); 3) De barras componentes. Grfico de barras simples: Cada valor de la variable se representa por una barra cuyo largo indica el nmero (o porcentaje) de veces que se ha repetido ese valor. En el eje de las abscisas se ubican los valores de la variable (modalidades o valores discretos) y en las ordenadas las frecuencias absolutas o relativas o porcentajes. Recomendaciones: El ancho de cada barra debe ser constante, al igual que el espacio entre ellas; pueden ser reemplazadas por lneas, si la variable toma muchos valores; el orden en que se presentan puede depender de su longitud o de algn criterio lgico; cada una debe tener un ttulo en el eje respectivo, pero NO dentro de ella; se disponen horizontalmente, cuando sus nombres son largos; en su interior no debe haber claves o leyendas; no es necesario achurarlas o pintarlas, pero si lo hace, el rayado o color debe ser el mismo para todas. Grfico 1. Distribucin de profesionales segn

8 7 6 5 4 3 2 1 0 Infomtica Civil Mecnica Electrnica Riesgos

especialidad Fuente: Elaboracin propia.

Ejercicio: Practicar con datos de Tabla en Anexo 1.


GRFICOS DE BARRAS AGRUPADAS Objetivo: Mostrar asociacin entre variables. Tipo de variable: Cualquiera no continua. N de variables: 2 o ms sin exagerar. Grfico 2. Distribucin de profesionales por especialidad, segn

Riesgos Electrnica Mecnica Civil Infomtica 0 2 4 6


Ventana El Teniente

10

empresa. Fuente: Elaboracin propia. GRFICO CIRCULAR Dividir un crculo en tantas porciones como clases hay. A cada clase le corresponde un arco proporcional a su frecuencia absoluta o relativa. Muy til para desplegar una distribucin de frecuencias relativas o porcentajes. Objetivo: Mostrar asociacin y/o composicin entre variables

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

Tipo de variable: Cualquiera no continua. N de Variables: 1 Cada frecuencia debe expresarse como proporcin del total. Dicha proporcin se aplica a los 360 que tiene la circunferencia. Es decir, consiste en subdividir por 360 la suma total de los datos y multiplicar por cada una de las sumas parciales. Los resultados de estas operaciones o valores en grados de cada sector, se marcan en el circulo con el transportador. Estos grficos tienen bastante aplicacin, especialmente en informes tcnicoeconmicos. Es recomendable incluir dentro de cada sector, el porcentaje del total al que corresponde. No olvide que no es recomendable para variables con ms de cuatro categoras. Grfico 3. Superficie, en porcentaje, de las provincias de la Regin de Los Lagos, a diciembre de 2006.
Osorno 16%
Llanquihue 23%

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

Valdivia 31% Palena 17%

Chilo 13%

Fuente: Elaboracin propia. Ejercicio: Practicar con datos de Tabla en Anexo 1. 2.5. Procesamiento estadstico de una variable discreta con muchos valores o variables continuas
1

Cuando el nmero de valores posibles de una variable discreta sea grande, o cuando sta sea continua, conviene agrupar los datos en clases, para lo cual se deber tomaren cuenta las siguientes recomendaciones: Se usan los intervalos de clase. Sea m el nmero de intervalos de clase. Para este nmero, se debe tomar en cuenta: a. La naturaleza de la variable. b. El nmero de valores observados c. El rango o recorrido de la variable. d. La unidad de medida. e. Los objetivos del estudio. Reglas prcticas. Las clases han de ser excluyentes. Los lmites de cada clase deben tener ms precisin que las medidas realizadas. Aunque no tiene que ser necesariamente as, es conveniente que la amplitud de los intervalos sea constante. Todos los datos de una clase quedan representados por la marca de clase, que es el valor medio de intervalo que forma la clase. De esta manera, todos los clculos se realizan como si en lugar de tener N valores distintos en una clase, tuviramos N veces la marca de clase. Especficamente se debe decidir sobre: a) El nmero m de clases a considerar; b) La amplitud de cada clase; c) Los lmites de clase que definen los intervalos; d) Las marcas de clase. Al respecto algunas recomendaciones son:

La construccin de Tablas de Frecuencia, con intervalos de clase, supone una ligera prdida de informacin por la concentracin de datos originales en las marcas de clase. Observemos que no se registra el dato original xi sino que este se ubica dentro de un intervalo. A menor nmero de intervalos, mayor es la prdida de informacin. Pero, no es aconsejable usar un nmero elevado de intervalos, pues significara poco avance en la reduccin.

a. El nmero m de clases a considerar. Se elige un m tal que permita visualizar la estructura de los datos. Dependiendo de la cantidad de datos m vara generalmente entre 5 y 20 intervalos. Si se toman muchos intervalos se avanzar poco en el resumen de la informacin. Si son pocos, tal vez la reduccin sea exagerada. Una de las reglas ms frecuentemente utilizada para determinar m, es la regla de Sturges, que establece que tomar el entero superior ms prximo en la frmula siguiente: m= Nmero de clases = 1 + 3,322 Log(n) , donde n es el nmero de observaciones. b. La amplitud de cada clase;

Amplitud de clase

Valor mximo Valor mnimo Nmero de clases

c. Los lmites de clase que definen los intervalos han de ser tales que cada observacin se clasifique sin ambiguedad en una sola clase. Se recomienda que las clases sean de la misma longitud. d. La marca de clase. Es el punto medio de cada intervalo de clase.
Xi LI i 2 LS i

Ejemplo: Para determinar cunto estudian los alumnos de lunes a viernes, se tom una muestra aleatoria de 30 estudiantes y se registr la cantidad de horas, por semana, que estudia cada uno. Organice los datos en una tabla de distribucin de frecuencias. Datos del problema: Variable X: Horas de estudio; Tipo de variable: Variable continua, de razn. Datos: 15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7; 17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9; 10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6. CLASIFICACIN Xmx = 33,8 Xmn = 10,3 Rango = Xmx-Xmn =23,5 n=30 Nmero de intervalos = m = 1+3,3*log 30=5,87..Aprox. 6 Amplit.intervalos = Ai = 23,5 /6 =3,92. Podemos tomar esta amplitud o cualquiera con valor superior. Si tomamos una amplitud modificada de 4, entonces se amplia el recorrido en los extremos desde 10 a 34. (Determine como se obtienen estos valores). Tabla 5. Distribucin de frecuencias de las horas de estudio de 30 estudiantes. Horas de estudio Xi fa(Xi) fr(Xi) fr(Xi)% Faa(X) Fra(X) Fra(X)% ]10-14] 12 6 0,20 20 1 0,20 20 ]14-18] 16 8 0,267 26,7 14 0,467 46,7 ]18-22] 20 9 0,30 30 23 0,767 76,7 ]22-26] 24 3 0,10 10 26 0,867 86,7 ]26-30] 28 3 0,10 10 29 0,967 96,7 ]30-34] 32 1 0,033 3,3 30 1,000 100 n=30 1 100 Fuente: Elaboracin propia. Ejercicio: Construya una tabla de frecuencia para los siguientes datos, realice el ejercicio en forma manual y a travs de computador, por ejemplo con Excel. Como recomendacin trabaje la variable en miles de dlares. Tabla 6. Precios de venta de 80 autos vendidos en marzo 2006 en Valdivia (US$) 20.197 20.372 17.454 20.591 14.968 17.356 18.442 18.722 23.651 24.453 14.266 15.021 25.683 27.872 16.766 17.633 17.962 19.845 16.587 20.269 32.851 16.251 17.047 21.285 26.076 29.492 15.890 18.740 21.324 21.609 25.670 12.546 12.935 16.873 22.449 25.337 17.642 20.613 22.251 22.277 25.034 21.533 24.443 16.889 19.442 14.891 17.818 23.237 17.004 14.357 17.155 16.688 20.657 23.613 16.331 19.817 21.220 27.655 17.895 17.203 20.765 22.783 23.661 29.277 23.285 24.896 17.445 18.556 17.642 18.981 21.052 22.799 12.794 15.263 19.374 21.571 18.639 21.296 33.625 14.399 Fuente: Cmara de Comercio. Ver ejemplo completo en Anexo 2.

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

2.6. Tablas o cuadros estadsticos Es el arreglo ordenado en columnas y filas, de datos estadsticos o caractersticas relacionadas, con el objeto de ofrecer informacin estadstica de fcil lectura, comparacin e interpretacin. Un cuadro estadstico es el resultado de trabajos previos (planeamiento, recopilacin, tabulacin, clculos, etc). Constituyen los cuadros de anlisis que se incluyen frecuentemente en el cuerpo de los estudios, investigaciones o informes. PARTES PRINCIPALES DE UNA TABLA ESTADSTICA (CUADRO): 1. Nmero de la TABLA; 2. Ttulo.; 3. Encabezamiento; 4. Cuerpo; 5. Nota de pie o llamadas; 6. Pie: Fuente. Nota. Llamada; 7. Elaboracin. 2.7. Representacin grfica de distribuciones de frecuencias: variables cuantitativas discretas con muchos valores o variables continuas. La tabla estadstica resume los datos que disponemos de una poblacin, de forma que sta se puede analizar de una manera ms sistemtica y resumida. Para darnos cuenta de un slo vistazo de las caractersticas de la poblacin resulta ms claro el uso de grficos. Todo grfico estadstico es la representacin de cantidades, nmeros o medidas por medio de figuras o dibujos, por lo tanto se construyen con relacin a una escala de medida que debe conocerse. El tamao y la forma del grfico debe interpretarse numricamente como una aproximacin del verdadero valor de la variable que representa. Las representacin grfica de distribuciones de frecuencias ms comunes son el grfico de tallo y hoja, el histogramas, el polgono de frecuencias, el grfico escalonado y la ojiva de frecuencias. GRFICO DE TALLO Y HOJA (Steam and Leaf) Es una tcnica estadstica para representar un conjunto de datos. Cada valor numrico se divide en dos partes: los dgitos principales son el tallo y el dgito siguiente es la hoja. Una ventaja de la representacin de tallo y hoja, comparado con la distribucin de frecuencias, es que no se pierde la identidad de cada observacin. Ejemplo: Los siguientes son los puntajes (0 a 100) Ejemplo en el Examen de Estadstica de 12 alumnos: 86, 79, Para las horas de estudio de los 30 alumnos. 92, 84, 69, 88, 91, 83, 96, 78, 82, 85. Construya una representacin de tallo y hoja para los datos. Diagrama de Tallo y hoja 10|3

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

6|9 7|8 9 8|2 3 4 5 6 8 9|1 2 6

Tallo

Hojas

12|9 9 13|5 7 14|0 2 15|0 4 7 16|6 17|1 4 8 18|3 3 6 9 19|7 20|3 7 8 21|4 23|0 7 2 26|1 27|1 29|8 33|8

HISTOGRAMA Objetivo: Mostrar una distribucin de frecuencias absolutas o relativas. Tipo de variables: Cuantitativas continuas o discretas con muchos valores. Nmero de variables: Una. Es la presentacin ms frecuente para datos agrupados. Las clases se marcan en el eje horizontal con la amplitud del intervalo. Las frecuencias de clase van en el eje vertical y se representan por las alturas de las barras que se trazan adyacentes entre s.

POLGONO DE FRECUENCIAS Objetivo: Mostrar una distribucin de frecuencias absoluta o relativa. Tipo de variables: Cuantitativas continuas o discretas con muchos valores. Nmero de variables: Una o de preferencia ms de una. Un Polgono de Frecuencias se construye a partir del histograma uniendo los puntos medios de las bases superiores de cada rectngulo. Son tiles en la comparacin de distribuciones de frecuencias. GRFICO DE FRECUENCIAS ACUMULADAS: GRFICO ESCALONADO Y OJIVA DE FRECUENCIAS. Se usa para determinar cuntos o qu proporcin de los valores de los datos es menor o igual (o mayor) que cierto valor. Objetivo: Mostrar distribucin de frecuencias acumuladas. Tipo de variables: Cuantitativas continuas o discretas con muchos valores. Nmero de variables: Una. Un histograma (Figura 1), un polgono de frecuencias (Figura 2), un diagrama escalonado (figura 3), o una ojiva de frecuencias (Figura 4), nos permiten un anlisis ms rpido de los datos. Ver ejemplo completo en Anexo 2. Figura 1 Figura 2 Figura 3 Figura 4
0, 3
1,2
1,2

1,2 1 0,8 0,6 0,4 0,2 0


11083,5 13996,5 16909,5 19822,5 22735,5 25648,5 28561,5 31474,5

0, 25

0, 2

0,8

0,8

0, 15

0,6

0,6

0, 1

0,4

0,4

0, 05

0,2

0,2

0 11083,5 13996, 5 16909, 5 19822, 5 22735, 5 25648, 5 28561, 5 31474,5 34387,5

0 11083,5 13996,5 16909,5 19822,5 22735,5 25648,5 28561,5 31474,5 34387,5

11083, 5

13996,5

16909,5

19822,5

22735,5

25648,5

28561,5

31474, 5

Grfico 4. Evolucin de la fuerza de trabajo ocupada en Chile y el la Regin de Los Lagos. 2001 2006.

120

Pas
115
Indice

Regin

110 105 100 2001 2002 2003


Aos

2004

2005

2006

Fuente: Elaboracin propia sobre la base de datos aportados por el INE Regin de Los Lagos.

Ejercicio: Construya los grficos adecuados para el ejemplo de las horas de estudio de los 30 estudiantes. Como tarea adicional realice lo mismo con el los datos del precio de autos vendidos en el 2006.

10

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

Nota: Complemetariamente existe una amplia variedad de grficos, dentro de los que podemos mencionar grficos lineales, pictogramas,etc. Los estudiantes deben investigar los distintos tipos de grficos utilizados con mayor frecuencia en publicaciones de ndole genrica como propios de la especialidad. Como ejemplo podemos mencionar el grfico lineal. GRFICOS LINEALES Expresan el comportamiento de dos (o ms) variables. La variable independiente se inscribe en el eje horizontal y la dependiente en el eje vertical. Objetivo: Mostrar asociacin entre variables. Tipo de Variables: Continua. N de Variables: 2 o ms sin exagerar.

III. RESUMENES NUMERICOS: ESTADGRAFOS DE POSICIN, DISPERSIN Y FORMA El objetivo de los resmenes numricos es reducir una serie de datos a unos pocos coeficientes que contengan la mayor parte de la informacin relevante, con el fin de descubrir regularidades estadsticas en el grupo analizado. Los estadgrafos de posicin de Tendencia Central tratan de ubicar e identificar el valor de la variable alrededor del cual tienden a centrarse los datos. Recuerde que: Los estadgrafos: resumen informacin de la muestra. Los parmetros: resumen en la poblacin. Las tablas de frecuencia y grficos nos dan una idea general del patrn de la distribucin de los valores, pero no nos indican un valor tpico, medio o promedio o central. 3.1. Estadgrafos de posicin central (tendencia central o centralizacin) Los estadgrafos de posicin nos facilitan informacin sobre la serie de datos que estamos analizando. Estos estadgrafos permiten conocer diversas caractersticas de esta serie de datos. Los estadgrafos de posicin son de dos tipos: a) Estadgrafos de posicin central (de tendencia central o de centralizacin): informan sobre los valores medios de la serie de datos. b) Estadgrafos de posicin no centrales (o simplemente de posicin): informan de como se distribuye el resto de los valores de la serie. a) Estadgrafos de posicin central (tendencia central o centralizacin) Valor que representa un conjunto de datos y que trata de sealar una posicin central de los dat os. Los ms utilizados son: El promedio aritmtico. (La Media Aritmtica). El valor ms comn. (La Moda). El valor central. (La Mediana). El clculo de los estadgrafos difiere del caso en que se dispone de los datos originales o no agrupados, de aquel en que no se dispone de ellos al encontrase agrupados en tablas de frecuencia. Cabe destacar que los valores calculados diferirn levemente por la prdida de informacin en las tablas de frecuencias. 1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las ms utilizadas: a) Media aritmtica: se calcula multiplicando cada valor por el nmero de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra: Para el clculo de los estadgrafos ser necesario distinguir los casos en los que los datos vengan agrupados, de aquellos en los que vengan sin agrupar. Datos originales (sin agrupar) Datos agrupados en tablas de frecuencia
n k

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

xi x
i 1

xi f a ( xi ) x
i 1

x
i 1

xi f r ( xi )

La media aritmtica es el estadgrafo de posicin central ms utilizado. Lo ms positivo de la media es que en su clculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna informacin. Sin embargo, presenta el problema de que su valor se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anmalos podran condicionar en gran medida el valor de la media, perdiendo sta representatividad. Ejemplo (datos sin agrupar): Los siguientes son los puntajes (0 a 100) en el Examen de Estadstica de 12 alumnos: 86, 79, 92, 84, 69, 88, 91, 83, 96, 78, 82, 85. Obtenga la media aritmtica. Datos originales (sin agrupar)

1013 84,12 puntos 12

Investigue como obtener este estadgrafo a travs de la calculadora cientfica y planilla Excel.

11

Ejemplo (datos agrupados en tablas de distribucin de frecuencias): Un muestra aleatoria de 30 estudiantes de la UACh indic que las horas de estudio, por semana, que cada uno estudia, se distribuye como muestra la Tabla 7. Tabla 7. Horas de estudio de 30 estudiantes de la UACh. Horas de estudio Xi fa(Xi) fr(Xi) Xi* fa(Xi) ]10-14] 12 6 0,2000 72 ]14-18] 16 8 0,2667 128 ]18-22] 20 9 0,3000 180 ]22-26] 24 3 0,1000 72 ]26-30] 28 3 0,1000 84 32 ]30-34] 32 1 0,0333 n=30 1 568
Fuente: Elaboracin propia.

Xi* fr(Xi) 2,400 4,2672 6,0000 2,4000 2,8000 1,0656 18,9327

Datos originales (sin agrupar)

Datos agrupados en tablas de frecuencia

570,2 19,007 horas 30

568 30

18,933 horas

x 18,9327 horas

Ejercicio: Obtenga la media para datos originales y agrupados en el ejemplo de los automviles. Interprete la cifra resultado. PROPIEDADES DE LA MEDIA ARITMTICA

DESVENTAJAS DE LA MEDIA ARITMTICA La media aritmtica es muy sensible a los valores extremos de la variable. Se desplaza en la direccin del valor extremo. Luego, no se recomienda usar como medida central en distribuciones muy asimtricas. Ejemplo: Sean los valores 1; 2; 3; 4 y 5; La media aritmtica es 3. Sean los valores 1; 2; 3; 4; 50. La media aritmtica es 12. b) Media geomtrica: Investigar su definicin y utilizacin c) Media armnica: Investigar su definicin y utilizacin 2.- Mediana: es el valor de la serie de datos que se sita justamente en el centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores). Datos sin agrupar: X +X n SI n ES IMPAR: SI n ES PAR: ( n ) ( ) +1
100 80

1 ,00

0 ,80

M X ed (n 1) 2
Datos agrupados:

ed

60

0,50

0 ,60

40

C 0.5

LIi

0.5 n Faa (x i -1 ) (LSi f a (x i )

32

0 ,40

LIi )

20

0 ,20

10 ,0 0 25 0 9,10 9,6 2 10,14

10,13

10,65

0 11 ,1 7

12

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

Todas las variables de nivel de intervalo o de razn tienen Media Aritmtica. Al evaluar la media se incluyen todos los valores de la variable y su valor final puede no ser un valor observado. Un conjunto de valores slo tiene una media aritmtica. Es el nico estadgrafo de posicin tal que la suma de las desviaciones de cada valor respecto a la media es cero. Ejemplo. Para la propiedad 4: Sean los tres valores: 3, 8 y 4. La media es 5. La propiedad 4 indica que: (3 - 5) + (8 - 5) + (4 - 5) = - 2 + 3 1 = 0

Ejemplo: Calculo para datos sin agrupar. En primer trmino los datos se deben ordenar de menor a mayor.
Valor Posicin 10,3 1 12,9 2 12,9 3 13,5 4 13,7 5 14 6 14,2 7 15 8 15,4 9 15,7 10 16,6 11 17,1 12 17,4 13 17,8 14 18,3 15 18,3 16 18,6 17 18,9 18 19,7 19 20,3 20 20,7 21 20,8 22 21,4 23 23 24 23,2 25 23,7 26 26,1 27 27,1 28 29,8 29 33,8 30

En este caso n es par, por lo tanto, X n X

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

18,3 18,3 18,3 2 2 Ejemplo: (datos agrupados en tablas de frecuencia): Muestra aleatoria de 30 estudiantes indic las horas por semana que estudia cada uno: Tabla 8. Horas de estudio de 30 estudiantes de la UACh. Horas de estudio Xi fa(Xi) Faa(X) ]10-14] 12 6 6 ]14-18] 16 8 14 ]18-22] 20 9 23 ]22-26] 24 3 26 ]26-30] 28 3 29 ]30-34] 32 1 30 n=30 M ed
2

n 2

Fuente: Elaboracin propia.

Lugar en que se encuentra la mediana

Datos agrupados en tablas de frecuencia

Lp

(30

50 1) 100

15,5

lugar16

Me

18

0,5 * 30 9

14

18,4horas

Ejercicio: Obtenga la media para datos originales y agrupados en el ejemplo de los automviles. Interprete PROPIEDADES DE LA MEDIANA Es nica para un conjunto de datos. No es afectada por valores extremos. Puede calcularse para variables ordinales, de intervalo y de razn. Usa menos informacin que la media, ya que slo depende del orden de los datos. 3.- Moda: es el valor que ms se repite en la muestra. Datos agrupados:

M od (X)

LI i

f a (x i ) - f a (x i 1 ) (LSi - LI i ) (f a (x i ) - f a (x i 1) ) (f a (x i ) - f a (x i 1))

Ejemplo (datos sin agrupar): Mo=12,9 horas y 18,3 horas Ejemplo (datos agrupados en tablas de distribucin de frecuencias): Muestra aleatoria de 30 estudiantes indic las horas por semana que estudia cada uno: Datos agrupados en tablas de Datos agrupados en tablas de frecuencia frecuencia Horas de estudio ]10-14] ]14-18] ]18-22] ]22-26] ]26-30] ]30-34]

Xi 12 16 20 24 28 32

fa(Xi) 6 8 9 3 3 1 n=30

Faa(X) 6 14 23 26 29 30

Mo

18

(9

9 3)

8 (9

8)

18,57 horas

13

VENTAJAS DE LA MODA La moda es vlida para todos los niveles de medida de las variables. No es afectada por valores muy extremos. Igual que la mediana, se puede usar en distribuciones con extremo abierto. DESVENTAJAS DE LA MODA Muchas variables no tienen moda, pues ningn valor aparece ms de una vez. Si existe puede no ser nica. Algunas variables tienen ms de una moda. Esto ocurre cuando la poblacin muestreada no es homognea respecto a ciertas variables del estudio. Por ejemplo una poblacin que incluya hombres (machos) y mujeres (hembras). Ver ejemplo completo en Anexos 3 y 4. 3.2. Estadgrafos de posicin no central (o simplemente de estadgrafos de posicin) Los Estadgrafos de posicin no central permiten conocer otros puntos caractersticos de la distribucin que no son los valores centrales. El objetivo de estos estadgrafos es clasificar (localizar) a un individuo dentro de una determinada muestra. Dividen la distribucin de los datos en grupos iguales de acuerdo a un cierto porcentaje. Genricamente se llaman CUANTILES. Se define el cuantil de orden , C , como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada igual a , con 0 < < 1. Los ms usados son los percentiles (99), cuartiles (3), quintiles (4), deciles (10). Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados. Por ejemplo, el primer cuartil es el valor debajo del cual se clasifica al 25% de las observaciones, y sobre el cual se encuentra el 75% restante. Cmo se definira el Segundo Cuartil?, y el Tercer Cuartil?. Quintiles: son 4 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cinco tramos iguales, en los que cada uno de ellos concentra el 20% de los resultados. Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados. Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados. Clculo de los cuantiles: El cuantil cr/k para r= 1,2,..., k 1, se define como aquel valor de la variable que divide la distribucin de frecuencias, previamente ordenada de forma creciente, en dos partes, estando el (r/k)% de sta formado por valores menores que cr/k. Para el clculo de los estadgrafos ser necesario distinguir los casos en los que los datos vengan agrupados, de aquellos en los que vengan sin agrupar. Datos sin agrupar: Si los datos vienen sin agrupar y se cumple que: a) Faa(xj-1) < (r/k)n < Faa(xj), entonces el r-simo cuantil de orden k ser cr/k= xj, valor al que corresponde la frecuencia absoluta acumulada Faa(xj). b) Si la situacin fuera de la forma Faa(xj-1) = (r/k)n < Faa(xj), entonces tomaramos cr/k como:

cr

Xj
k

Xj

14

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

Datos agrupados: FRECUENCIA ABSOLUTA Faa(x1)=1 Faa(x2)=2 i es el menor intervalo que tiene frecuencia acumulada superior a (n). j-1 j Xj-1 xj Faa(xj-1)=j-1 Faa(xj)=j

N 1 2

VALOR x1 x2

LIi

n Faa ( x i -1 ) ( LSi fa (x i)

LIi )

xn

Faa(xn)=n

Ver ejemplo completo en Anexos 3 y 4.

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

Ejemplo: Con los datos siguientes, obtenga el Cuartil 1, decil 4 y cuantil 80,
Valor Posicin 10,3 1 12,9 2 12,9 3 13,5 4 13,7 5 14 6 14,2 7 15 8 15,4 9 15,7 10 16,6 11 17,1 12 17,4 13 17,8 14 18,3 15 18,3 16 18,6 17 18,9 18 19,7 19 20,3 20 20,7 21 20,8 22 21,4 23 23 24 23,2 25 23,7 26 26,1 27 27,1 28 29,8 29 33,8 30

Cuartil 1= Q1=C25 (r/k)n = (1/4)*30 = 0,25 *30 = 7,5, por lo tanto Q1 = 15 horas. Decil 4= D4=C40 (r/k)n = (4/10)*30 = 0,40 *30 = 12, por lo tanto D4= (17,1 + 17,4)/2 = 17,25 horas.

Calcule el cuantil 80
Ejemplo: Calculo de cuantiles para datos agrupados en tablas de distribucin de frecuencias: Muestra aleatoria de 30 estudiantes indic las horas por semana que estudia cada uno: Lugar en que se encuentran los cuantiles Datos agrupados en tablas de frecuencia Horas de 0,25 * 30 6 Xi fa(Xi) Faa(X) estudio C25 14 4 14 ,75 horas 8 ]10-14] 12 6 6 ]14-18] 16 8 14 ]18-22] 20 9 23 0,40 * 30 6 C40 14 4 17 horas ]22-26] 24 3 26 8 ]26-30] 28 3 29 ]30-34] 32 1 30 n=30

C80

__ 4

___* ___ ___ ___

___ horas

Diagramas de caja: Es una representacin grfica basada en los cuartiles que ayuda a ilustrar un conjunto de datos. Para elaborar el diagrama se requiere: el valor mnimo; Q1; la mediana (Q2), Q3, y el valor mximo.

15

Ejemplo: Realizar un grfico de caja para el ejemplo de la variable horas de estudio.


Grfico de Caja y Bigotes

10

14

18

22

26

30

34

Horas de estudio

Ejercicio: Realice un grfico de caja para datos venta de automviles. 3.3. Estadgrafos de dispersin El objetivo de los estadgrafos de dispersin es determinar el grado de alejamiento de los datos respecto a un estadgrafo de tendencia central que, generalmente suele ser la media aritmtica. Nos dan una idea acerca de lo agrupados que estn los datos, y por lo tanto indican la homogeneidad de estos. En resumen, muestran la representatividad de los estadgrafos de tendencia central. A mayor dispersin menor representatividad. Por ejemplo un ro tiene una profundidad media de 0,90 m. Pero, la mxima profundidad puede ser 3 m o puede variar entre 0,35 m. y 2,10 m. Se toman por ejemplo los tres conjuntos pequeos de datos. Conjunto 1 Conjunto 2 Conjunto 3 0, 5,10 4,5,6 5,5,5 Qu media tienen los tres grupos?, Se puede establecer que los grupos son similares? Se puede observar el grado de dispersin de cada grupo? En resumen, a travs de los estadgrafos de dispersin se estudia la distribucin de los valores de la serie, analizando si estos se encuentran ms o menos concentrados, o ms o menos dispersos. Existen diversos Estadgrafos de dispersin, entre los ms utilizados podemos destacar las siguientes: 1.- Rango: Muestra la amplitud de los valores de la muestra y se calcula por diferencia entre el valor ms elevado y el valor ms bajo. 2.-Varianza muestral: Indica el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media aritmtica. Se calcula como sumatoria de las diferencias al cuadrado entre cada valor y la media aritmtica, multiplicadas por el nmero de veces que se ha repetido cada valor. La sumatoria obtenida se divide por el tamao de la muestra menos 1.

Datos originales (sin agrupar)


n

Datos agrupados en tablas de frecuencia


2

(x i S2 n
i 1 1

x) 2

n S2 n
i 1 1

2 i i 1

xi

(x i S2 n
i 1 1

x) 2 f a (x i ) n -1

n 1

n(n 1)
n

2 n 1 i 1

x i2 n 1

n n 1

n S2 n
i 1 1

x i2 f a (x i )
i 1

x i f a (x i )

n(n 1)
n

x i2 f a (x i ) S2 n
i 1 1

n n 1

n -1

x2

16

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

La varianza siempre ser mayor que cero. Mientras ms se aproxima a cero, ms concentrados estn los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, ms dispersos estn. 3.- Desviacin estndar: Se calcula como raz cuadrada de la varianza.

S2

Ejemplo: Obtenga, para los datos de horas de estudio. la varianza y desviacin estndar. Datos originales (sin agrupar) Datos agrupados en tablas de frecuencia

S2

30 * 11669,96 570,2 30(30 1)

28,702

S2

30 * 11616 568 30(29)

29,7195

28,702

5,3574

29,7195

5,4516

Ejercicio: Calcule en el ejemplo de los autos ambos estadgrafos de dispersin.

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

4.- Coeficiente de varizacin de Pearson: se calcula como cociente entre la desviacin estndar y la media.

CV

S x

El inters del coeficiente de variacin es que al ser un porcentaje permite comparar el nivel de dispersin de dos muestras. Esto no ocurre con la desviacin estndar, ya que viene expresada en las mismas unidas que los datos de la serie. Por ejemplo, para comparar el nivel de dispersin de una serie de datos de la altura de los alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las desviaciones estndar (una viene expresada en centmetros y la otra en kilogramos). En cambio, sus coeficientes de variacin son ambos porcentajes, por lo que s se pueden comparar. Ejercicio Resumen: La tabla siguiente muestra las diferencias en peso encontrada al hacer un muestreo de 100 mediciones en un laboratorio de una serie de productos (Y: diferencia en mm del peso real en comparacin con el sealado por la etiqueta). Obtenga los estadgrafos planteados anteriormente. Intervalos fa(xi) [1,5 - 2,5] 43 ]2,5 - 3,5] 30 ]3,5 - 4,5] 17 ]4,5 - 5,5] 7 ]5,5 - 6,5] 3 5.- La Distribucin Normal y la Regla emprica. Si la muestra es simtrica y tiene la forma de una campana,

X X X
Ver ejemplo completo en Anexos 3 y 4. 3.4. Estadgrafos de forma

1s 2s 3s

68,25% 95,44% 99,73%

El objetivo de los estadgrafos de forma es indicarnos la cantidad de deformacin que tiene la distribucin de los datos respecto de una distribucin Normal. Los estadgrafos de forma permiten conocer la forma que tiene

17

la curva que representa la serie de datos de la muestra. En concreto, podemos estudiar las siguientes caractersticas de la curva: a) Concentracin: Indican si los valores de la variable estn ms o menos uniformemente repartidos a lo largo de la muestra. b) Asimetra: Indican si la curva tiene una forma simtrica, es decir, si respecto al centro de la misma (centro de simetra) los segmentos de curva que quedan a derecha e izquierda son similares. c) Curtosis: Indican si los valores de la distribucin estn ms o menos concentrados alrededor de los valores medios de la muestra. Simetra a) Concentracin: Investigar este tema. b) Asimetra: Hemos comentado que el concepto de asimetra se refiere a si la curva que forman los valores de la serie presenta la misma forma a izquierda y derecha de un valor central (media aritmtica)

Sim tric a As a p s a im tric o itiv As a n ativ im tric eg a

Para cuantificar el nivel de asimetra se utiliza el llamado Coeficiente de Asimetra de Fisher, que viene definido por la siguiente expresin:

As
Los resultados pueden ser los siguientes:

1 n

(x i
i 1

x) 3 f a (x i ) S3

c) Curtosis El Coeficiente de Curtosis analiza el grado de Curtosis concentracin que presentan los valores alrededor de la zona central de la distribucin. Se definen 3 tipos de distribuciones segn su grado de curtosis: Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los valores centrales de la variable (el mismo que presenta una distribucin normal). Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los valores centrales de la variable. Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores centrales de la variable. El Coeficiente de Curtosis viene definido por la siguiente frmula: Los resultados pueden ser los siguientes: k K = 3 (distribucin mesocrtica). 1 (x i x) 4 f a (x i ) K > 3 (distribucin leptocrtica). n i1 K < 3 (distribucin platicrtica). K

M s c rtic eo a L p c rtic e to a P a latic rtic

S4

Ver ejemplo completo en Anexos 3 y 4.

18

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

As=0 (distribucin simtrica; existe la misma concentracin de valores a la derecha y a la izquierda de la media) As>0 (distribucin asimtrica positiva; existe mayor concentracin de valores a la derecha de la media que a su izquierda) As<0 (distribucin asimtrica negativa; existe mayor concentracin de valores a la izquierda de la media que a su derecha)

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

VII. APLICACIONES 1.- REVISIN DE CONCEPTOS. Como usted sabe, en cualquier estudio cientfico es vital definir con precisin los trminos. Por lo tanto, debe tratar de comprender perfectamente todos los trminos la primera vez que los ve. Cules son los nuevos trminos que ha aprendido en este captulo?. Puede definir cada uno con palabras suyas?. 2.- Qu es la ESTADSTICA? 2.1. Defina la Estadstica 2.2. Investigue y Presente una breve descripcin de la evolucin de la definicin de Estadstica, hasta llegar a nuestros das. 2.3. Investigue y Refirase a los siguientes trminos: investigacin, emprica, investigacin emprica, fenmenos reales, modelo, clasificacin de los modelos, modelos matemticos, teora, realidad. 2.4. Cmo se relaciona la ESTADSTICA con los conceptos involucrados en el punto anterior?. 3.- USOS DE LA ESTADISTICA EN SU ESPECIALIDAD. Piense en por lo menos diez usos de la ESTADSTICA en su especialidad y reas relacionadas. 4.- EL MTODO ESTADSTICO 4.1. Seale cuales son las etapas en un estudio estadstico y refirase en forma breve, pero precisa a cada una de ellas. 4.2. Considere al menos una de las situaciones que mencion en el problema tres anterior. Describa como se aplicaran, a la solucin de dicha situacin, las etapas de un estudio estadstico. 5.- En el rea de su especialidad identifique un problema que amerite ser estudiado. Efecte un planteamiento (descripcin completa y precisa) de dicho problema. Si corresponde, especifique hiptesis. Defina objetivos y metas a conseguir en el estudio de dicho problema. Identifique la poblacin, la muestra, las unidades de anlisis, variables (identifique variables segn las distintas clasificaciones), los datos, los parmetros. 6.- Construya la tabla de distribucin de frecuencias y los grficos correspondientes para la variable sexo, considerando como unidades de anlisis los alumnos presentes en la sala. 7.- Construya la tabla de distribucin de frecuencias y los grficos correspondientes para la variable nmero de hermanos, considerando como unidades de anlisis los alumnos presentes en la sala. 8.- Desarrolle en EXCEL el siguiente problema. Con el objetivo de conocer las preferencias de los usuarios en cuanto marcas de computadoras personales, se entrevist a 50 personas que haban comprado un PC en el ltimo mes, obtenindose los siguientes resultados: Tabla 2.1 Datos de una muestra de 50 compras de PC. IBM HP Acer Dell Toshiba IBM IBM HP Dell IBM HP IBM HP IBM IBM IBM HP IBM IBM Dell Dell IBM Dell Acer HP Toshiba IBM Toshiba IBM IBM HP Dell IBM IBM IBM Dell Acer IBM HP Dell Dell Dell IBM Acer Dell Toshiba Toshiba Acer Dell Dell Construya la tabla de distribucin de frecuencias y los grficos correspondientes. Efecte el anlisis de los resultados obtenidos. 9.- Para los siguientes conjuntos de datos, correspondientes a duracin, en miles de horas, de componentes electrnicas. Calcule la media, mediana, moda, rango, la varianza muestral, desviacin estndar muestral y coeficiente de variacin. i) 9,80; 10,49; 9,40; 10,52; 9,42 ii) 9,80; 10,49; 9,40; 10,52; 9,42; 10,31 iii) 9,80; 1,49; 9,40; 10,52; 9,42 iv) 9,80; 30,49; 9,40; 10,52; 9,42. Compare y comente los resultados. Cules son sus conclusiones? 10.- CASO TRANSISTORES. Los datos siguientes indican el tiempo de duracin (en horas) de los elementos de una muestra de 40 transistores: Tabla 1. Duracin, en horas, de los elementos de una muestra de 40 transistores. 112 121 126 108 141 104 136 134 121 118 143 116 108 122 127 140 113 117 126 130 134 120 131 133 118 125 151 147 137 140 132 119 110 124 132 152 135 130 136 128 Fuente: Ross, Sh. (2002). Probabilidad y Estadstica para Ingenieros. Segunda Edicin.McGraw-Hill, Mxico. Cap. 2, pg. 49.

19

Responda las siguientes preguntas: Cul es el valor modal y cmo se interpreta desde el punto de vista de los datos? Cul es el valor mediano y cmo se interpreta desde el punto de vista de los datos? Cuntos elementos duran al menos 130 horas? Qu porcentaje de casos duran 125 horas o menos? Cul es la duracin tal que al menos el 50% de los casos tiene una duracin inferior o igual a dicha duracin?. f. Qu valor tiene y cmo se interpreta la mediana para estos datos? g. Qu valor tiene y cmo se interpreta la media aritmtica para estos datos? h. Qu valor tiene y cmo se interpreta la moda para estos datos? i. Qu valor tienen la media aritmtica y la desviacin estndar?. De una interpretacin concreta de estos valores, desde el punto de vista del significado de los datos del problema. j. Qu valor tiene y cmo se interpreta el cuartil 3 para estos datos? k. Qu valor tiene y cmo se interpreta el cuartil 1 para estos datos? l. Qu valor tiene y cmo se interpreta el quintil 2 para estos datos? m. Qu valor tiene y cmo se interpreta el quintil 4 para estos datos? n. Qu valor tiene y cmo se interpreta el decil 4 para estos datos? o. Qu valor tiene y cmo se interpreta el decil 5 para estos datos? p. Qu valor tiene y cmo se interpreta el percentil 15 para estos datos? q. Qu valor tiene y cmo se interpreta el percentil 75 para estos datos? r. Determine el rango intercuartlico y explique su significado desde el punto de vista de los datos del problema. s. Qu valor tiene y cmo se interpreta el rango, la varianza muestral, desviacin estndar muestral y coeficiente de variacin?. t. Estudie la simetra de la distribucin. u. Estudie la curtosis de la distribucin. 11.- Para los datos del Problema 10. a. Construya una tabla de distribucin de frecuencias (TDF): (Debe contener: Intervalos, marcas de clase, Frecuencias aAbsolutas simples, Frecuencias relativas simples, Frecuencias relativas simples en porcentaje, Frecuencias absolutas acumuladas, Frecuencias relativas acumuladas, Frecuencias relativas acumuladas en porcentaje. i. Agrupando en 5 clases de longitud 10, y utilizando las frmulas para datos agrupados. ii. Agrupando mediante la Regla de Sturges. iii) Compare y comente los resultados obtenidos. (Realice los anlisis correspondientes). b. Grafique : i) El histograma (considere frecuencias absolutas, relativas y relativas en porcentaje). ii) El polgono de frecuencias respectivas (Funcin de densidad emprica). iii) El diagrama escalonado. iv) La ojiva de frecuencias (Funcin de distribucin emprica). c. Compare, analice, interprete y comente el resultado en el contexto de lo que representan los datos. 12.- Utilizando la tabla de distribucin de frecuencias (TDF) construida a travs de la Regla de Sturges en el Problema 11, responda las mismas preguntas planteadas en el Problema 10. 13.- Desarrolle en EXCEL el siguiente problema. CASO DIMETROS DE TUBOS DE CEMENTO. Con el objetivo de controlar la calidad en un proceso de fabricacin de tubos de cemento, se seleccion una muestra de 100 de tales tubos y se les midi su dimetro, obtenindose los valores que se registran en la siguiente tabla. Construya la tabla de distribucin de frecuencias y los grficos correspondientes. Efecte el anlisis de los resultados obtenidos. Datos originales a. b. c. d. e.
9,80 9,22 10,06 10,26 10,46 10,49 10,26 10,06 9,83 9,37 9,40 9,86 10,08 10,29 10,52 10,52 10,29 10,08 9,88 9,42 9,42 9,91 10,08 10,29 10,54 10,31 10,54 10,08 9,91 9,47 9,50 9,93 10,08 10,31 10,57 10,57 10,11 10,34 9,93 9,55 9,58 9,96 10,11 10,34 10,57 10,34 10,57 10,13 9,98 9,63 11,05 10,46 10,26 10,06 9,78 9,75 10,06 10,24 10,44 10,90 9,73 10,03 10,24 10,44 10,87 10,82 10,41 10,21 10,03 9,73 9,73 10,03 10,21 10,39 10,77 10,74 10,39 10,21 10,03 9,70 10,72 10,36 10,19 10,01 9,70 9,68 10,01 10,16 10,36 10,67 10,62 10,36 10,16 10,01 9,68 9,65 9,98

10,13 10,34 10,59

Construya una tabla de frecuencias: adecuada para estos datos; Agrupando en 5 clases de longitud 10; utilizando las frmulas para datos agrupados, compare y comente los resultados obtenidos. Grafique : El histograma, El polgono de frecuencias respectivas, la ojiva de frecuencias Compare, analice, interprete y comente el resultado en el contexto de lo que representan los datos. Cul es el valor modal y cmo se interpreta desde el punto de vista de los datos? Cul es el valor mediano y cmo se interpreta desde el punto de vista de los datos?

20

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

Cuntos tubos tienen al menos 10,77 centmetros de dimetro? Qu porcentaje de tubos tienen como dimetro 10,82 centmetros o menos? Qu cantidad de tubos es tal que al menos el 50% de la muestra tiene una cantidad inferior o igual? Qu porcentaje de tubos tienen como dimetro 10,87 centmetros o menos? Qu valor tiene y cmo se interpreta el cuartil 3 para estos datos? Qu valor tiene y cmo se interpreta el cuartil 1 para estos datos? Qu valor tiene y cmo se interpreta la mediana para estos datos? Qu valor tienen la media aritmtica y la desviacin estndar?. De una interpretacin concreta de estos valores, desde el punto de vista del significado de los datos del problema. Determine el rango intercuartlico y explique su significado desde el punto de vista de los datos del problema. Estudie la simetra de la distribucin. Estudie la curtosis de la distribucin. 14.- CASO TUBOS FLUORESCENTES. En los ltimos 10 aos, ha habido numerosas mejoras en la iluminacin. Un nuevo foco, Earth Light, de Philips, usa un tubo fluorescente atornillable con una balastra electrnica en su base. Se calcula que dura 1013 veces ms que las ampolletas domsticas usadas tradicionalmente. Los datos siguientes se obtuvieron respecto de la vida til de una muestra de estos nuevos tubos fluorescente (tiempo en miles de horas):

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

Tabla 2. Duracin, en miles de horas, de los elementos de una muestra de 24 tubos fluorescentes. 9.1 10.1 9.0 11.4 10.5 9.5 12.0 9.1 12.2 13.1 10.0 9.3 9.0 9.6 11.1 9.1 13.3 10.7 9.1 9.0 9.0 11.0 9.2 11.6
Fuente: Milton, J. y Arnold, J. (2004). Probabilidad y Estadstica con aplicaciones para ingeniera y ciencias computacionales. Edicin.McGraw-Hill, Mxico. Cap. 6, pg. 217.

Responda Las mismas preguntas planteadas para los problemas 10, 11 y 12. (Efecte los ajustes que sean pertinentes). 15.- Se determin la cantidad de partculas contaminantes en una oblea de silicio antes de cierto proceso de lavado, en una muestra de tamao 100, y se obtuvieron las siguientes frecuencias: N de part 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Frecuencia 1 2 3 12 11 15 18 10 12 4 5 3 1 2 1 Obtenga la media del nmero de partculas contaminantes; Obtenga la mediana del nmero de partculas contaminantes. Obtenga S del nmero de partculas contaminantes 16.- Dada la siguiente distribucin de frecuencias de la duracin, en horas, de una pieza de una determinada mquina retroexcavadora: Tabla 1.1 Distribucin de frecuencias de la duracin, en horas, de una pieza de una determinada mquina retroexcavadora. Nmero de clase Duracin en horas Frecuencias absolutas 1 300 - 399 14 2 400 - 499 46 3 500 - 599 58 4 600 - 699 76 5 700 - 799 68 6 800 - 899 62 7 900 - 999 48 8 1000 -1099 22 9 1100 - 1199 6

21

22

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

Determine: El valor modal y su significado El valor mediano y su significado Cuntas horas duran a lo menos el 45% de las piezas? Qu porcentaje dura ms de 600 horas, pero menos de 1000 horas?. La media aritmtica y la desviacin estndar. De una interpretacin concreta de estos valores, desde el punto de vista del significado de los datos del problema. Determine el segundo cuartil, y explique su significado desde el punto de vista de los datos del problema. Determine el percentil 45, y explique su significado desde el punto de vista de los datos del problema. Determine el cuarto quintil, y explique su significado desde el punto de vista de los datos del problema. Determine el rango intercuartlico y explique su significado desde el punto de vista de los datos del problema. Estudie la simetra de la distribucin. Cmo compara el resultado obtenido en h) con los valores de la media aritmtica, la mediana y la moda?. Estudie la curtosis de la distribucin. 17.- Antes de construirse la represa en el Ro Rapel, el cuerpo de ingenieros realiz una serie de pruebas, para medir el flujo de agua que pasa por el lugar de la represa, los resultados se muestran a continuacin: Flujo de agua Frecuencia (miles de litros por minuto) [1000-1050] 7 ]1050-1100] 21 ]1100-1150] 32 ]1150-1200] 49 ]1200-1250] 58 ]1250-1300] 41 ]1300-1350] 27 ]1350-1400] 11 Total 246 a) Determine le flujo de agua promedio b) Determine si las muestras tienen un flujo homogneo. c) Construya una ojiva (Fi) y responda, qu fraccin del flujo presento menos de 1300 miles de litros por minuto. d) Hasta que flujo alcanza el 45% de las muestras. Use Ojiva. 18.- Los siguientes datos de octanaje de varias mezclas de gasolina fueron tomadas de un artculo en Technometrics, revista dedicada a las aplicaciones estadsticas en ciencias fsicas e ingeniera. Trace un diagrama de tallo y hojas para estos datos. Por qu es relativamente fcil identificar un valor de octanaje? Revela el diagrama algunas propiedades importantes de los datos?. Obtenga un histograma con 7 intervalos de igual amplitud, obtenga el grfico de caja de stos datos y estudie los valores atpicos y la dispersin de los datos en cada cuartil. Realice un anlisis exploratorio con estos datos. 88,5 87,7 83,4 86,7 87,5 91,5 88,6 100,3 95,6 93,3 94,7 91,1 91,0 94,2 87,8 89,9 88,3 87,6 84,3 86,7 88,2 90,8 88,3 98,8 94,2 92,7 93,2 91,0 90,3 93,4 88,5 90,1 89,2 88,3 85,3 87,9 88,6 90,9 89,0 96,1 93,3 91,8 92,3 90,4 90,1 93,0 88,7 89,9 89,8 89,6 87,4 88,9 91,2 89,3 94,4 92,7 91,8 91,6 90,4 91,1 92,6 89,8 90,6 91,1 90,4 89,3 89,7 90,3 91,6 90,5 93,7 92,7 92,2 92,2 91,2 91,0 92,2 90,0 90,7

19.- El conjunto de datos adjunto est formado con observaciones del gasto de agua en la ducha (l/min) para una muestra de n =129 casas en Perth, Australia. 4,6 12,3 7,1 7,0 4,0 6,7 9,2 6,9 11,5 5,1 11,2 10,5 14,3 8,0 8,8 5,1 6,4 5,6 9,6 7,5 7,5 6,2 5,8 2,3 3,4 9,8 10,4 6,6 3,7 6,4 8,3 6,5 7,6 9,3 9,2 5,0 7,3 6,3 13,8 6,2 5,4 4,8 7,5 6,0 6,9 7,5 10,8 6,6 5,0 3,3 7,6 3,9 11,9 2,2 15,0 6,1 7,2 15,3 18,9 7,2 5,4 5,5 4,3 9,0 12,7 7,4 11,3 5,0 3,5 8,2 8,4 7,3 10,3 11,9 6,0 9,5 5,6 9,3 10,4 9,7 5,1 6,7 10,2 6,2 8,4 4,8 7,0 5,6 10,5 14,6 10,8 15,5 7,5 6,4 3,4 6,6 5,5 5,9 15,0 9,6 7,8 7,0 6,9 4,1 3,6 11,9 3,7 5,7 6,8 11,3 9,3 9,6 10,4 9,3 6,9 9,8 9,1 10,6 4,5 6,2 8,3 3,2 4,9 5,0 6,0 8,2 6,3 3,8 6,0 Construya un diagrama de tallo y hojas con los datos, Cul sera un valor de un gasto de agua comn representativo? Le parece que la grfica est muy concentrada o extendida? Parece que la distribucin de valores es razonablemente simtrica?, Si no es as Cmo describira la desviacin a partir de la simetra?, Encuentra alguna observacin alejada del resto de los datos?

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

23

ANEXO 1 Tabla A1. Matriz de datos de estudiantes Nivel Nombre del N de Satisfaccin Promedio estudiante Sexo Hermanos de Estudios Edad Estatura Peso de Notas Estudiante 1 1 2 2 19 1.79 83 5.04 Estudiante 2 1 1 3 20 1.70 70 4.92 Estudiante 3 1 1 3 20 1.66 65 4.2 Estudiante 4 1 1 2 19 1.80 83 4.5 Estudiante 5 1 1 1 22 1.80 105 4.92 Estudiante 6 1 2 1 20 1.75 77 4.2 Estudiante 7 0 1 2 21 1.60 65 4.1 Estudiante 8 1 2 1 20 1.86 82 4.8 Estudiante 9 1 2 0 19 1.76 70 4.96 Estudiante 10 1 0 3 20 1.86 75 4.3 Estudiante 11 1 3 2 21 1.65 65 4.6 Estudiante 12 0 6 2 23 1.61 84 4.6 Estudiante 13 1 2 3 20 1.75 65 5.2 Estudiante 14 1 1 0 20 1.71 64 4.5 Estudiante 15 1 2 1 19 1.70 80 4.1 Estudiante 16 1 2 2 19 1.80 75 4.5 Estudiante 17 1 3 2 20 1.61 65 4.14 Estudiante 18 1 3 2 22 1.70 72 5 Estudiante 19 0 0 2 19 1.55 60 4.7 Estudiante 20 1 3 0 19 1.74 68 4.7 Estudiante 21 0 1 2 23 1.60 90 4.32 Estudiante 22 1 3 2 23 1.65 64 4.09 Estudiante 23 1 2 2 21 1.73 65 4.7 Estudiante 24 1 3 3 24 1.72 70 4.4 Estudiante 25 0 1 2 23 1.65 62 4.2 Estudiante 26 1 2 2 20 1.68 65 4.2 Estudiante 27 1 4 2 21 1.70 70 4 Estudiante 28 1 1 0 23 1.69 69 4.7 Estudiante 29 1 0 2 23 1.73 70 4.9 Estudiante 30 1 3 1 21 1.80 78 4.5 Estudiante 31 1 1 2 21 1.80 95 4.2 Estudiante 32 1 1 2 19 1.76 61 4.8 Fuente: Elaboracin propia sobre la base de encuesta a estudiantes.

24

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

ANEXO 2 Procesamiento estadstico de una variable discreta con muchos valores o variables continuas EJEMPLO: Variable continua LA CLASIFICACIN, LA DISTRIBUCIN DE FRECUENCIAS Y SU REPRESENTACIN GRFICA. 1. Presentacin de los datos Datos estadsticos en forma bruta pueden ser presentados como en la Tabla 1, que muestra las mediciones, de duracin de transistores, en horas. Tabla 1. Duracin, en horas, de los elementos de una muestra de 40 transistores. 112 121 113 118 121 118 117 125 126 143 126 151 108 116 130 147 141 108 134 137 104 122 120 140 136 127 131 132 134 140 133 119

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

110 124 132 152 135 130 136 128 Fuente: Ross, Sh. (2002). Probabilidad y Estadstica para Ingenieros. Segunda Edicin.McGraw-Hill, Mxico. Cap. 2, pg. 49. 2. Primera parte: Anlisis de los datos globales 2.1. La Clasificacin Qu significado tienen los datos presentados en la Tabla 1? Puesto que las cifras han sido clasificadas por el orden en que son compiladas, son difciles de interpretar. Para obtener ms informacin y obtenerla rpidamente, necesitamos organizar los datos en alguna forma sistemtica. La forma ms sencilla de hacerlo es formar una CLASIFICACIN, una disposicin de los datos segn su magnitud. Puede formarse en orden ascendente (de los valores ms bajos a los ms alto) o en orden descendente (de los valores ms altos a los ms bajos). En la Tabla 2, las 40 mediciones de la Tabla 1 han sido dispuestas en su clasificacin por orden ascendente. Tabla 2. Clasificacin de 40 mediciones de duracin de transistores, en horas. 104 113 119 124 128 108 116 120 125 130 108 117 121 126 130 110 118 121 126 131 112 118 122 127 132 Fuente: Elaboracin propia sobre los datos de la Tabla 1. 132 133 134 134 135 136 136 137 140 140 141 143 147 151 152

Tal clasificacin tiene claras ventajas sobre los datos en forma bruta. De ella pueden aprenderse muchas caractersticas de la variable, fcil y rpidamente. Primero: la amplitud (rango) de las mediciones de la muestra es de 104 a 152 horas. Segundo: Se puede apreciar claramente una gran concentracin de valores en torno a 132 horas. Tercero: La clasificacin revela aproximadamente el tipo de distribucin de la serie. Aunque hay algunos vacos entre estas mediciones, la serie da un aspecto aproximadamente continuo. La clasificacin es a menudo un medio prctico y til de organizar pequeas cantidades de datos. Sin embargo, la clasificacin todava es una forma muy engorrosa de organizar los datos, especialmente cuando se trata de una muestra grande. Adems, se agota su utilidad despus de haber sido obtenidos de ella algunos tipos de informacin. Por tanto, es conveniente comprimir los datos en una forma ms compacta.

25

Condensar y simplificar los datos sin perder muchos detalles es el objetivo de la DISTRIBUCIN DE FRECUENCIAS, una disposicin de los datos que muestra la frecuencia de ocurrencia de valores en cada una de diversas CLASES de tamaos. La presentacin tabular de tal resumen de datos se conoce como DISTRIBUCIN DE FRECUENCIAS. 2.2 La Distribucin de frecuencias Cuando el nmero de valores posibles de una variable discreta sea grande, o cuando sta sea continua, conviene agrupar los datos en clases como sigue: a) Decidir el nmero r de clases a considerar Este nmero debe ser entre 5 y 20. La regla ms frecuentemente utilizada, para determinar r, es la regla de Sturges. Nmero de clases = 1 + 3,3 Log(n) , donde n es el nmero de observaciones En el caso bajo estudio tenemos 40 observaciones, luego, conforme a la regla de Sturges, obtenemos: Nmero de clases = 1 + 3,3 log10 (40) = 1 + 3,3 * 1.60205999 = 6,3 clases. As, de acuerdo con la regla de Sturges, debiramos tener 6 u 7 clases para resumir la informacin de las 40 observaciones. Consideraremos 6 clases b) Seleccionar los lmites de clase que definen los intervalos, de manera que las clases sean de la misma longitud y cada observacin se clasifique sin ambigedad en una sola clase. Una vez que se ha determinado el nmero de clases, debe decidirse la amplitud de stas. Tomando la misma amplitud para todas las clases, este valor comn queda dado aproximadamente por:

Amplitud de clase
Para el problema en consideracin, resulta:

Valor mximo - Valor mnimo Nmero de clases

Amplitud de clase

Valor mximo - Valor mnimo Nmero de clases 152 - 104 6 48 6 8

Luego debe elegirse el extremo inferior del primer intervalo de clase. En nuestro problema tenemos: Valor mximo = 152 Valor mnimo = 104

26

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

Dado que aqu el valor mnimo es de 104 el extremo inferior debe ser 104 o menos. Dado que en este caso la Amplitud de clase nos dio 8 (nmero entero, fcil de trabajar) NO alteraremos el Rango de los datos y tomaremos como valor mnimo 104.

OBSERVACIN: Si quisiramos trabajar con otra Amplitud de clase, distinta de 8, por ejemplo 9, entonces debemos alterar el valor mnimo y el valor mximo, restando al mnimo y sumando al mximo, la misma cantidad, la que se determina resolviendo la siguiente ecuacin simple:

(152 x) - (104 - x) 6
Con esto alteramos el valor mnimo, generando un nuevo mnimo:

Nuevo valor mnimo = valor mnimo anterior - x

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

Esto obliga a considerar un nuevo mximo: Nuevo valor mximo = valor mximo antiguo + x Con lo cual tenemos la amplitud de clase definitiva:

Amplitud de clase
que para este ejemplo debera dar 9.

Nuevo valor mximo - Nuevo valor mnimo Nmero de clases

FIN DE LA OBSERVACIN

En resumen, en este ejercicio trabajaremos con 6 intervalos con una amplitud de 8 horas cada uno. Eleccin del primer intervalo de clase. El lmite superior de esta clase ser: As, el primer intervalo de clase ser 104 - 112 104 + 8 = 112

lmite Lmite inferior superior del intervalo del intervalo Eleccin del segundo intervalo de clase. Todos los intervalos deben ser elegidos de tal manera que cada observacin se clasifique sin ambigedades en una sola clase. Para ello se deben adoptar convenciones sobre la relacin entre el lmite superior de una clase y el lmite inferior de la clase que le sigue, algunas alternativas son: i) Trabajar con intervalos de la forma: Clase i-sima : a, b Clase(i+1) : b, c El punto b no se incluye en la clase i+1, sino que se incluye en la clase i-sima y as para todas las clases.

27

En nuestro caso aplicando este criterio el segundo intervalo sera: 112 - 120 ii) Trabajar con intervalos de la forma: Clase i-sima : [ a, b [ Clase (i+1) : [ b, c [ El punto b no se incluye en la clase i-sima, sino que se incluye en la clase i+1 y as para todas las clases. En nuestro caso aplicando este criterio el segundo intervalo sera: [112 - 120[ Alternativamente: iii) Trabajar con lmites reales (lmite real inferior y lmite real superior) o Fronteras (frontera inferior y frontera superior). Para evitar ambigedades los lmites reales se expresan con una cifra decimal ms que los datos. En nuestro caso, aplicando este criterio: El primer intervalo quedara como: 103,5 112,5 El segundo intervalo quedara como: 112,5 120,5 Eleccin de los restantes intervalos: Aplicando cualquiera de los criterios anteriores se contina hasta completar el total de intervalos. Para nuestro caso, aplicando el criterio (i) los intervalos de clase son: 1. 104 - 112 2. 112 - 120 3. 120 - 128 4. 128 - 136 5. 136 - 144 6. 144 - 152 c) Contar el nmero de observaciones en cada clase, que llamaremos la FRECUENCIA ABSOLUTA DE LA CLASE. La Tabla 3 muestra el conteo de las frecuencias dentro de cada clase. Tabla 3. Conteo de las frecuencias para las 40 mediciones de duracin de transistores, en horas.

Intervalo de clase

Frecuencia absoluta de la clase

LI 96 104 112 120 128 136 144

LS 104 112 120 128 136 144 152 0 5 7 9 11 5 3

152 160 0 Fuente: Elaboracin propia sobre la base de los datos de la Tabla 2. Nota: Observe que en esta tabla, para fines de grficos posteriores se ha agrado una clase al inicio y una clase al final.

28

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

d) Marcas de clase: El punto medio entre los lmites de cada clase se llama PUNTO MEDIO, CALIFICACIN O MARCA DE CLASE. La Tabla .4, presentan las frecuencias absolutas y las marcas de clase para los datos bajo estudio. Tabla 4. Distribucin de frecuencias para los datos de 40 mediciones de la duracin de transistores, en horas.

Intervalo de clase

Marca de clase

Frecuencia absoluta de la clase

LI

LS

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

96 104 100 0 104 112 108 5 112 120 116 7 120 128 124 9 128 136 132 11 136 144 140 5 144 152 148 3 152 160 156 0 Fuente: Elaboracin propia sobre la base de los datos de la Tabla 3. d) Distribucin de frecuencias absolutas y relativas Tabla 5. Distribucin de frecuencias para los datos de 40 mediciones de la duracin de transistores, en horas. Frecuencia absoluta N Intervalo de clase LI 1 2 3 4 5 6 LS Marca de clase X Simple fa(X) Acumulada Simple Faa(X) fr(X) Frecuencia relativa Simple en Acumulada en Acumulada porcentaje porcentaje fr(X)*100 0 12.5 17.5 22.5 27.5 12.5 7.5 0 Fra(X) 0 0.125 0.300 0.525 0.800 0.925 1 1 Fra(X)*100 0 12.5 30.0 52.5 80.0 92.5 100.0 100

96 104 100 0 0 0 104 112 108 5 5 0.125 112 120 116 7 12 0.175 120 128 124 9 21 0.225 128 136 132 11 32 0.275 136 144 140 5 37 0.125 144 152 148 3 40 0.075 152 160 156 0 40 0 Fuente: Elaboracin propia sobre la base de los datos de la Tabla 4.

29

Representacin grfica Para frecuencias simples Histograma de frecuencias


0.3
Frecuencia relativa acumulada

Para frecuencias acumulada Diagrama escalonado


1.2 1 0.8 0.6 0.4 0.2 0 95 105 115 125 Duracin 135 145 155

0.25 0.2 0.15 0.1 0.05 0 100.0 108.0 116.0 124.0 132.0 140.0 148.0 156.0

Polgono de frecuencias o funcin de densidad emprica


0.3
Frecuencia relativa acumulada

Ojiva de frecuencias o funcin de distribucin emprica


1.2 1 0.8 0.6 0.4 0.2 0 95 105 115 125 Duracin 135 145 155

Frecuencias relativas

0.25 0.2 0.15 0.1 0.05 0 100.0 108.0 116.0 124.0 132.0 140.0 148.0 156.0 Duracin

0.3

1.2

0.25 0.2 0.15 0.1 0.05 0 98 108 118 128 138 148 158 168 Duracin

1 0.8 0.6 0.4 0.2 0 95 105 115 125 Duracin 135 145 155

Funcin de densidad terica


0.3
1.2

Funcin de distribucin terica

0.25 0.2 0.15 0.1 0.05 0 98 108 118 128 138 148 158 168

1 0.8 0.6 0.4 0.2 0 95 105 115 125 Duracin 135 145 155

Duracin

0.3

1.2

0.25 0.2 0.15 0.1 0.05 0 98 108 118 128 138 148 158 168

1 0.8 0.6 0.4 0.2 0 95 105 115 125 Duracin 135 145 155

Duracin

30

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

Frecuencia relativa

Frecuencia relativa

Frecuencia relativa

Frecuencia relativa acumulada

Frecuencia relativa acumulada

Frecuencia relativa acumulada

ANEXO 3 CALCULO DE ESTADGRAFOS PARA DATOS NO AGRUPADOS 1. COMPROBAR LOS VALORES DE LOS ESTADGRAFOS QUE SE ENTREGAN EN ESTA TABLA. 2. INTERPRETAR EL SIGNIFICADO DE DICHOS VALORES EN EL CONTEXTO DEL PROBLEMA.
(DURACIN MEDIA) (DURACIN MEDIA)2 (DURACIN MEDIA)3 (DURACIN MEDIA)4

DURACIN

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 SUMA MEDIA MODA MEDIANA CUARTIL 1 CUARTIL 2

104 108 108 110 112 113 116 117 118 118 119 120 121 121 122 124 125 126 126 127 128 130 130 131 132 132 133 134 134 135 136 136 137 140 140 141 143 147 151 152 5097 127.4 108 127.5 118.75 127.5

-23.4 -19.4 -19.4 -17.4 -15.4 -14.4 -11.4 -10.4 -9.4 -9.4 -8.4 -7.4 -6.4 -6.4 -5.4 -3.4 -2.4 -1.4 -1.4 -0.4 0.6 2.6 2.6 3.6 4.6 4.6 5.6 6.6 6.6 7.6 8.6 8.6 9.6 12.6 12.6 13.6 15.6 19.6 23.6 24.6 -2.27E-13

548.730625 377.330625 377.330625 303.630625 237.930625 208.080625 130.530625 108.680625 88.830625 88.830625 70.980625 55.130625 41.280625 41.280625 29.430625 11.730625 5.880625 2.030625 2.030625 0.180625 0.330625 6.630625 6.630625 12.780625 20.930625 20.930625 31.080625 43.230625 43.230625 57.380625 73.530625 73.530625 91.680625 158.130625 158.130625 184.280625 242.580625 383.180625 555.780625 603.930625 5497.775

-12854.01489 -7329.647391 -7329.647391 -5290.763641 -3670.079891 -3001.563016 -1491.312391 -1132.995516 -837.2286406 -837.2286406 -598.0117656 -409.3448906 -265.2280156 -265.2280156 -159.6611406 -40.17739062 -14.26051562 -2.893640625 -2.893640625 -0.076765625 0.190109375 17.07385938 17.07385938 45.69073438 95.75760938 95.75760938 173.2744844 284.2413594 284.2413594 434.6582344 630.5251094 630.5251094 877.8419844 1988.492609 1988.492609 2501.609484 3778.193234 7500.760734 13102.52823 14841.59511 3756.26625

301105.2988 142378.4006 142378.4006 92191.55644 56610.98231 43297.5465 17038.24406 11811.47825 7890.879938 7890.879938 5038.249125 3039.385813 1704.09 1704.09 866.1616879 137.6075629 34.58175039 4.123437891 4.123437891 0.032625391 0.109312891 43.96518789 43.96518789 163.3443754 438.0910629 438.0910629 966.0052504 1868.886938 1868.886938 3292.536125 5406.752813 5406.752813 8405.337 25005.29456 25005.29456 33959.34875 58845.35963 146827.3914 308892.1031 364732.1998 1826735.829

31

CUARTIL 3

135.3 137.444375 11.7236673 140.9685897 11.8730194 10.73231633 0.058278172 2.417474012 -0.582526

VARIANZA POBLACIONAL DESV. ESTAND. POBLACIONAL VARIANZA MUESTRAL DESV. ESTAND. MUESTRAL COEF. DE VARIACIN COEF. DE ASIMETRA COEF. DE CURTOSIS

1. 2. 3.

ANEXO 4 CALCULO DE ESTADGRAFOS PARA DATOS AGRUPADOS RECONOCER LA FRMULA Y APLICAR DICHA FRMULA PARA CALCULAR EL VALOR DEL ESTADGRAFO CORRESPONDIENTE. COMPARAR ESTOS VALORES CON LOS OBTENIDOS PARA LOS DATOS SIN AGRUPAR. INTERPRETAR EL SIGNIFICADO DE DICHOS VALORES EN EL CONTEXTO DEL PROBLEMA.
k

xi f a ( xi ) x
i 1

x
i 1

xi f r ( xi )

C 0.5

LIi

M od (X)

LIi

f a (x i 1 ) (LSi - LIi ) f a (x i 1) f a (x i 1) n Faa ( x i -1 ) ( LSi fa (x i) LIi )

LIi

Rango=
k

S2 n

(x i

1 i 1

x) 2 f a (x i ) n 1

k i 1

x i2 f a (x i ) n 1

n n 1

x2

Desviacin estndar muestral=

CV

S x
1 n
k

(x i
i 1

x) 3 f a (x i ) S3
K

As

1 n

(x i
i 1

x) 4 f a (x i ) S4

32

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

0.5 n Faa (x i -1 ) (LSi f a (x i )

LIi )

También podría gustarte