Está en la página 1de 14

INSTITUTO TECNOLOGICO DE GUTIERREZ

TUXTLA

MARCO TEORICO
UNIDAD I. ESTADISTICA DESCRIPTIVA
Hoy da, la recoleccin de datos sobre los procesos productivos de una empresa permite mejorarlos e implementar un control de calidad. Para ello, adems de recoger los datos de forma sistemtica, estos deben ser representados y organizados para su posterior anlisis PROBABILIDAD Y ESTADSTICA Integrantes Bautista Len Fidel Molina Gonzlez Carolina Isabel Crdenas de Paz Jairo Zepeda Rojas Roberto Carlos

01 de marzo de 2011

Tabla de contenido
Introduccin ................................................................................................................. 3 Estadstica descriptiva .................................................................................................. 4 MEDIDAS DE TENDENCIA CENTRAL O DE POSICIN .......................................... 5 La moda ..................................................................................................................... 5 La mediana ................................................................................................................ 6 La media aritmtica o promedio ................................................................................ 6 El rango ..................................................................................................................... 6 MEDIDAS DE TENSIN CENTRAL PARA DATOS AGRUPADOS .............................. 7 La moda ..................................................................................................................... 7 La mediana ................................................................................................................ 7 La media aritmtica o promedio ................................................................................ 8 MEDIDAS DE DISPERSIN O VARIABILIDAD ........................................................ 8 Rango de variacin .................................................................................................... 8 Desviacin media absoluta ........................................................................................ 9 Varianza .................................................................................................................... 9 Desviacin estndar .................................................................................................. 9 Medidas de localizacin .......................................................................................... 10 Diagrama de hojas y tallos ....................................................................................... 11 Histogramas ............................................................................................................ 11 DISTRIBUCIN DE FRECUENCIAS ......................................................................... 12 Polgono de frecuencias .......................................................................................... 12 Ojivas ...................................................................................................................... 12 Diagrama de cajas ................................................................................................... 13 BIBLIOGRAFIAS ....................................................................................................... 14

INTRODUCCIN De todas las ramas de la matemtica, ninguna se le ha presentado tantos y tan tiles servicios a las ciencias sociales como la estadstica. Su origen est en el estudio de las probabilidades iniciando en forma sistemtica por Pascal, Fermat y Laplace. Hoy da, la recoleccin de datos sobre los procesos productivos de una empresa permite mejorarlos e implementar un control de calidad. Para ello, adems de recoger los datos de forma sistemtica, estos deben ser representados y organizados para su posterior anlisis. La recopilacin, el proceso, la interpretacin y la presentacin de los datos numricos pertenecen al dominio de la estadstica. Estas tareas comprenden el clculo de los promedios de goles en el futbol, la recopilacin de datos sobre los nacimientos y muertes, la evaluacin de la efectividad de productos comerciales y el pronstico del tiempo. La informacin estadstica se nos presenta constantemente en la radio y la televisin. Nuestro entusiasmo por los hechos estadsticos se ve alentado por diarios nacionales... La palabra estadstica se usa de varias maneras. El trmino puede aplicarse no solo a una simple tabulacin de informacin numrica, como informes de transacciones burstiles, sino tambin al conjunto de tcnicas que se utilizan en el procesamiento o anlisis de datos. El trmino estadstica tambin se refiere a quienes simplemente recopilan datos, asi como a aquellos que elaboran anlisis o interpretaciones y tambin a los acadmicos que desarrollan la teora matemtica sobre la cual se basa la estadstica.

ESTADSTICA DESCRIPTIVA La estadstica descriptiva, proviene del vocablo latn status, esto se refiere a todas las actividades que se desarrollan en diferentes instituciones y organizaciones del estado, especialmente con las que se encuentran vinculadas con la descripcin de la situacin econmica y poltica de un pas. El conjunto de mtodos para la recoleccin y anlisis de los datos del estado impulsaron el desarrollo de la estadstica. Los primeros en dar sus aportes a la enseanza de esta ciencia fueron el alemn H. Coring (1606-1681), el belga A. Quetelet (1796-1874) y el alemn K. F. Gauss (17771855). Un ejemplo de lo ya antes mencionado es conocer el nmero exacto de individuos en edad escolar y la proyeccin de su crecimiento son factores importantes para pretender definir las polticas de inversin en el sector educativo. Para ciencias como la Sociologa y la Psicologa, la estadstica es una herramienta que les permite estudiar los comportamientos de las poblaciones. La estadstica tiene dos grandes partes: la estadstica descriptiva la cual se encarga de recolectar, organizar y representar datos mediante tablas y diagramas que describen las caractersticas de una poblacin o de una parte de ella, y la estadstica inferencial con la que predice el comportamiento de una poblacin, a partir de la informacin que se conoce de una parte de ella. Algunos trminos de uso frecuente en cualquier experimento estadstico son: poblacin, muestra, variable y dato. La poblacin estadstica es el conjunto de individuos, objetos o valores cuyas propiedades sern estudiadas estadsticamente. La muestra es un subconjunto o parte de la poblacin; la muestra debe estar compuesta por aquellos elementos de la poblacin que sean ms representativos. Las tcnicas de seleccin de muestras son estudiadas por una rama de la estadstica llamada muestreo. Generalmente, en las investigaciones no es posible trabajar con toda la poblacin, bien sea por ser numerosa, como el caso de los habitantes de una ciudad o por costos, por tal razn, el investigador es el encargado de seleccionar los elementos que conformarn la muestra. Despus de establecer la poblacin o muestra es indispensable determinar las variables o caractersticas que se estudiarn. El anlisis de cada variable arroja los datos o valores asociados a la muestra o poblacin. El valor numrico que resume todos los datos de una poblacin se denomina parmetro.

Consideremos el experimento estadstico de determinar las horas que se le dedica a la lectura en una poblacin de estudiantes de diferentes planteles educativos de la ciudad de Tuxtla Gutirrez, la variable asociada es el nmero de horas dedicadas a la lectura diariamente; los datos son los resultados que se obtendrn de la encuesta realizada a los miembros de la muestra, y el parmetro depende de la medida que se quiera representar al conjunto de datos, la cual podra ser el promedio aritmtico, la media, la moda o la mediana. En la estadstica hay dos clases de variables: cuantitativas y cualitativas. Una variable cuantitativa establece los atributos de un elemento, es decir, informa acerca de las caractersticas que se distinguen de un elemento de otro y los ubican en clases independientes y separadas mediante nmeros, en este caso el nmero de horas diarias de lectura es la variable cuantitativa. Dentro de la variable cualitativa se clasifica o describe un elemento de la poblacin, en el caso presente, esta variable es el tipo de libros que prefieren leer los habitantes de la muestra.

Variable cuantitativa
variable (horas dedicadas a la lectura) menos de una Una Dos Tres Cuatro Ms de cuatro Nmero de personas 7 15 8 10 7 3

TABLA 1

Variable cualitativa
variable (tipo de lectura) Informativa Cientfica Cuentos Novelas Otros Nmero de personas 10 16 4 7 13

TABLA 2

MEDIDAS DE TENDENCIA CENTRAL O DE POSICIN Para cada grupo de datos existen nmeros que son valores representativos de la poblacin, como son la moda, la mediana y el rango. Las medidas de tendencia central o de posicin de un conjunto de datos buscar dar al investigador alguna medida cuantitativa del centro de los datos de una poblacin o muestra. La moda El valor o caracterstica que ms se repite en una poblacin o muestra se llama moda de la poblacin o de la muestra, y corresponde al dato con la mayor frecuencia absoluta. En las tablas 1 y 2 se observa que las frecuencias mayores son 15, que corresponden al valor cuantitativo una hora, y 16, que corresponde a la variable cualitativa lectura cientfica. As la moda en el primer caso es una hora y en segundo es libro cientfico. Si dos datos distintos tienen la misma frecuencia mxima, se dice que el conjunto de datos es bimodal; puede existir incluso conjuntos de datos multimodales.

La mediana La mediana de un conjunto de datos es aquel dato central que divide los datos de la muestra o la poblacin en partes iguales. El propsito de esta medida es identificar la tendencia central de la muestra sin que se vea afectada por los valores extremos. Para calcular la mediana es necesario ordenar los datos de menor a mayor. Si el nmero de datos es impar, la mediana es el dato central; y si el nmero de datos es par, la mediana es la mitad de la adicin de los dos datos centrales. La media aritmtica o promedio La media aritmtica o promedio de un conjunto de datos es el cociente que resulta entre la adicin de los datos y el nmero total de datos; es el valor de la caracterstica en estudio que tendra todos los elementos de la poblacin si ellos no se diferenciaran. La media aritmtica o media se le conoce como media muestral. Esta medida se encuentra afectada por los valores extremos, efecto que no ocurre con la mediana. Un ejemplo comn, si las edades de 10 nios son: 6, 7, 8, 9, 8, 6, 10, 6, 9, 7; el promedio de las edades de los nios es:

La mediana se obtiene al ordenar de las edades y promediar los datos del centro: 6, 6, 6, 7, 7, 8, 8, 9, 9, 10

El rango La diferencia entre el mayor valor y el menor valor de la caracterstica en estudio se llama rango. Considrese el siguiente grupo de datos: 12, 13, 12, 11, 13, 14, 15, 15, 15, 11. Organizando los datos de menor a mayor, tenemos: 11, 11, 12, 12, 13, 13, 14, 15, 15, 15. La moda de este grupo de datos es 15, ya que es el valor con la mayor frecuencia absoluta. La media o promedio es 13,1. Como son 10 datos, la mediana corresponde al promedio aritmtico de los datos que ocupan los lugares 5 y 6, es decir, la mediana es de (13+13)/2=13. El rango es de 15-11=4.

MEDIDAS DE TENCION CENTRAL PARA DATOS AGRUPADOS En ocasiones es especial agrupar los datos correspondientes a una variable, en intervalos o clases. Considrese la tabla 3 de frecuencias de datos agrupados. En cada intervalo o clase escogemos una marca de clase correspondiente al punto medio del intervalo. La frecuencia absoluta es el numero de datos que corresponden a cada intervalo, y la frecuencia acumulada se escribe como . La moda La clase con mayor frecuencia absoluta se denomina clase modal. El en ejemplo la clase modal es el intervalo [4-6]. La moda de los datos se encuentra en este intervalo. El valor exacto de la moda se puede calcular como el valor correspondiente al punto de interseccin de los segmentos de la figura continua. La mediana A partir de un polgono de frecuencias absolutas o relativas, es posible encontrar la mediana. Para el caso de frecuencias absolutas, se calcula el valor correspondiente al dato 25. Para las frecuencias relativas, se puede hallar mediante el valor correspondiente al 50%. En la figura se muestra el valor correspondiente a la mediana de este grupo de datos. Distribucin de frecuencias del tiempo de atencin en una fila
Marca de clase Intervalo o clase Frecuencia absoluta Frecuencia acumulada

1 3 5 7 9 11 TABLA 3

0-2 2-4 4-6 6-8 8-10 10-12

5 10 14 12 6 3

5 15 29 41 47 50

La media aritmtica o promedio Para un conjunto de datos agrupados, la media aritmtica o promedio se calcula mediante la expresin:

Para el ejemplo se tiene:

MEDIDAS DE DISPERSION O VARIABILIDAD Las medidas de tendencia central proporcionan informacin valiosa adecuada para los datos de la muestra; sin embargo, para distintas muestras de la misma poblacin, estas medidas no son suficientes para su estudio. Por ejemplo, dos muestras distintas pueden tener la misma media o promedio; por tanto, es necesario estudiar la variabilidad o dispersin de los datos. Notas de Carolina y Jairo Carolina Jairo Algebra 4,0 5,0 Biologa 3,5 4,0 Ingles 4,0 2,5 Espaol 4,2 4,0 Historia 4,3 4,5 TABLA 6 Rango de variacin El rango de variacin es una medida que determina la dispersin de los datos de una distribucin de frecuencias y corresponde a la diferencia entre el mayor de los valores de los datos y el menor. Si se trata de la distribucin agrupada de una variable continua, entonces el rango de variacin se puede hallar mediante la expresin: Analicemos a dos estudiantes cuyas notas son las siguientes: El promedio de notas de Carolina y Jairo es de 4,0. Sin embargo, se puede apreciar que las notas de Carolina estn entre 3,5 y 4,3, mientras que las notas de Jairo estn entre 2,5 y 5,0; por tanto el rango de variacin de las notas de Jairo es mayor.

El rango de variacin de las notas de Carolina es de 0,8, mientras que el rango de variacin de las notas de Jairo es de 2,5.

Desviacin media absoluta La desviacin media absoluta promedio, respecto a la media aritmtica, es una medida de dispersin de un conjunto de datos, que se define como el promedio de las distancias de los datos a la media aritmtica; tambin se le denomina desviacin media, sin olvidar que no se toman desviaciones, sino distancias. Para el caso de las notas de Carolina y Jairo NOTA DESVIACIN (VALOR ABSOLUTO DE LA la desviacin absoluta se presenta a DIFERENCIA ENTRE continuacin: LA MEDIA Y LA
NOTA)

NOTA

DESVIACIN (VALOR ABSOLUTO DE LA DIFERENCIA ENTRE LA MEDIA Y LA NOTA)

Algebra Biologa Ingles Espaol historia

4,0 3,5 4,0 4,2 4,3 TABLA 7

La desviacin media o desviacin absoluta promedio respecto de la media aritmtica de los datos de una distribucin agrupada de frecuencias, es el promedio de las distancias TABLA 8 de los datos de la distribucin. Es una medida de dispersin que mide cuanto se alejan los datos de su media y sirve para comparar la desviacin de dos distribuciones de frecuencias. Las medidas ms importantes de variabilidad son la varianza y la desviacin estndar. Varianza La varianza muestral es la suma de los cuadrados de las desviaciones divididas entre . Si es una muestra de observaciones y es la media, la varianza muestral se calcula mediante la expresin:

Algebra Biologa Ingles Espaol historia

5,0 4,0 2,5 4,0 4,5

Desviacin estndar La desviacin estndar muestral es la raz cuadrada de la varianza. Coeficiente de variacin. El coeficiente de variacin, CV, se calcula con la expresin:

CAROLINA NOTA Algebra Biologa Ingls Espaol Historia 4,0 3,5 4,0 4,2 4,3 0 0,5 0 0,2 0,3 Suma Varianza Desviacin estndar 0 0,25 0 0,04 0,09 0,38 0,095 0,308 TABLA 9 , para las notas de Jairo.

La varianza y la desviacin estndar de las notas de Carolina y Jairo se muestran en las siguientes tablas: El coeficiente de variacin en los dos casos es: , para las notas de Carolina.

Como puede verse la varianza, la desviacin estndar y el coeficiente de variacin son medidas de la dispersin de los datos de las dos muestras. JAIRO NOTA Algebra Biologa Ingls Espaol Historia 5,0 4,0 2,5 4,0 4,5 1,0 0 1,5 0 0,5 Suma Varianza Desviacin estndar 1,0 0 2,25 0 0,25 3,5 0,875 0,935 TABLA 10 Medidas de localizacin Los cuartiles, al igual que los deciles y los percentiles, son medidas de localizacin, similares a la mediana, que subdividen un conjunto de mediciones (datos) de acuerdo con la proporcin de frecuencias observadas. La mediana divide el conjunto de datos de dos subconjuntos de igual nmero de datos; los cuartiles dividen el conjunto en cuatro subconjuntos de igual nmero de datos, los deciles dividen el conjunto en diez subconjuntos de datos de igual nmero de datos. Cuando un conjunto de datos se divide en cien partes iguales, los puntos de divisin se llaman percentiles. El k-simo percentil, es un valor tal que al menos el k% de las observaciones estn en el valor o por debajo de l, y al menos (1-k) % de las observaciones estn en el valor o por encima. Para los siguientes 20 datos ordenados de menor a mayor: 20, 22, 25, 30, 32, 44, 62, 72, 81, 91, 116, 129, 139, 145, 151, 205, 252, 285, 310, 320, el primer cuartil o percentil 25 es igual al promedio de las observaciones 32 y 44:

10

El segundo cuartil, percentil 50 o mediana, es

igual a:

DIAGRAMA DE TALLO Y HOJAS Fue creado por el estadstico norteamericano John Tukey. Este tipo de diagramas busca proporcionar una impresin visual de la distribucin de un conjunto de datos. Organiza los datos en dgitos primarios o tallos, que son los dgitos de mayor valor posicional, y dgitos secundarios u hojas que corresponden al resto de los dgitos que se encuentran en cada dato. Se emplea cuando el nmero de observaciones es moderadamente grande. Para su construccin se escriben los datos en una columna en la parte izquierda y, a la derecha separadas por una lnea vertical las correspondientes hojas de cada tallo. Los datos de la siguiente tabla representan 25 observaciones del rendimiento de un proceso. Puesto que los datos estn desde el 61 y 95, los tallos corresponden a los dgitos de las decenas 6, 7, 8 y 9; y las hojas, por ejemplo, para el numero 6, son los dgitos de las unidades de cada uno de los datos que empiezan con 6. 6 1 3 4 5 6 Rendimiento de un proceso 81 77 88 66 84 65 75 95 83 78 61 70 64 87 92 88 84 71 78 79
TABLA 11

Tallos El diagrama de tallos y hojas para los datos se muestra en la figura continua. 6 7 8 9 HISTOGRAMAS Un histograma es una grafica de barras que representa la distribucin de frecuencias de una variable cuantitativa.
TABLA 12

hojas 1-3-4-5-5-6 0-1-1-3-4-7-8-8-9 1-3-4-4-7-8-8 2-3-5

Histograma
16 14 12 10 8 6 4 2 0

Horas dedicadas a la lectura

TABLA 13

11

DISTRIBUCION DE FRECUENCIAS La distribucin de frecuencias ofrece un resumen ms compacto de los datos que el diagrama de tallo y hojas. Para construir una distribucin de frecuencias, primero se divide el rango de los datos en intervalos, los cuales se conocen como intervalos de clases o celdas. Si es posible las clases deben tener el mismo ancho con la finalidad de mejorar la informacin visual en la distribucin de frecuencias. Para la seleccin del numero de clases debe emplearse cierto criterio de modo que pueda desarrollarse un diagrama razonable. El numero de clases depende del numero de observaciones y de la dispersin de los datos. En general, una distribucin de frecuencias que emplea muy pocas o demasiadas clases no contienen mucha informacin. Hemos visto que, en muchos casos, resulta satisfactorio usar entre 5 y 20 clases, y que el numero de clases debe aumentar en funcin de n.

POLGONO FRECUENCIAS

DE Polgono de frecuencias
20 15 10 5 0

El polgono de frecuencias se construye uniendo con segmentos de recta los puntos representados por una pareja ordenada, en la que el primer elemento es un dato de la variable y como segundo elemento su correspondiente frecuencia.

Horas dedicadas a la lectura

TABLA 14

OJIVAS Si aplicamos una tcnica similar a una distribucin acumulativa, obtenemos lo que se conoce como una ojiva. Sin embargo, en una ojiva, las frecuencias acumulativas se trazan en las fronteras de clase en lugar de hacerlo en las marcas de clase.

12

DIAGRAMAS DE CAJA El diagrama de caja es una representacin visual que describe al mismo tiempo varias caractersticas importantes de un conjunto de datos, tales como el centro, la dispersin, la desviacin de la simetra y la identificacin de observaciones que se alejan de manera poco usual del resto de los datos. Este tipo de valores se le conoce como valores atpicos. El diagrama de caja presenta los tres cuartiles, y los valores mnimo y mximo de los datos sobre un rectngulo, alineado horizontal o verticalmente. El rectngulo delimita el rango intercuartlico con la arista izquierda o inferior; ubicada en el primer cuartil, , y la arista derecha o superior en el tercer cuartil, . Se dibuja una lnea a travs del rectngulo en la posicin que corresponde al segundo cuartil; que es igual al 50% o la mediana, . De cualquiera de las aristas del rectngulo se extiende una lnea o bigote, que va hacia los valores extremos. Estas son observaciones que se observan entre el cero y 1.5 veces el rango intercuartlico a partir de las aristas del rectngulo. Las observaciones que estn entre 1.5 y 3 veces el rango intercuartlico a partir de las aristas del rectngulo reciben el nombre de valores atpicos. Las observaciones que estn ms all de 3 veces el rango intercuartlico a partir de las aristas del rectngulo se conocen como valores atpicos extremos. En ocasiones se emplean diferentes smbolos, como crculos vacios o llenos, para identificar los dos tipos de valores atpicos. A veces, los diagramas de caja reciben el nombre de diagramas de caja o bigotes.

13

Bibliografa
Castellanos, C. B. (2006). SUMMA Enciclopedia Universal (2006 ed., Vol. 3). Bogot: Grupo Editorial Norma. Freund John E., S. G. (1994). ESTADSTICA ELEMENTAL (octava edicion ed.). (C. R. Angel, Ed., & D. D. Julian, Trad.) Edo. de Mxico, Naucalpan de Jurez, Mxico: PRENTICE HALL HISPANOAMERICANA S.A. Montogomery Douglas C., R. G. (1996). Probabilidad y Estadstica aplicadas a la Ingeniera. (U. M. G., Trad.) Mxico D.F., Mxico: Mc Graw Hill.

14

También podría gustarte