Está en la página 1de 19

UNIDAD 1: ESTADISTICA

1.1 INTRODUCCIN NOTACIN SUMATORIA. En estadstica se requiere la suma de grandes masas de datos y es pertinente tener una notacin simplificada para indicar la suma de estos datos. As, si una variable se puede denotar por X, entonces las observaciones sucesivas de esta variable se escriben

En general, la i-sima observacin se escribe X ; i=1, ..., n.

La letra griega sigma mayscula se emplea para indicar la suma de estas n observaciones.

La notacin

se lee:

Suma de X sub-i ( sigma sub-i) donde i asume todos los valores de 1 hasta n, simplemente suma de X sub-i donde i va de 1 a n. Ejemplo 1: Si X1 = 3 X2 = 9 X3 =11

Encontrar: Solucin:

1.1.1 DATOS NO AGRUPADOS. Los DATOS NO AGRUPADOS es un conjunto de informacin si ningn orden que no nos establece relacin clara con lo que se pretende desarrollar a lo largo de un problema. Entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados. Ejemplo: Edades de un grupo de personas: 20, 50, 15, 13, 16, 13, 13, 20, 8, 16 , 40, 13, 20, 35, 28, 32. Calificaciones de la materia de espaol de un grupo de estudiantes: 10, 5, 6, 8, 6, 9, 7, 5, 8, 7.

1.1.2 MEDIDAS DE TENDENCIA CENTRAL. El propsito de las medidas de tendencia central es: Sirve como un mtodo para comparar o interpretar cualquier puntaje en relacin con el puntaje central o tpico. Sirve como un mtodo para comparar el puntaje obtenido por una misma persona en dos diferentes ocasiones. Sirve como un mtodo para comparar los resultados medios obtenidos por dos o ms grupos. Las medidas de tendencia central ms comunes son: La media aritmtica: comnmente conocida como media o promedio. Se representa por medio de una letra M o por una X con una lnea en la parte superior. La mediana: la cual es el puntaje que se ubica en el centro de una distribucin. Se representa como Md. La moda: que es el puntaje que se presenta con mayor frecuencia en una distribucin. Se representa Mo. De estas tres medidas de tendencia central, la media es reconocida como la mejor y ms til. Sin embargo, cuando en una distribucin se presentan casos cuyos puntajes son muy bajos o muy altos respecto al resto del grupo, es recomendable utilizar la mediana o la moda. (Porque dadas las caractersticas de la media, esta es afectada por los valores extremos). La media, el mejor dato.

1.1.3 MEDIDAS DE POSICIN cuartiles Tanto las medidas de tendencia central como de dispersin en ocasiones son insuficientes sobre todo cuando en ocasiones deseamos presentar el anlisis con respecto a la posicin que ocupa la informacin que para nosotros resulta relevante, as por ejemplo, podemos hablar de dividir la informacin a la mitad, realizado por la mediana, en cuatro parte, en cinco, en diez o quiz en otro tipo de divisiones. A continuacin se presentan algunas medidas conocidas como de posicin. Cuartiles para datos agrupados en clases. Si la informacin la dividimos en cuatro partes iguales entonces a estas divisiones les llamaremos cuartiles o cuartillas, aunque es ms comn el primer nombre. Dividiendo la informacin tenemos:

Lo cuartiles son representados como . El primer cuartil considera el 25% de la informacin a su izquierda y el 75% a la derecha; para el segundo cuartil considera el 50% de la informacin tanto a la derecha como a la izquierda, este coincide con la mediana; el tercer cuartil considera el 75% de la informacin a la izquierda y el 75% a la derecha. El cuarto cuartil, que no fue indicado en el grfico considera a toda la informacin. Por lo anterior podemos afirmar que los cuartiles son tres valores que dividen a la serie de datos en cuatro partes iguales, como se puede apreciar el grfico. El clculo para los cuartiles se determina a travs de la siguiente expresin:

Donde: K Orden del cuartil Lmite inferior del intervalo que contiene al cuartil Frecuencia acumulada considerada al intervalo donde se encuentra

Frecuencia del intervalo que contiene el cuartil N A Nmero de mediciones Amplitud del intervalo

Considere el siguiente ejemplo: Un reporte de laboratorio indica el nmero de pacientes que en los primeros 100 das del ao recibieron peticiones por parte de una clnica, de reportes clnicos para realizar estudios de glucosa. Intervalos Promedio Nmero de Frecuencia de pacientes acumulada das 5 14.5 24.5 34.5 44.5 54.5 64.5 74.5 84.5 94.5 5 6 8 8 4 5 7 8 4 8 5 11 19 27 31 36 43 51 5 63

1 da a 9 das 10 da a 19 das 20 da a 29 das 30 da a 39 das 40 da a 49 das 50 da a 59 das 60 da a 69 das 70 da a 79 das 80 da a 89 das 90da a 100 das

Nota: Veremos que el primer cuartil se localiza en la clase marcada en color La clase donde se ubica el segundo cuartil est marcado por El tercer cuartil est marcado por El nmero de datos a considerar son 63 pacientes.

Para la obtencin del primer cuartil tenemos k=1, obteniendo:

Lo que representa que el primer cuartil se encuentre en la tercera clase, sus datos estn dados como Por lo que el primer cuartil es igual a

Lo que indica que 25 % de los pacientes fueron mandados a valoracin de glucosa en 25.34 das y el 75% de los pacientes atendidos lo hicieron despus de 25.34 das. Ntese que la consideracin para elegir la consideracin del primer cuartir se hizo considerando la frecuencia acumulada y de esta manera de localizar para el resto. Cuartiles para datos no agrupados La forma de calcular los cuartiles cuando los datos no estn agrupados se da a travs del siguiente concepto. Para un nmero de n observaciones en el que los datos no son representados en clases, una vez ordenados los datos la posicin de los cuartiles se pueden localizar de la siguiente forma:

Es importante considerar que si el clculo no corresponde con la posicin exacta entonces se usa interpolacin lineal. En el caso en que la posicin no corresponda exactamente con la posicin la interpolacin se realiza de la siguiente forma:

donde Ejemplo. Consideremos las siguientes tabla de temperaturas reportadas en un experimento: 25 C 28 C 25 C 26 C 28 C 28 C 35 C 32 C 31 C 31 C 32 C 27 C 25 C 29 C 26 C 28 C 27 C 28 C 30 C 30 C 31 C 31 C 30 C 31 C La posicin del primer cuartil es: Ordenando los datos tenemos: 25, 25, 25, 26, 26, 27, 27, 28, 28, 28, 28, 28, 29, 30, 30, 30, 31, 31, 31, 31, 31, 32, 32, 35

lo que significa que el primer cuartil se encuentra entre la posicin 6 y 7, como en este caso el nmero es el mismo entonces por lo que el primer cuartil es igual

a Deciles Una de las divisiones que encontr gran aplicacin dentro de algunas reas, tales

como la biologa, la psicologa o la medicina es la divisin de la informacin de divisiones de 10, como se muestra en el grfico, definiendo esta particin como deciles o decillas, aunque es ms comn utilizar el primero. L a ecuacin para el clculo de los deciles se modifica ligeramente, en la frmula empleada para los cuartiles se cambia cuatro por 10, quedando: por y en la expresin se cambia el

las variables que intervienen tienen el mismo significado que para los deciles. Para el ejemplo anterior, mostrado para el clculo de los cuartiles identifiquemos el cuarto y quinto decil. Para el caso del cuarto decil realicemos:

Recordemos que la identificacin para localizar los cuartiles se realiz sobre la frecuencia acumulada, en este caso tambin se realizara de manera similar, inclusive es conveniente mencionar que en varias aplicaciones, por ejemplo en anlisis realizados por pediatras las tablas de crecimiento se realizan sobre la ojiva o grfica de frecuencia cumulada.

Centiles y percentiles Podemos construir la generalizacin de la frmula anterior para consideraciones de la muestra en 100 partes iguales; con lo que la expresin a considerar es

la generalizacin para m divisiones de la informacin de puede dar como:

sin embargo, la mayor aplicacin la tienen los cuartiles, deciles y centiles.

1.1.4 MEDIDAS DE DISPERSIN. Las medidas de dispersin nos informan sobre cunto se alejan del centro los valores de la distribucin. Las medidas de dispersin son: *Rango o recorrido El rango es la diferencia entre el mayor y el menor de los datos de una distribucin estadstica. *Desviacin media La desviacin respecto a la media es la diferencia entre cada valor de la variable estadstica y la media aritmtica. Di = x - x La desviacin media es la media aritmtica de los valores absolutos de las desviaciones respecto a la media. La desviacin media se representa por

Ejemplo Calcular la desviacin media de la distribucin: 9, 3, 8, 8, 9, 8, 9, 18

*Desviacin media para datos agrupados Si los datos vienen agrupados en una tabla de frecuencias, la expresin de la desviacin media es:

Ejemplo Calcular la desviacin media de la distribucin: xi [10, 15) [15, 20) [20, 25) [25, 30) [30, 35) 12.5 17.5 22.5 27.5 32.5 fi 3 5 7 4 2 21 xi f i 37.5 87.5 157.5 110 65 457.5 |x - x| 9.286 4.286 0.714 5.714 10.174 |x - x| fi 27.858 21.43 4.998 22.856 21.428 98.57

*Varianza La varianza es la media aritmtica del cuadrado de las desviaciones respecto a la media de una distribucin estadstica. Para simplificar el clculo de la varianza vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.

(Y) puede ser (X) o cualquier ultima letra del abecedario W,Z,etc.

Ejercicios de varianza Calcular la varianza de la distribucin: 9, 3, 8, 8, 9, 8, 9, 18

-1

Propiedades de la varianza 1 La varianza ser siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales. 2 Si a todos los valores de la variable se les suma un nmero la varianza no vara. 3 Si todos los valores de la variable se multiplican por un nmero la varianza queda multiplicada por el cuadrado de dicho nmero. 4 Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular la varianza total. Observaciones sobre la varianza 1 La varianza, al igual que la media, es un ndice muy sensible a las puntuaciones extremas. 2 En los casos que no se pueda hallar la media tampoco ser posible hallar la varianza. 3 La varianza no viene expresada en las mismas unidades que los datos, ya que las desviaciones estn elevadas al cuadrado. *Desviacin tpica o estandar La desviacin tpica es la raz cuadrada de la varianza. Es decir, la raz cuadrada de la media de los cuadrados de las puntuaciones de desviacin. Para simplificar el clculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.

Ejercicios de desviacin tpica Calcular la desviacin tpica de la distribucin: 9, 3, 8, 8, 9, 8, 9, 18

-1

Propiedades de la desviacin tpica 1 La desviacin tpica ser siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales. 2 Si a todos los valores de la variable se les suma un nmero la desviacin tpica no vara. 3 Si todos los valores de la variable se multiplican por un nmero la desviacin tpica queda multiplicada por dicho nmero. 4 Si tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaciones tpicas se puede calcular la desviacin tpica total.

1.1.5.- MEDIDAS DE FORMA. Medidas de forma: Son indicadores estadsticos que permiten identificar si una distribucin de frecuencia presenta uniformidad. Existen dos tipos de medidas de forma: a)Asimetria b)Curtosis a) ASIMETRA Es una medida de forma de una distribucin que permite identificar y describir la manera como los datos tiende a reunirse de acuerdo con la frecuencia con que se hallen dentro de la distribucin. Permite identificar las caractersticas de la distribucin de datos sin necesidad de generar el grfico. *TIPOS DE ASIMETRA: -Asimetra Negativa o a la Izquierda.- Se da cuando en una distribucin la minora de los datos est en la parte izquierda de la media. Este tipo de distribucin presenta un alargamiento o sesgo hacia la izquierda, es decir, la distribucin de los datos tiene a la izquierda una cola ms larga que a la derecha. Tambin se dice que una distribucin es simtrica a la izquierda o tiene sesgo negativo cuando el valor de la media aritmtica es menor que la mediana y ste valor de la mediana a su vez es menor que la moda, en smbolos Nota: Sesgo es el grado de asimetra de una distribucin, es decir, cunto se aparta de la simetra. -Simtrica.- Se da cuando en una distribucin se distribuyen aproximadamente la misma cantidad de los datos a ambos lados de la media aritmtica. No tiene alargamiento o sesgo. Se representa por una curva normal en forma de campana llamada campana de Gauss.Tambin se dice que una distribucin es simtrica cuando su media aritmtica, su mediana y su moda son iguales, en smbolos Md=Mo -Asimetra Positiva o a la Derecha.- Se da cuando en una distribucin la minora de los datos est en la parte derecha de la media aritmtica. Este tipo de distribucin presenta un alargamiento o sesgo hacia la derecha, es decir, la distribucin de los datos tiene a la derecha una cola ms larga que a la izquierda. Tambin se dice que una distribucin es simtrica a la derecha o tiene sesgo positivo cuando el valor de la media aritmtica es mayor que la mediana y ste a valor de la mediana a su vez es mayor que la moda, en smbolos

b) CURTOSIS O APUNTAMIENTO La curtosis mide el grado de agudeza o achatamiento de una distribucin con relacin a la distribucin normal, es decir, mide cun puntiaguda es una distribucin.

*TIPOS DE CURTOSIS Leptocrtica.- Existe una gran concentracin. Mesocrtica.- Existe una concentracin normal. Platicrtica.- Existe una baja concentracin.

Frmula: K = (x-a).f / s-3 Donde a: media aritmtica de la variable x s: desviacin estndar de la variable x fi: frecuencia absoluta Si K>0 decimos que los datos son leptocrticos (ms elevados que la curva Normal) Si K=0 decimos que los datos son mesocrticos (igual de elevados que la curva Normal) Si K<0 decimos que los datos son platicrticos (menos elevados que la curva Normal).

1.2 DATOS AGRUPADOS. Los datos agrupados son un conjunto de informacin con un patrn establecido de dichos datos para la facilitacin del manejo de los mismos. Los datos se agrupan en clases con el fin de sintetizar, resumir, condensar o hacer que la informacin obtenida de una investigacin sea con mayor facilidad, para que sean datos agrupados tienes que contarlos y clasificarlos. Su fin es resumir la informacin. Generalmente, los elementos son de mayor tamao, por lo cual requieren ser agrupados, esto implica: ordenar, clasificar y expresar los en una tabla de frecuencias. Se agrupa a los datos, si se cuenta con 20 o ms elementos. Aunque contemos con ms de 20 elementos, debe de verificarse que los datos n sean significativos, Esto es: que la informacin sea repetitiva, tambin debemos de verificar que los datos puedan clasificarse. Antes de pasar a definir cul es la manera de determinar las caractersticas de inters (media, mediana, moda, varianza, desviacin estndar, etc.) cuando se han agrupado en clases los datos de la muestra, es necesario que sepamos como se agrupan los datos. Pasos para agrupar datos. a. Determinar el rango o recorrido de los datos. Los datos agrupados significan que hay menos datos con los cuales trabajar y mis estadsticas sern aproximadas. Los datos agrupados se refieren al hecho de que estn ordenados, clasificados y contados. Para agrupar u organizar un conjunto de datos se construye una tabla llamada tabla de frecuencias o distribucin de frecuencias simple. La Frecuencia es indispensable en los datos agrupados ya que una vez terminada la tabulacin, se cuentan los elementos que contiene cada clase o categora y se anota el valor en otra columna que se denomina frecuencia. As, la frecuencia es el nmero de elementos que contiene cada clase o categora en un conjunto de datos. Es decir, son datos agrupados cuando tienen FRECUENCIA (quiere decir que estn contados y clasificados y DATOS NO AGRUPADOS cuando no tienen frecuencia o que no estn contabilizados o clasificados.

1.2.1 TABLA DE FRECUENCIA. La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numrico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el nmero de veces que aparece, es decir, su Frecuencia. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos. En variables cuantitativas se distinguen por otra parte la frecuencia simple y la frecuencia acumulada. La tabla de frecuencias puede representarse grficamente en un histograma (Diagrama De Barras). Normalmente en el eje vertical se coloca las frecuencias y en el horizontal los intervalos de valores. La distribucin de frecuencias o tabla de frecuencias es una ordenacin en forma de tabla de los datos estadsticos, asignando a cada dato su frecuencia correspondiente. Sugerencias para la construccin de la tabla de distribucin de frecuencias. La construccin de una tabla de frecuencias para datos cuantitativos presenta como su punto de mayor importancia la determinacin del nmero de intervalos (clases) que la conformaran. Este nmero depende de la cantidad y de la naturaleza de los datos a resumir y del propsito que se busca con el resumen. A continuacin se presentan ciertas pautas para la construccin de una tabla de frecuencias. 1. El nmero de intervalos debe escogerse de acuerdo con el nmero de datos. 2. Una vez escogido el nmero de intervalos, se determina la longitud que deben tener los intervalos, dividiendo el rango en el nmero de clases o intervalos. rango/Nmero de clases. 3. El primer intervalo debe contener el menor de los datos y el ltimo el mayor.

1.2.2 MEDIDAS DE TENDENCIA CENTRAL. Las medidas de tendencia central (media, mediana y moda) sirven como puntos de referencia para interpretar las calificaciones que se obtienen en una prueba. El propsito de las medidas de tendencia central es: Mostrar en qu lugar se ubica la persona promedio o tpica del grupo. Sirve como un mtodo para comparar o interpretar cualquier puntaje en relacin con el puntaje central o tpico. Sirve como un mtodo para comparar el puntaje obtenido por una misma persona en dos diferentes ocasiones. Sirve como un mtodo para comparar los resultados medios obtenidos por dos o ms grupos. Las medidas de tendencia central ms comunes son: La media aritmtica: comnmente conocida como media o promedio. Se representa por medio de una letra M o por una X con una lnea en la parte superior. La mediana: la cual es el puntaje que se ubica en el centro de una distribucin. Se representa como Md. La moda: que es el puntaje que se presenta con mayor frecuencia en una distribucin. Se representa Mo. Cmo calcular, la media, la moda y la mediana Media aritmtica o promedio Es aquella medida que se obtiene al dividir la suma de todos los valores de una variable por la frecuencia total. En palabras ms simples, corresponde a la suma de un conjunto de datos dividida por el nmero total de dichos datos.

Ejemplo 1: En matemticas, un alumno tiene las siguientes notas: 4, 7, 7, 2, 5, 3 n = 6 (nmero total de datos)

La media aritmtica de las notas de esa asignatura es 4,8. Este nmero representa el promedio.

Ejemplo 2: Cuando se tienen muchos datos es ms conveniente agruparlos en una tabla de frecuencias y luego calcular la media aritmtica. El siguiente cuadro con las medidas de 63 varas de pino lo ilustra. Largo (en m) Frecuencia absoluta Largo por Frecuencia absoluta 5 6 7 8 9 10 15 20 12 6 Frecuencia total = 63 5 6 7 8 9 430 . . . . . 10 = 50 15 = 90 20 = 140 12 = 96 6 = 54

Se debe recordar que la frecuencia absoluta indica cuntas veces se repite cada valor, por lo tanto, la tabla es una manera ms corta de anotar los datos (si la frecuencia absoluta es 10, significa que el valor a que corresponde se repite 10 veces). *Moda (Mo) Es la medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos; o sea, cual se repite ms. Ejemplo 1: Determinar la moda en el siguiente conjunto de datos que corresponden a las edades de nias de un Jardn Infantil. 5, 7, 3, 3, 7, 8, 3, 5, 9, 5, 3, 4, 3 La edad que ms se repite es 3, por lo tanto, la Moda es 3 (Mo = 3) Ejemplo 2: 20, 12, 14, 23, 78, 56, 96 En este conjunto de datos no existe ningn valor que se repita, por lo tanto, este conjunto de valores no tiene moda. *Mediana (Med) Para reconocer la mediana, es necesario tener ordenados los valores sea de mayor a menor o lo contrario. Usted divide el total de casos (N) entre dos, y el valor resultante corresponde al nmero del caso que representa la mediana de la distribucin. Es el valor central de un conjunto de valores ordenados en forma creciente o decreciente. Dicho en otras palabras, la Mediana corresponde al valor que deja igual nmero de valores antes y despus de l en un conjunto de datos agrupados. Segn el nmero de valores que se tengan se pueden presentar dos casos: Si el nmero de valores es impar, la Mediana corresponder al valor central de dicho conjunto de datos. Si el nmero de valores es par, la Mediana corresponder al promedio de los dos valores centrales (los valores centrales se suman y se dividen por 2). Ejemplo 1: Se tienen los siguientes datos: 5, 4, 8, 10, 9, 1, 2

Al ordenarlos en forma creciente, es decir de menor a mayor, se tiene: 1, 2, 4, 5, 8, 9, 10 El 5 corresponde a la Med, porque es el valor central en este conjunto de datos impares. Ejemplo 2: El siguiente conjunto de datos est ordenado en forma decreciente, de mayor a menor, y corresponde a un conjunto de valores pares, por lo tanto, la Med ser el promedio de los valores centrales. 21, 19, 18, 15, 13, 11, 10, 9, 5, 3

1.2.3 MEDIDAS DE DISPERCION. Las medidas de dispersin nos informan sobre cunto se alejan del centro los valores de la distribucin. Las medidas de dispersin son: *Rango o recorrido El rango es la diferencia entre el mayor y el menor de los datos de una distribucin estadstica. *Desviacin media La desviacin respecto a la media es la diferencia entre cada valor de la variable estadstica y la media aritmtica. Di = x x La desviacin media es la media aritmtica de los valores absolutos de las desviaciones respecto a la media. La desviacin media se representa por *Varianza La varianza es la media aritmtica del cuadrado de las desviaciones respecto a la media de una distribucin estadstica. .

*La desviacin tpica es la raz cuadrada de la varianza. Es decir, la raz cuadrada de la media de los cuadrados de las puntuaciones de desviacin. Para simplificar el clculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.

EQUIPO #1 ING.INDUSTRIAL

También podría gustarte