Unidad I.

Conceptos Básicos y Estadística Descriptiva
Prof. Eliana Guzmán U. Semestre B-2010

Concepto de Estadística

Se refiere a un conjunto de métodos para manejar la obtención, presentación y análisis de observaciones numéricas.

Tema 1. Introducción

Concepto de Estadística

Sus fines son describir al conjunto de datos obtenidos y tomar decisiones o realizar generalizaciones acerca de las características de todas las observaciones bajo consideración.

Tema 1. Introducción

Áreas que conforman a la Estadística  Estadística Descriptiva (Deductiva): es la encargada de la organización. Introducción . DESCRIBIR Tema 1. presentación de los datos en tablas y gráficos y del cálculo de medidas numéricas que permitan estudiar los aspectos más importantes de los datos. condensación.

INFERIR Tema 1. Introducción .Áreas que conforman a la Estadística  Estadística Inferencial o Inferencia Estadística: está definida por un conjunto de técnicas. mediante las cuales se hacen generalizaciones o se toman decisiones en base a información parcial obtenida mediante técnicas descriptivas.

Tema 1. Introducción . Resulta difícil nombrar un área en la cual no se emplee.Áreas de Aplicación de la Estadística   El uso de la Estadística es muy amplio. Los métodos estadísticos han encontrado aplicación en:         Gobierno Negocios Ciencias Sociales Ingeniería Ciencias Física y Naturales Control de Calidad Procesos de Manufactura Muchos otros campos de la actividad intelectual.

Introducción . debido al uso de … Tema 1.Áreas de Aplicación de la Estadística  Esto se debe a la creciente facilidad con la cual se pueden manejar grandes cantidades de datos numéricos.

Introducción . Tema 1.Conceptos de Población y Muestra  Población: es la colección de todas las posibles mediciones u observaciones que pueden hacerse de una variable bajo estudio.

individuos o medidas. Tema 1. Siempre que sea posible alcanzar (contar) el número total de todas las posibles mediciones. Introducción . se considera como finita la población.Conceptos de Población y Muestra  Se clasifica en dos categorías:  Finita: es aquella que incluye una cantidad limitada contable de observaciones.

Al menos. no existe límite en cuanto al número de observaciones que el experimento puede generar. Introducción . hipotéticamente.Conceptos de Población y Muestra  Infinita: es aquella que incluye un gran conjunto de observaciones o mediciones que no pueden alcanzarse por conteo. Tema 1.

Tema 1.  es un subconjunto de la población.Conceptos de Población y Muestra  Muestra:  es un conjunto de mediciones u observaciones tomadas a partir de una población. Introducción .

Conceptos de Población y Muestra  Muestra aleatoria: se considera aleatoria siempre y cuando cada observación. Tema 1. medición o individuo de la población tenga la misma probabilidad de ser seleccionado. Introducción .

Tipos de datos y escalas de medida  Variables:  son las características o lo que se estudia de cada individuo de la muestra. cantidad de nacimientos. edad. estatura. Tema 1.. grosor. diámetro. Ej: sexo. temperatura. presión. peso. . color de ojos. estado civil.. Introducción  Datos:  son . los valores que toma la variable en cada caso.

Ej:      Sexo: f/m. clasificándolos en una de varias categorías. es decir. azul. evangélica.… Tema 1. no son valores numéricos. … Religión: católica. … Estado civil: soltero.Tipos de datos  Cualitativos: son datos que solo toman valores asociados a las cualidades o atributos. divorciado. marrón. casado. Introducción . Hábito de fumar: Fumador/No fumador Color de ojos: negro.

Ejemplos:        Peso Edad Estatura Presión Humedad Intensidad de un sismo Cantidad de hermanos Tema 1.Tipos de datos  Cuantitativos: provienen de variables que pueden medirse. Introducción . cuantificarse o expresarse numéricamente.

 Continuas: es la variable que puede tomar cualquier valor en una escala continua. Tema 1.Escalas de medida  Tipos de variables cuantitativas:  Discretas: es aquella que solo puede tomar un número finito o infinito numerable de valores. Ejemplo: cantidad de líquido contenido en un recipiente. Ejemplo: cantidad de hermanos. Introducción .

Variables Cuantitativas Absoluta. Variables Cualitativas Ordinal.Escalas de medida      Escala Escala Escala Escala Escala Nominal. Tema 1. de Razón o Proporción. Introducción . de Intervalos.

Introducción . por lo tanto no están definidas las operaciones lógicas (>. <. Ejemplos: color de ojos. profesión. religión. estado civil.Escalas de medida   Escala nominal: los datos se pueden agrupar en categorías que no mantienen una relación de orden entre si. Tema 1. ≤ . sexo. ≥ ) sino solo las de igualdad o diferencia.

Introducción . estadiaje de un tumor. ≥ ). grados de disnea. organigrama de una empresa. <. Tema 1.Escalas de medida   Escala ordinal: existe un cierto orden o jerarquía entre las categorías (>. Ejemplos: grados militares. escalafón de los profesores universitarios. ≤ .

Tema 1. ≥ ). Existe un valor patrón u origen relativo que no significa la ausencia de valor en la variable. tienen sentido las operaciones de suma y resta. se pueden establecer distancias. Introducción . Tiene dos propiedades:   Existe una unidad de medida que se mantiene constante para todos los valores que toma la variable. es decir. ≤ . <.Escalas de medida  Escala de Intervalos: valores numéricos de las variables y además de las relaciones de orden (>.

Tema 1. nivel de ruido.Escalas de medida  Ejemplo: temperatura. movimientos sísmicos. Introducción .

<. Introducción . Se caracteriza porque los valores de la variable son números entre los cuales. además de las relaciones de orden (>. ≤ .-).Escalas de medida   Escala de razón o proporción: es la más completa y general de todas las escalas. Ejemplos: peso. se pueden establecer múltiplos y proporciones. altura. volumen… Tema 1. ≥ ) y distancia (+.

cantidad de autos vendidos.… Tema 1. cantidad de hijos. Introducción .Escalas de medida   Escala Absoluta: se caracteriza porque los valores que toma la variable son el resultado de contar y por lo tanto. Ejemplos: número de hermanos. está constituida por los enteros positivos y el cero. cantidad de accidentes en una intersección.

Datos Univariantes y Multivariantes   Univariantes o unidimensionales: sólo recogen información sobre una característica (Ej: edad de los alumnos de una clase). (Ej: edad y estatura de los alumnos de una clase). Introducción . Tema 1. Bivariantes o bidimensionales: recogen información sobre dos características de la población.

estatura y peso de los alumnos de una clase). Introducción . Tema 1.Datos Univariantes y Multivariantes  Multivariantes o pluridimensionales: recogen información sobre tres ó más características. (Ej: edad.

Representaciones gráficas engañosas (escalas). Introducción . Ciertas categorías de personas no responden correctamente.Abusos que se pueden cometer con la Estadística    Conclusiones erróneas debido a que los datos son numéricamente insuficientes. Respuestas voluntarias (sesgadas). Datos muestrales no representativos:    Muestra que no incluye a elementos de toda la población. Tema 1.

TEMA 2. ESTADÍSTICA DESCRIPTIVA .

Organización de los datos  Una vez que se ha realizado la recolección de los datos. Estadística Descriptiva . Tema 2. se obtienen datos en bruto. los cuales rara vez son significativos sin una organización y tabulación.

Tema 2. consiste en colocar las observaciones en orden según su magnitud: ascendente o descendente. Poco práctica cuando se tiene una gran cantidad de datos.Organización de los datos  Formas de organizar los datos:   Un arreglo: es la forma más sencilla de organizar los datos en bruto. Estadística Descriptiva .

mostrando el patrón de la distribución de manera más significativa. Medio fi Fi fri FRi . Tema 2.Organización de los datos  Una distribución de frecuencias: es un arreglo de los datos que permite expresar la frecuencia de ocurrencias de las observaciones en cada una de las clases. Estadística Descriptiva Clase Pto.

 Para definir la cantidad de intervalos de clase (k).Organización de los datos  La Distribución de Frecuencias:  Se recomienda su uso cuando se tienen grandes cantidades de datos (n).  Su construcción requiere. la selección de los límites de los intervalos de clase. en primer lugar.3log(n)  k = √n  Tema 2. se puede usar: La regla de Sturges: k = 1 + 3. Estadística Descriptiva .

Tema 2. que la verdadera naturaleza de la distribución sea imposible de visualizar. Los límites de las clases deben tener una cifras significativas más que los datos en bruto. Estadística Descriptiva . Se recomienda que sea impar y que los puntos medios tengan la misma cantidad de cifras significativas que los datos en bruto. La amplitud de todas las clases deberá ser la misma.Organización de los datos    La cantidad de clases no puede ser tan pequeño (menos de 5) o tan grande (más de 20).

Organización de los datos  Determinar: Punto medio = (Li+Ls)/2. Frecuencia relativa de la clase (fri):  fri = fi/n  Frecuencia relativa acumulada de la clase (FRi). .  Frecuencia absoluta de la clase (fi). Estadística Descriptiva Frecuencia acumulada de la clase (Fi).    Tema 2.

Estadística Descriptiva .Ejemplos de Distribución de Frecuencias A continuación se presentan las calificaciones de 60 estudiantes que presentaron la PINA en el año 2009: Tema 2.

Ejemplos de Distribución de Frecuencias 23 80 52 41 60 34 60 77 10 71 78 67 79 81 64 83 89 17 32 95 75 54 76 82 57 41 78 64 84 69 74 65 25 72 48 74 52 92 80 88 84 63 70 85 98 62 90 80 82 55 81 74 15 85 36 76 67 43 79 61 a) Construya una distribución de frecuencias. b) Qué puede concluir de estos datos. .

Para datos cuantitativos agrupados en clases. Polígono de frecuencias.Representación gráfica de los datos   Los gráficos permiten visualizar en forma global y rápida el comportamiento de los datos. . Ojiva o Polígono de frecuencias acumuladas. Estadística Descriptiva Histogramas. comúnmente se utilizan tres gráficos:    Tema 2.

Representación gráfica de los datos Histograma .

Representación gráfica de los datos Tema 2. Estadística Descriptiva Histograma y Polígono de Frecuencias .

Representación gráfica de los datos Tema 2. Estadística Descriptiva Ojiva .

Estadística Descriptiva .Representación gráfica de los datos  Para datos cualitativos se usan:  Curvas  Barras  Sectores Tema 2.

Representación gráfica de los datos Barras Barras .

Representación gráfica de los datos Curvas .

Estadística Descriptiva .Representación gráfica de los datos Sectores. torta o circular Tema 2.

Ejemplos de construcción de gráficos Tema 2. Estadística Descriptiva .

Tema 2. Forma como los datos pueden condensarse en un solo valor central alrededor del cual todos los datos muestrales se distribuyen. Estadística Descriptiva .Medidas de tendencia central o posición   Corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos.

 Mediana.  Moda. Estadística Descriptiva . Tema 2.Medidas de tendencia central o posición  Las medidas de tendencia central más importantes son:  Media: Aritmética y Aritmética ponderada.

(wikipedia) Tema 2. podemos decir que la media aritmética es la cantidad total de la variable distribuida a partes iguales entre cada observación. Es decir. Expresada de forma más intuitiva. si en una habitación hay tres personas.Media Aritmética    Es la suma de todas las observaciones dividida entre el número total de observaciones. (wikipedia) Por ejemplo. Estadística Descriptiva . la media de dinero que tienen en sus bolsillos sería el resultado de tomar todo el dinero de los tres y dividirlo a partes iguales entre cada uno de ellos. la media es una forma de resumir la información de una distribución (dinero en el bolsillo) suponiendo que cada observación (persona) tendría la misma cantidad de la variable.

Estadística Descriptiva n Para datos agrupados: X= ∑m f i =1 k i i n Donde: mi: punto medio de la clase i fi: frecuencia absoluta de la clase i k: cantidad de clases .Cálculo de la media aritmética  Para datos no agrupados: X=  ∑x i =1 n i Tema 2.

Divide al conjunto de datos en dos partes iguales. Estadística Descriptiva . una vez que han sido ordenados en forma ascendente o descendente.Mediana   Es el valor que ocupa la posición central de un conjunto de observaciones. Tema 2.

Cálculo de la mediana

Para datos no agrupados:
 Si

n es impar: posición donde se ubica la mediana es igual a (n+1)/2.  Si n es par: (n+1)/2 no es entero, por lo tanto la mediana será igual al promedio de las dos posiciones centrales.

Tema 2. Estadística Descriptiva

Cálculo de la mediana

Datos agrupados: clase mediana es la que contiene a la observación que ocupa la posición n/2.
n +1 − F ( xm −1 ) Md = Lm + 2 Cm f ( xm )
Donde: Lm: límite inferior de la clase mediana. F(xm ): frecuencia acumulada de la clase -1 anterior a la clase mediana. f(xm): frecuencia absoluta de la clase mediana. Cm: amplitud de la clase mediana.

Tema 2. Estadística Descriptiva

Moda

Observación o clase que tiene la mayor frecuencia en un conjunto de observaciones. Un conjunto de datos puede ser unimodal, bimodal o multimodal. Es la única medida de tendencia central que se puede determinar para datos de tipo cualitativo.

Tema 2. Estadística Descriptiva

∆ 2: diferencia entre fi de la clase modal y la posterior. ∆ 1: diferencia entre fi de la clase modal y la anterior. Estadística Descriptiva ∆1 Mo = Lim + Cm ∆1 + ∆ 2 Donde: Lim: límite inferior de la clase modal.Cálculo de la moda   Para datos no agrupados: es simplemente la observación que más se repite. Para datos agrupados: Tema 2. Cm: amplitud de la clase modal (clase de mayor frecuencia). .

Relación entre la media, la mediana y la moda

Tema 2. Estadística Descriptiva

Cuando los datos son sesgados es mejor emplear la Md

Propiedades, ventajas y desventajas de la media
Propiedades:  La suma de las diferencias entre las media muestral y el valor de cada observación es cero.  La media de una constante es la constante.  Si todas las observaciones x se i multiplican por una constante a, la X también se debe multiplicar por ese mismo valor constante.

Tema 2. Estadística Descriptiva

Propiedades, ventajas y desventajas de la media

Si se somete a una variable estadística X a un cambio de origen y escala, Y = a + bX, la media aritmética de dicha variable X varía en la misma proporción. La media de la suma de dos variables es igual a la suma de sus medias.

Tema 2. Estadística Descriptiva

 Es una valor único.  Se expresa en las mismas unidades que la variable en estudio. Tema 2. representando a todos los valores observados. Estadística Descriptiva . ventajas y desventajas de la media Ventajas:  Emplea en su cálculo toda la información disponible.Propiedades.  Es el centro de gravedad de toda la distribución.

Estadística Descriptiva . Tema 2. ventajas y desventajas de la media   Se trata de un concepto familiar para la mayoría de las personas.Propiedades. Es útil para llevar a cabo procedimientos estadísticos como la comparación de medias de varios conjuntos de datos.

 No se puede calcular para datos cualitativos. ventajas y desventajas de la media Desventajas:  Se ve adversamente afectada por valores extremos.  Si el conjunto de datos es muy grande puede ser tedioso su cálculo manual.Propiedades. Estadística Descriptiva .  No se puede calcular para datos que tengan clases de extremo abierto. tanto superior como inferior. Tema 2. perdiendo representatividad.

ya que solo influyen los valores centrales.  Fácil de entender. Tema 2.  No se ve influenciada por valores extremos. Estadística Descriptiva .Ventajas y desventajas de la mediana Ventajas:  Fácil de calcular si el número de observaciones no es muy grande.

incluso los datos con clase de extremo abierto.Ventajas y desventajas de la mediana   Se puede calcular para cualquier tipos de datos cuantitativos. Estadística Descriptiva . Es la medida de tendencia central más representativa en el caso de variables que solo admiten la escala ordinal. Tema 2.

 Hay que ordenar los datos antes de determinarla. Estadística Descriptiva .Ventajas y desventajas de la mediana Desventajas:  No utiliza en su “cálculo” toda la información disponible.  No pondera cada valor por el número de veces que se ha repetido. Tema 2.

 Fácil de interpretar.  Se puede calcular en clases de extremo abierto.  Puede usarse para datos tanto cuantitativos como cualitativos.  No se ve influenciada por valores extremos. Tema 2.Ventajas y desventajas de la moda Ventajas:  No requiere cálculos. Estadística Descriptiva .

Estadística Descriptiva .  No utiliza toda la información disponible. Solo tiene significado en el caso de una gran cantidad de datos. si es que de hecho existe.Ventajas y desventajas de la moda Desventajas:  Para conjuntos pequeños de datos su valor no tiene casi utilidad. Tema 2. si los datos no se repiten.  No siempre existe.

Ventajas y desventajas de la moda   En ocasiones. el azar hace que una sola observación se no representativa se el valor más frecuente del conjunto de datos. Tema 2. Difícil de interpretar si los datos tiene 3 o más modas. Estadística Descriptiva .

variación o variabilidad.Medidas de dispersión.  Son valores numéricos que indican o describen la forma en que las observaciones están dispersas o diseminadas. Tema 2. con respecto al valor central. Estadística Descriptiva .

Medidas de dispersión. Estadística Descriptiva .  Son importantes debido a que dos muestras de observaciones con el mismo valor central pueden tener una variabilidad muy distinta. Tema 2. variación o variabilidad.

variación o variabilidad. Coeficiente de variación.     Rango. Estadística Descriptiva .Medidas de dispersión. Varianza. Tema 2. Desviación Típica.

Estadística Descriptiva . ya que depende solamente de los datos y permite conocer la máxima dispersión.Medidas de dispersión: Rango Rango (amplitud o recorrido):  Está determinado por los dos valores extremos de los datos muestrales. es simplemente la diferencia entre la mayor y menor observación.  Es una medida de dispersión absoluta. Tema 2.

Estadística Descriptiva . No proporciona una medida de variabilidad de las observaciones con respecto al centro de la distribución.Medidas de dispersión: Rango    Casi no se emplea debido a que depende únicamente de dos valores. Notación: R Tema 2.

Notación: s2.xn con respecto a la media. Es el promedio al cuadrado de las desviaciones de cada observación con respecto a la media. σ 2.….Medidas de dispersión: Varianza  Es un valor numérico que mide el grado de dispersión relativa porque depende de la posición de los datos x1. Estadística Descriptiva   . var(X) Tema 2.x2.

Estadística Descriptiva s2 = ∑ ( x − x) n i =1 n i 2 n xi2 ∑ i =1 s = 2 n −x 2 .Medidas de dispersión: Varianza  Si la varianza de un conjunto de observaciones es grande se dice que los datos tiene una mayor variabilidad que un conjunto de datos que tenga un varianza menor. Para datos NO agrupados: Tema 2.

Medidas de dispersión: Varianza Para datos agrupados en una distribución de frecuencias: s2 = ( mi − x ) 2 × f i ∑ i =1 k n mi2 × f i ∑ i =1 k s2 = n − ( x) 2 .

σ . Estadística Descriptiva s= s 2 . Tema 2. Notación: s.Medidas de dispersión: Desviación Típica   Es la raíz cuadrada de la varianza.

Notación: CV Tema 2. No tiene dimensiones. Estadística Descriptiva s CV = ×100% x .Medidas de dispersión: Coeficiente de Variación    Es una medida de dispersión relativa que permite comparar el nivel de dispersión de dos muestras de variables estadísticas diferentes.

 Fácil de calcular. Tema 2. Estadística Descriptiva .Ventajas y Desventajas del Rango Ventajas:  Útil cuando se quiere conocer la extensión de las variaciones extremas (valor máximo de la dispersión).

Estadística Descriptiva .  No se puede calcular en distribuciones de límite de clase abierto. Tema 2.Ventajas y Desventajas del Rango Desventajas:  No es una MD con respecto al centro de la distribución.  Solo emplea dos valores en su cálculo.

Ventajas y Desventajas de la Varianza Propiedades: 1. Siempre es mayor o igual a cero y menor que infinito. Si a una variable X la sometemos a Y=a+bX. la varianza de Y será Var(Y) = b2Var(X) Tema 2. 2. 3. Estadística Descriptiva .Propiedades. La varianza de una constante es cero.

Estadística Descriptiva .  Utiliza toda la información disponible. Desventajas:  No proporciona ayuda inmediata cuando se estudia la dispersión de un solo conjunto de datos.Propiedades. Tema 2. Ventajas y Desventajas de la Varianza Ventajas:  Es útil cuando se compara la variabilidad de dos o más conjuntos de datos.  Difícil de interpretar por tener sus unidades elevadas al cuadrado.

 Utiliza todas las observaciones en su cálculo. Estadística Descriptiva . Desventajas:  No tiene.  Fácil de interpretar.Ventajas y Desventajas de la Desviación Típica Ventajas:  Esta expresada en las mismas unidades que la variable en estudio. Tema 2.

Ventajas y Desventajas del Coeficiente de Variación Ventajas:  Es la única MD que permite comparar el nivel de dispersión de dos muestras de variables diferentes. Estadística Descriptiva . Tema 2.  Emplea toda la información disponible en su cálculo.  Fácil de calcular.

Tema 2. Estadística Descriptiva .Ventajas y Desventajas del Coeficiente de Variación Desventaja:  No es una MD con respecto al centro de la distribución de los datos.

Medidas de forma -Asimetría Coeficiente de Pearson Coeficiente de Fisher Tema 2.Medidas de Forma  Son medidas numéricas que permiten determinar la forma que tiene la curva de los datos. por lo tanto. sirven para corroborar lo que los gráficos muestran. Estadística Descriptiva -Kurtosis o apuntamiento .

Tema 2. Estadística Descriptiva .Medidas de Forma: Asimetría  Permiten estudiar la forma de la curva. dependiendo de cómo se agrupan los datos.

X>Md Asimétrica Positiva < 0. X=Md Simétrica ASP > 0. Estadística Descriptiva o Interpretación: = 0.Medidas de Forma: Asimetría Coeficiente de Asimetría de Pearson:  Fácil de calcular e interpretar. X<Md Asimétrica Negativa .  Cálculo: 3 X − Md ASP = s ( ) Tema 2.

pero si su interpretación. Estadística Descriptiva ASF = ∑ (x − X ) n i =1 k i 3 ns 3 Datos NO agrupados 3 ASF = ∑ (M i =1 i − x × fi ) ns3 Datos Agrupados . Tema 2.Medidas de Forma: Asimetría Coeficiente de Asimetría de Fisher:  No es de fácil cálculo.

Asimétrica Positiva < 0.Medidas de Forma: Asimetría o Interpretación: = 0. Asimétrica Negativa . Simétrica Tema 2. Estadística Descriptiva ASF > 0.

Se definen tres tipos de distribución según su grado de Kurtosis: Tema 2. Estadística Descriptiva .Medidas de Forma: Kurtosis   Miden si los valores de la distribución están más o menos concentrados alrededor de los valores medios de la muestra (zona central de la distribución).

Estadística Descriptiva . Leptocúrtica: grado de concentración elevado.Medidas de Forma: Kurtosis    Mesocúrtica: grado de concentración medio alrededor de los valores centrales de la variable. Platicúrtica: grado de concentración reducido. Tema 2.

Estadística Descriptiva CK = ∑ (M i =1 i − X × fi ns 4 ) 4 −3 Datos Agrupados Interpretación: =0 Mesocúrtica CK >0 Leptocúrtica <0 Platicúrtica .Medidas de Forma: Kurtosis CK = ∑ (x − X ) n i =1 k i 4 ns 4 −3 Datos No Agrupados Tema 2.

org/wiki/Wikipedia:P ) Walpole y Myers. Pearson. Estadística. . Mario F.Referencias:    Wikipedia( http://es. Mc Graw-Hill. Triola.wikipedia. Probabilidad y Estadística.