Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cátedra: Estadística
UNIDAD 1: ESTADISTICA
Estadística. Su historia.
1) Censos. Babilonia, Egipto y Roma existen registros detallados sobre la población y sus recursos.
2) Carlomagno (762 DC), pidió la descripción detallada de las propiedades de la Iglesia
3) Siglo IX se solicitó la enumeración estadística de los siervos que había en los feudos
4) 1532. Enrique VII se comenzaron a registrar los muertos por la peste
5) En la misma época, en Francia se registraban bautismos, defunciones y matrimonios
6) 1806. Guillermo el Conquistador ordenó que se construyera un registro de la propiedad, extensión y valor de las tierras de Inglaterra.
Hasta aquí sólo eran registros de datos
7) 1662. John Graunt utilizó 30 años de listados para hacer predicciones sobre por ejemplo el N° de personas que morirían a causa de una determinada
enfermedad. Este fue uno de los primeros análisis estadísticos
1
Apuntes de Estadística
Definición: La estadística se puede definir como la ciencia que recopila, organiza, analiza e interpreta la información cuantitativa o cualitativa, mejor conocida
como datos, de manera que pueda llevar a conclusiones válidas.
Si usted no puede controlar algo, usted debe aprender cómo medirlo y analizarlo, para predecirlo con eficacia.
Subdivisiones de la Estadística
Estadística Descriptiva: es una parte de la estadística que se dedica a analizar y representar los datos.
Teoría de la Probabilidad: Probar. Origen en los juegos de azar. Trata de los fenómenos del azar en los que se desea saber la probabilidad de un resultado en
una prueba experimental
Estadística Inferencial: Es el conjunto de métodos estadísticos que sirven para realizar generalizaciones sobre una población a partir de los datos tomados de
una muestra.
Población: conjunto de total de elementos en discusión y sobre los cuales se quiere tener información.
2
Apuntes de Estadística
- Aleatoriedad: cada elemento de la población debe tener la misma posibilidad de ser elegido. Solo si satisface este requisito los métodos estadísticos
serán razonables.
- Independencia: la probabilidad de que cualquier miembro de la población aparezca en la muestra, no depende de la aparición de los otros miembros de
la población en la muestra.
Dato: es una información cuantitativa, numérica. Estos números son datos estadísticos siempre que puedan ser comparados, analizados e interpretados
Un dato estadístico tiene una estructura tripartita compuesta de: unidades de análisis, variables y valores.
- unidad de análisis: son los elementos sobre los cuales se focaliza el estudio, es decir, es el objeto de estudios. Por ejemplo: personas, instituciones,
hogares, etc.
- Variables: son las características que sintetizan o abrevian conceptualmente lo que se desea conocer acerca de las unidades de análisis. Ejemplo:
edad, genero, estudios cursados, estatura, etc.
- Valores: son modalidades o valores numéricos que alcanzan las variables que se han elegido para decir algo sobre las unidades de análisis. Lo que
medimos no es la unidad de análisis sino una característica de la misma.
Variable: Cualquier característica que varía de una unidad experimental a otra en la población o en la muestra.
Variable cualitativa o categórica: se obtiene al observar una característica de un individuo u objeto de estudio, no es numérica.
Por lo general, nos interesa el número o el porcentaje de observaciones de una característica.
Variable cuantitativa, numérica o paramétrica: se obtiene al medir y por lo tanto se expresa con un N° y una unidad de medida.
Hay dos tipos de variables cuantitativas y estas se clasifican en discretas y continuas.
- Discretas: son números enteros, se pueden contar. Ejemplo: cantidad de hijos, etc.
- Continuas: son números reales, pueden tomar cualquier valor dentro de un intervalo específico. Ejemplo: estatura, peso de una persona, etc.
3
Apuntes de Estadística
Escala Nominal: describe una característica expresada en nombre y no puede ordenarse de una forma significativa. Lugar de nacimiento, sexo, religión.
Escala Ordinal: expresa categorías ordenadas por rango. Nivel de formación, nivel socioeconómico.
Escala de intervalo: asigna una medición de distancia entre los valores de una variable. No tiene un cero absoluto sino establecido por convención. No indica
ausencia sino que es una referencia. Coeficiente intelectual, temperatura.
Escala de razón: ídem pero el cero es absoluto Implica ausencia total del aspecto que se está valorando. Peso, estatura, distancia.
4
Apuntes de Estadística
Gráficos: la recopilación de datos y la tabulación pueden traducirse gráficamente mediante representaciones convenientemente elegidas: barras, sectores
circulares, mapas curvas, etc.
Los gráficos permiten visualizar e interpretar el fenómeno que se estudia, en forma más clara.
Características de todos los gráficos:
Título
Nombre y referencias en los ejes
Ordenados de mayor a menor o viceversa
Referencias al costado claras y precisas
Variables Cualitativas: barras verticales, circulares
Variables Cuantitativas: líneas (x es el tiempo), histogramas (intervalos)
Tipos gráficos:
X: variable cualitativa
Y: frecuencia
Y: variable cualitativa
X: frecuencia relativa o porcentaje
Gráficos Circular: para pocos datos, frecuencias relativas o porcentajes. El círculo completo es 360º equivalente al 100%
Gráficos de Líneas:
X: variable tiempo
Y: frecuencia absoluta
5
Apuntes de Estadística
Histograma:
Las barras se utilizan generalmente para representar variables cualitativos o cuantitativos discreto. La longitud es igual a la frecuencia de cada observación.
Pueden ser barras simples o múltiples, según se trate de representar uno o más atributos.
Las barras pueden ser horizontales o verticales.
neutra
negativa
positiva
0 20 40 60
6
Apuntes de Estadística
600
500
400 Industrial
Bancario
300
Adm. Pública
200 Educativo
Comercio
100
0
Enero Febrero Marzo
Los gráficos circulares o gráficos de torta son útiles para comparar datos pues, en general, trabajan con porcentuales. El área de cada sector representa el
porcentaje que corresponde a la frecuencia de un cierto valor de la variable. Esta representación es conveniente cuando el número de sectores es pequeño y
sus áreas están bien diferenciadas.
Evaluación del gobierno X
positiva positiva
negativa negativa
neutra neutra
7
Apuntes de Estadística
Las curvas se utilizan generalmente para representar la variación de una variable a través del tiempo (años, meses, horas, etc.). Sobre el eje horizontal figuran
los períodos de tiempo.
1800
1600
1400 importación
1200 de la
1000 Argentina
800 exportación
600 de la
400 Argentina
200
0
65
66
67
68
69
19
19
19
19
19
Estas son sólo algunas de las formas posibles de graficación y las que encontrarás con más frecuencia.
8
Apuntes de Estadística
Variable Discreta: si los valores que asume se pueden contar. Ejemplos: Cantidad de hijos en una familia. Número de alumnos.
Variable Continua: que pueden asumir cualquier valor dentro de un intervalo, por lo cual tiene un número infinito de valores posibles.
Frecuencia Absoluta (fi): Número de veces que se repite un determinado valor de la variable. La suma de todas las frecuencias absolutas de la tabla da como
resultado el tamaño de la muestra o población.
Frecuencia Relativa (fr): Es el cociente entre la frecuencia absoluta y el tamaño de la muestra o población. fr= fi/N
Frecuencia Absoluta Acumulada (F): es el número de observaciones menores o iguales que un determinado valor de la variable.
Frecuencia Relativa Acumulada (Fr): es la frecuencia relativa acumulada que representa la frecuencia acumulada respecto al total de la población.
DATOS AGRUPADOS:
Amplitud o Recorrido de la Variable: Es la diferencia entre el valor mayor y el valor menor de la variable: R = Xmax – Xmin
Intervalos de clase: Cuando hay muchos datos se subdivide el recorrido en intervalos iguales. Se conviene en definir de 5 a 15 intervalos. Formula: 1 + 3,332 .
log N = K.
Las condiciones son:
Todos los intervalos sean de igual amplitud
Ningún intervalo quede vacío
EJEMPLO:
9
Apuntes de Estadística
Tabla de frecuencias
Variable peso y variable Edad
Variable: peso
Límite Superior: 96
Límite Inferior: 48
Amplitud o Recorrido: 96-48= 48
K = 1 + 3,332 . log N = 1 + 3,332 log 38 = 6,26=6
Amplitud de cada intervalo de clase: 48/6= 8
10
Apuntes de Estadística
11
Apuntes de Estadística
Ejercicio:
Sujeto género Edad Est Coef. Sujeto géner edad Est Coef.
Civil Intel o Civil Intel
1 1 22 2 100 11 1 23 1 100
2 1 20 1 102 12 1 34 1 87
3 1 19 2 79 13 1 45 2 98
4 2 35 2 89 14 2 28 2 99
5 2 47 4 95 15 2 19 3 101
6 2 32 3 102 16 2 27 4 111
7 2 43 2 104 17 1 39 1 109
8 1 34 1 112 18 1 25 2 140
9 2 25 1 135 19 1 27 1 97
10 1 23 1 100 20 1 21 2 99
Referencias:
Género: 1: hombre
2: mujer
Estado Civil: 1: soltero
2: casado
3: separado
4: divorciado
5: viudo
F Fr
Género f fr
2. El gobierno desea averiguar si el número medio de hijos por familia ha descendido respecto de la
década anterior. Para ello ha encuestado a 50 familias respecto al número de hijos, y ha obtenido los
siguientes datos:
2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4
3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1
Se pide:
________________________________________________________________________________________________ 12
Apuntes de Estadística
1,52 1,64 1,54 1,64 1,73 1,55 1,56 1,57 1,58 1,58
1,59 1,53 1,60 1,60 1,61 1,61 1,65 1,63 1,79 1,63
1,62 1,60 1,64 1,54 1,65 1,62 1,66 1,76 1,70 1,69
1,71 1,72 1,72 1,55 1,73 1,73 1,75 1,67 1,78 1,63
a) Armar la tabla con los intervalos correspondientes, completar con las marcas de clase y las frecuencias
correspondientes.
b) Realizar un grafico adecuado para este tipo de variable.
Medidas de posición o de tendencia central: media aritmética, la mediana y la moda. Medidas de posición
no centrales
Al describir grupos de observaciones, con frecuencia se desea describir el grupo con un solo número. Para tal fin,
desde luego, no se usará el valor más elevado ni el valor más pequeño como único representante, ya que solo
representan los extremos más bien que valores típicos. Entonces sería más adecuado buscar un valor central.
Las medidas de tendencia central son aquellas que nos proporcionan información a cerca de la ubicación del
conjunto de datos y son:
Media Aritmética
Es la suma de los valores de un conjunto de observaciones dividido por el número total de observaciones. Puede
ser afectada por valores extremos. Se la llama centro de gravedad de la distribución.
n
Media para serie de datos simples
Xi
X i 1
________________________________________________________________________________________________ 13
Apuntes de Estadística
n
Media para datos agrupados por Xi * fi
frecuencia
X i 1
n
fi
i 1
5. Es la única medida de tendencia central donde la suma de las desviaciones de cada valor respecto a la media
es igual a cero. Por lo tanto podemos considerar a la media como el punto de balance de una serie de datos.
Mediana: Md (o Me)
Es un valor de la variable que divide a un conjunto de observaciones (ordenado de menor a mayor o viceversa)
en dos subconjuntos que contienen la misma cantidad de datos. El valor de la mediana deja por debajo de si al
50% de las observaciones. Es el valor central. Los valores extremos no afectan su valor.
Propiedades de la mediana
Datos no agrupados
________________________________________________________________________________________________ 14
Apuntes de Estadística
Propiedades de la moda
1. La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, intervalar, y de razón).
2. La moda tiene la ventaja de no ser afectada por valores extremos.
3. Al igual que la mediana, puede ser calculada en distribuciones con intervalos abiertos.
Desventajas de la moda
En muchas series de datos no hay moda porque ningún valor aparece más de una vez.
En algunas series de datos hay más de una moda, en este caso uno podría preguntarse ¿cuál es el valor
representativo de la serie de datos?
Para datos agrupados en una distribución de frecuencia, la moda puede ser estimada por la marca de clase del
intervalo que contenga la frecuencia de clase más grande. Si hay dos intervalos contiguos con frecuencia máxima
la moda será la media aritmética de las dos marcas de clase. Si hay dos o más intervalos no contiguos con
frecuencia de clase máxima habrá dos o más modas que serás las marcas de clase de dichos intervalos.
d1
Mo Li * a
d1 d2
________________________________________________________________________________________________ 15
Apuntes de Estadística
Si no hay ningún argumento de peso en contra, se preferirá siempre la media. Hay dos razones para apoyar esta
norma general. La primera es que en ella se basan otros estadísticos y la segunda es que es mejor estimador de
su parámetro que la mediana y la moda.
Hay al menos 3 situaciones en las que se preferirá la mediana a la media:
1. Cuando la variable esté medida en escala ordinal
2. Cuando haya valores extremos que distorsionen la interpretación de la media
3. Cuando haya intervalos abiertos, situaciones en las que el intervalo superior carece de límite superior, el
intervalo inferior carece de límite inferior o ambos.
La media es extremadamente sensible a las puntuaciones y un cambio en sólo una de ellas supone un cambio en
la media aritmética, mientras que la mediana sólo se vería alterada por cambios en los valores centrales.
La mediana será la segunda candidata para representar la tendencia central y se preferirá la mediana a la moda,
a menos de que:
1. Se trate de una variable medida en escala nominal
2. Haya intervalos abiertos y la mediana pertenezca a uno de ellos.
Representación gráfica de las Medidas de Tendencia Central
Para saber cuándo una distribución es simétrica o asimétrica debemos graficarla. Los gráficos más utilizados son:
histogramas, polígono de frecuencias.
Si los datos son homogéneos las distribuciones son simétricas y la media es igual a la mediana y la moda.
En la distribución asimétrica a derecha o positiva el orden es: MO – ME – MEDIA
En la distribución asimétrica a izquierda o negativa el orden es: MEDIA – ME – MO
La mediana gráficamente es el valor de x que corresponde a la recta vertical que divide un histograma en dos
partes de igual área.
Ejercicios:
Los sueldos de cinco empleados de una empresa son: $ 400000, $500000, $450000, $600000 y $3500000.
Calcula el sueldo medio, la moda, si es que existe, y la mediana e indica cuál representa mejor a los datos.
Calcular las medidas de tendencia central para los ejercicios 2 y 3 anteriores.
________________________________________________________________________________________________ 16
Apuntes de Estadística
Son medidas de localización similares a las anteriores. Se las denomina CUANTILES. Su función es informar del
valor de la variable que ocupará la posición (en tanto por cien) que nos interese respecto de todo el conjunto de
variables.
Podemos decir que los Cuantiles son unas medidas de posición que dividen a la distribución en un cierto número
de partes de manera que en cada una de ellas hay el mismo número de valores de la variable.
CUARTILES, dividen a la distribución en cuatro partes iguales (tres divisiones). Q1,Q2,Q3, correspondientes a
25%, 50%,75%.
PERCENTILES, cuando dividen a la distribución en 100 partes (99 divisiones).P 1,...,P99, correspondientes a
1%,...,99%.
Existe un valor en cual coinciden los cuartiles, los deciles y percentiles es cuando son iguales a la Mediana y así
veremos: Q2 = D5 =P50 = Me
i.n
4
Fa
Qi li *a
fQi
________________________________________________________________________________________________ 17
Apuntes de Estadística
i.n
10
Fa
Di li *a
fDi
i.n
100
Fa
Pi li *a
fPi
Ejercicio:
Sabiendo que en una empresa los salarios de los empleados oscilan entre $1200 y $4000.También se sabe que
ni= 5, 9, 12, 7, 6 y 3 es el número de empleados según categorías de sueldos construir la tabla de frecuencias.
Calcular la media, la mediana y la moda de la distribución. Cuál es la medida más representativa del salario
medio.
Graficar. Describa la distribución
Calcular cuántos empleados ganan más de $2000
Cuántos ganan menos de $1500
Hasta qué sueldo gana el 70% de los empleados
Ejemplo:
________________________________________________________________________________________________ 18
Apuntes de Estadística
Sin embargo en el ejemplo (2) se dice que los datos están más dispersos, porque hay mayor distancia entre cada
valor y la
. Es decir hay mayor variabilidad de los datos.
Recuerde, calidad en la información y variación están relacionadas inversamente. Cuanto más grande es
la variación en los datos, más baja es la calidad de los datos (información): el Diablo está en las
Desviaciones.
Rango o Alcance
Es la diferencia entre el valor mayor y el valor menor. Sirve como medida de dispersión sólo si hay pocas
observaciones. No más de 10 valores. No sirve cuando hay valores atípicos. Se usa mucho para estudios de
control de calidad.
El segundo conjunto tiene mayor rango por lo tanto los valores están más dispersos respecto de la
Varianza
La varianza es una medida de que tan cerca, o que tan lejos están los diferentes valores de su propia media
aritmética. Cuando más lejos están las Xi de su propia media aritmética, mayor es la varianza; cuando más cerca
estén las Xi a su media menos es la varianza.
x x
n
x x
2 n
2
Para datos no i
i
agrupados:
2 i 1
s
2 i 1
n n 1
x x f x x f
k k
2 2
Para datos
agrupados: i i i i
2 i 1
s
2 i 1
n n 1
(fi: frecuencia absoluta del intervalo)
Desviación Estándar
________________________________________________________________________________________________ 19
Apuntes de Estadística
Es la raíz cuadrada de la varianza. La unidad de medida de la varianza está alterada por eso se calcula la
desviación estándar o desviación típica.
x x
n
x x
2 n
Para datos no 2
agrupados: i i
i 1 s i 1
n 1
n
x x f x x f
k k
2
Para datos 2
agrupados: i i i i
i 1
s i 1
n n 1
Coeficiente de Variación de Pearson
Es una medida relativa de dispersión porque permite comparar dos o más muestras entre sí. No tiene unidad de
medida, su resultado es un porcentaje. Diremos que comparando dos muestras posee menor dispersión aquella
cuyo coeficiente de variación sea menor.
Su fórmula es la siguiente:
s
CV 100%
x
Ejemplo: qué grado de variabilidad existe en el curso respecto a la variable Peso y a la variable altura. ¿Respecto
a qué variable los datos son más homogéneos?
Ejemplos
- El entrenador de un equipo de natación debe elegir a uno de sus integrantes para la próxima
competencia de estilo libre. Según los tiempos en segundos que obtuvieron los postulantes de las cinco
últimas carreras de 100 m de estilo libre, ¿qué nadador le conviene elegir?
________________________________________________________________________________________________ 20
Apuntes de Estadística
En promedio, los nadadores más rápidos son ................................ y ................................., pero esto no significa
que hayan tenido el mismo rendimiento; por eso necesitamos las otras medidas de posición: de ellos dos, tanto la
moda como la mediana indican que ................................ fue más veloz. Sin embargo, para elegir el nadador
adecuado, no basta con considerar las medidas de posición, ya que también es necesario que su rendimiento sea
parejo, es decir, que los tiempos de sus 100 m libres no tengan mucha dispersión.
- La tabla a continuación indica los salarios básicos por hora (en unidades monetarias) en abril 2001 para
ciertas categorías ocupacionales de obreros sindicalizados en cierto sector de la construcción.
Salarios básicos por hora, según tipo de trabajo y lugares encuestados
Ocupación A B C D
Determine cuál es la ocupación en la que existe la mayor variación en los salarios básicos y cuál es la que
muestra la menor variación. Para hacer estas comparaciones deberá utilizar el coeficiente de variación (CV).
Parámetros y estimadores:
Estimadores de la Muestra:
Media Aritmética:
Desviación Estándar: S
Ejercicios
1) Los siguientes datos numéricos corresponden a la cantidad de veces que cada alumno de un grupo ha ido a un
recital o concierto.
________________________________________________________________________________________________ 21
Apuntes de Estadística
2–4–3–2–1–1–6–3–0–3–2–4–6–9–3–2–1–6
2) En un diagnostico de educación física se pidió a los alumnos de los cuartos medios que hicieran abdominales
durante 3 minutos. Se obtuvieron los siguientes resultados:
4º A: 45 38 43 29 34 60 54 27 32 33 23 34 34 28 56 62 56 57 45 47 48 54
33 45 44 41 34 36 34 54
4º B: 43 45 44 38 34 46 43 42 43 45 57 44 38 38 37 43 61 38 37 45 28 42
41 49 40 37 34 44 41 43
¿Cuál de los dos cursos tiene el rendimiento más parejo? ¿Qué distribución estadístico permite comparar la
distribución de este tipo de datos?
3) A continuación se presentan los resultados de ambos cursos en la prueba de diagnóstico de salto largo.
4º A : 3.2 3.5 4.9 5.0 3.1 4.1 2.9 2.8 3.8 4.5 4.3 4.5 4.1 5.8 3.9 3.6 4.2 4.6 1.9
2.8 2.9 3.3 3.9 4.2 4.1 4.3 4.6 4.4 3.8 3.6
4º B : 3.5 2.9 1.3 1.7 3.6 5.6 2.8 5.2 5.3 4.1 4.1 4.4 1.6 5.1 4.3 5.0 5.3 3.2 2.8
2.6 5.5 5.4 4.8 4.9 4.3 2.9 3.9 5.4 5.3 4.2
175 156 172 159 161 185 186 192 179 163 164 170 164 167 168 174 172 168 176 166
167 169 182 170 169 167 170 162 172 171 174 171 155 171 171 170 157 170 173 173
174 168 166 172 172 158 159 163 163 168 174 175 150 154 175 160 175 177 178 180
169 165 180 166 184 183 174 173 162 185 189 169 173 171 173
Agrupa estos resultados en 8 intervalos y confecciona una tabla de frecuencias y calcula las medidas de
tendencia central y de dispersión. Además, grafica esta tabla.
5) A los mismos alumnos anteriores se les aplico una prueba de inteligencia, estos han sido:
87 105 88 103 114 125 108 107 118 114 129 100 106 113 105 111 94 115 89 82
141 92 132 112 97 135 101 104 130 99 114 91 145 95 101 115 104 87 108 115
103 132 110 113 102 109 124 98 140 107 93 108 122 117 114 141 116 108 102 101
118 138 99 105 112 94 96 132 118 123 108 131 127 100 91
Agrupa los datos en intervalos de amplitud 8. y haz lo mismo que en problema anterior.
________________________________________________________________________________________________ 22
Apuntes de Estadística
Comparan la forma que tiene la representación gráfica, bien sea el histograma o el diagrama de barras de la
distribución, con la distribución normal.
MEDIDA DE ASIMETRÍA
Diremos que una distribución es simétrica cuando su mediana, su moda y su media aritmética coinciden.
Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas) descienden más
lentamente por la derecha que por la izquierda.
Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que la distribución es
asimétrica a la izquierda.
Existen varias medidas de la asimetría de una distribución de frecuencias. Una de ellas es el Coeficiente de
Asimetría de Pearson:
Su valor es cero cuando la distribución es simétrica, positivo cuando existe asimetría a la derecha y negativo
cuando existe asimetría a la izquierda.
Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos de
distribuciones según su grado de curtosis:
Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la
variable (el mismo que presenta una distribución normal). Distribución leptocúrtica: presenta un elevado grado
________________________________________________________________________________________________ 23
Apuntes de Estadística
Las medidas de forma de una distribución se pueden clasificar en dos grandes grupos o bloques: medidas de
asimetría y medidas de curtosis.
Cuando al trazar una vertical, en el diagrama de barras o histograma, de una variable, según sea esta discreta o
continua, por el valor de la media, esta vertical, se transforma en eje de simetría, decimos que la distribución es
simétrica. Diremos pues, que es simétrica, cuando a ambos lados de la media aritmética haya el mismo nº de
valores de la variable, equidistantes de dicha media dos a dos, y tales que cada par de valores equidistantes tiene
la misma frecuencia absoluta. En caso contrario, dicha distribución será asimétrica o diremos que presenta
asimetría.
________________________________________________________________________________________________ 24