Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema1: Estadística
1.- ¿Qué es la Estadística? 2.- Un poco de historia. 3.- Conceptos básicos. 4.- Muestras. 5.- Tablas
estadísticas. Frecuencias. 6.- Gráficas. 7.- Parámetros estadísticos. 8.- Interpretación conjunta de la
media y la desviación típica.
La Estadística es la parte de las Matemáticas que se encarga del estudio de una determinada
característica en una población, recogiendo los datos, organizándolos en tablas, representándolos
gráficamente y analizándolos para sacar conclusiones de dicha población.
Según se haga el estudio sobre todos los elementos de la población o sobre un grupo de ella, vamos a
diferenciar dos tipos de Estadística:
Es difícil conocer los orígenes de la Estadística. Desde los comienzos de la civilización han
existido formas sencillas de estadística, pues ya se utilizaban representaciones gráficas y
otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número
de personas, animales o ciertas cosas.
La palabra Estadística procede del vocablo “Estado”, pues era función principal de los
Gobiernos de los Estados establecer registros de población, nacimientos, defunciones,
impuestos, cosechas... La necesidad de poseer datos cifrados sobre la población y sus
condiciones materiales de existencia han debido hacerse sentir desde que se establecieron
sociedades humanas organizadas.
• Los egipcios ya analizaban los datos de la población y la renta del país mucho antes de
construir la pirámides. En los antiguos monumentos egipcios se encontraron
interesantes documentos en que demuestran la sabia organización y administración de
este pueblo; ellos llevaban cuenta de los movimientos poblacionales y continuamente
hacían censos (3.500 a. C.)
• En China existían los censos chinos ordenados por el emperador Tao hacia el año 2.200
a.C.
• En la Biblia , en el libro de Números aparecen referencias al recuento de los israelitas
en edad de servicio militar.
• Posteriormente, hacia el año 500 a.C., se realizaron censos en Roma para conocer la
población existente en aquel momento. Se erigió la figura del censor, cuya misión
consistía en controlar el número de habitantes y su distribución por los distintos
territorios.
• En la Edad Media, en el año 762, Carlomagno ordenó la creación de un registro de todas
sus propiedades, así como de los bienes de la iglesia.
• Después de la conquista normanda de Inglaterra en 1.066, el rey Guillermo I, el
Conquistador, elaboró un catastro que puede considerarse el primero de Europa.
• Los Reyes Católicos ordenaron a Alonso de Quintanilla en 1.482 el recuento de fuegos
(hogares) de las provincias de Castilla.
• En 1.662 un mercader de lencería londinense, John Graunt, publicó un
tratado con las observaciones políticas y naturales, donde Graunt pone de
manifiesto las cifras brutas de nacimientos y defunciones ocurridas en
Londres durante el periodo 1.604-1.661, así como la influencia que ejercían
las causas naturales, sociales y políticas de dichos acontecimientos. Logró
extraer conclusiones para el futuro, inaugurando así la Estadística
Demográfica.
• Muestra: Cuando la población es muy grande (por ejemplo, todos los españoles)
o difícil de estudiar (por ej., la calidad de las bombillas o la deformación de los
coches en un choque) se elige una muestra, que es una parte de la población
representativa de la misma.
Ejercicio 2
Indica de qué tipo son las siguientes variables:
Ejercicio 3
a)¿Cuál es la población?
b)¿Cuáles la variable estudiada? ¿de qué tipo es?
c) ¿Qué significa el 44 junto al 3 que hay a la derecha del 3 en la tabla?
d) ¿ Por qué las barras del diagrama están separadas unas de otras?
4.- Muestras
En la práctica, es muy frecuente tener que recurrir a una muestra para inferir datos de
la población por alguno o varios de los siguientes motivos:
Sin embargo, si la muestra está mal elegida (no es representativa), se cometen errores
adicionales imprevistos e incontrolados (sesgos).
• Muestreo estratificado:
En ocasiones cuando la población objeto de estudio, pertenece a distintos
grupos o estratos conviene elegir la muestra de forma que todos ellos queden
representados.
Este tipo de muestreo, escogiendo un reparto proporcional a los estratos, se
llama estratificado.
Una vez recogidos los datos de la población, se agrupan y se construyen las tablas de
frecuencia.
Se realiza un estudio sobre el número de horas que ven la televisión al día los jóvenes de 18
años, y después de entrevistar a una pequeña muestra se obtienen los siguientes resultados: 1,
3, 0, 1, 2, 0, 1, 2, 0, 1, 1, 1, 0, 2, 3, 1, 3, 0, 0, 2, 1, 1, 4, 2, 1, 0, 1, 1, 2, 0
Para las variables cuantitativas continuas tenemos muchos datos con distintos valores, por
tanto, los datos se agrupan en intervalos 1
Vemos un ejemplo, tomamos el peso de 24 jubilados obteniendo los siguientes datos: 70,1;
63,5; 72,8; 79,9; 61,4; 68,2; 71,6; 69,0; 72,9; 65,7; 64,5; 74,8; 66,3; 60,1; 63,8; 72,2; 72,0; 63,6;
78,9; 77,3; 62,4; 75,2; 75,4; 67,1
1 También se pueden agrupar en intervalos los valores de una variable cuantitativa discreta cuando esta
toma muchos valores diferentes.
Cuando se elabora una tabla con datos agrupados, se pierde algo de información (pues
en ella se ignora cada valor concreto, que se difumina). A cambio, se gana en claridad y
eficacia.
Ejercicio 5 En la tercera fila de una tabla de frecuencias hemos obtenido los siguientes datos:
Clase: [50 , 60); n3= 8 N3=16; f3= 0,2 y F3=0,4. Interpreta cada uno de los
resultados.
Este es un ejemplo de variable estadística que toma muchos valores distintos y podemos
agruparlos en intervalos. Realiza una tabla estadística teniendo en cuenta que el primer
intervalo es [0 , 4)
Tabla estadística de variable cualitativa
Ejemplo:
6.- Gráficas.
Para una variable cualitativa los gráficos más usados son el diagrama de rectángulos, el
diagrama de sectores y el pictograma.
Diagrama de rectángulos
Sobre el eje horizontal situamos las distintas modalidades, y sobre cada una se construye un
rectángulo de forma que todos tengan la misma base y estén separados unos de otros el mismo
espacio. Sobre el eje vertical indicamos la altura de cada rectángulo, que coincide con la
frecuencia de cada modalidad.
Diagrama de sectores
Pictogramas
Son los gráficos más llamativos e intuitivos, aunque menos precisos, se representan por medio
de dibujos y se usan para lograr el interés del público.
Paises que emiten más cantidad de CO2 a la
atmósfera
Para este tipo de variables los gráficos adecuados son el diagrama de barras, el diagrama de
sectores y el polígono de frecuencias.
Diagrama de barras
Se representan sobre unos ejes de coordenadas, en el eje de abscisas se colocan los valores de
la variable, y sobre el eje de ordenadas las frecuencias absolutas o relativas o acumuladas.
Si unimos los puntos medios de los extremos de las barras por una línea obtenemos un polígono
de frecuencias, que se utiliza con variables cuantitativas.
Para este tipo de variables los gráficos adecuados son el histograma, el histograma de
frecuencias acumuladas, el polígono de frecuencias y la ojiva.
Histograma
Un histograma es un grafico en el que sobre el eje abscisas se construyen unos rectángulos que
tienen por base la amplitud del intervalo, siendo el área de los rectángulos proporcional a la
frecuencia de cada intervalo. En el caso de que los intervalos sean de igual amplitud, podemos
tomar como altura la frecuencia absoluta de cada intervalo. En el caso de que los intervalos
tengan amplitud diferente, tenemos que calcular las alturas de los rectángulos del histograma
para que las áreas de los rectángulos sean proporcionales a las frecuencias. Podemos tomar
n
como altura hi de la siguiente forma: hi= a i
i
Un parámetro estadístico es una cantidad numérica calculada sobre una población y resume los
valores que esta toma en algún atributo. Los parámetros estadísticos intentan resumir toda la
información de la población en unos cuantos números.
Indican valores respecto a los cuales los datos parecen agruparse. Cabe destacar: Media
aritmética, mediana y moda.
Si llamamos x1, x2, ...., xn a los valores que toma una variable estadística, la media se designa por
𝑥1 +𝑥2 +⋯𝑥𝑛 ∑𝑛
𝑖=1 𝑥𝑖
𝑥̅ y se calcula así: 𝑥̅ = =
𝑛 𝑛
∑𝑘
𝑖=1 𝑥𝑖·𝑛
𝑖
Si los datos están agrupados en tablas: donde xi son los valores de la variable o las
𝑛
marcas de clase.
Propiedades de la media:
3. El valor medio es influenciado por los valores de cada uno de los datos, siendo, por tanto,
muy sensible a los valores extremos.
4. La media no tiene por qué ser igual a uno de los valores de los datos. Incluso puede no tener
"sentido" para los datos considerados (como decir que el número medio de hijos en las familias
españolas es 1,1)
8. La media es la mejor estimación de una cantidad desconocida, cuando hemos hecho varias
medidas de la misma. Esta es la propiedad de la media que usamos cuando calificamos a un
alumno a partir de varias evaluaciones o cuando estimamos el tiempo de espera en la parada
de un autobús. Por tanto sirve para resolver problemas como el siguiente: Un objeto pequeño
se pesa con un mismo instrumento por ocho estudiantes de una clase, obteniéndose los
siguientes valores en gramos: 6'2, 6'0, 6'0, 6'3, 6'1, 6'23, 6'15, 6'2 ¿Cuál sería la mejor estimación
del peso real del objeto?
Mediana
Por ejemplo, si en una familia los niños tienen 3, 5 y 8 años, la edad del niño
mediano es 5 años. La mediana es igual a 5.
Si nace un nuevo bebé (0 años) ahora tenemos
dos niños medianos, uno de 3 y otro
de 5 años. En este caso hay una indeterminación y para
resolverla tomamos como mediana el valor 4 (media entre 3 y 5).
La mediana presenta ciertas ventajas como medida de tendencia central frente a la media en
algunas distribuciones, ya que no se ve afectada por los valores extremos de las obrvaciones;
por ello su uso es particularmente indicado en las distribuciones asimétricas. También se puede
aplicar con variables estadísticas ordinales, mientras que la media no se puede aplicar en estos
casos.
La mediana es el valor, cuya frecuencia absoluta acumulada esté inmediatamente por encima a
la mitad del número de datos. Se calcula de la siguiente forma:
Datos aislados:
3. En el caso de que N/2 coincida con algún valor de Ni, la mediana se ría la semisuma de xi y x i+1
3. Una estimación del valor de la mediana viene dado por la siguiente fórmula:
𝑁
( 2 −𝑁𝑖−1 )
Me = li-1 + · 𝑎𝑖 donde el intervalo mediano es [li-1 , li) y ai es su amplitud.
𝑛𝑖
Moda
En una distribución puede haber más de una moda. Si existe una sola moda se llama unimodal,
si existen dos bimodal, si hay más de dos se llama multimodal. En general es una medida de
tendencia central poco eficaz ya que si las frecuencias se concentran fuertemente en algunos
valores al tomar uno de ellos como representante los restantes pueden no quedar bien
representados, pues no se tienen en cuenta todos los datos en el cálculo de la moda. Sin
embargo, es la única característica de valor central que podemos tomar para las variables
cualitativas.
A: 6, 5, 6, 6, 7, 6
B: 3, 4, 8, 10, 9, 2
Ambos alumnos tienen como nota media un 6, aunque claramente ese 6 es más representativo
de los valores observados para A que para B. No basta calcular la media de una distribución, es
necesario calcular también parámetros que nos indiquen si los datos están más o menos cerca
de la media. Estos parámetros son los parámetros de dispersión. Vamos a ver los siguientes
parámetros: Recorrido, varianza, desviación típica y coeficiente de variación.
los parámetros de dispersión tomarán valores pequeños. Pero si no lo están, si están muy
"dispersos", tomarán valores más grandes.
Recorrido o rango: El rango es la diferencia entre el dato de mayor valor y el dato de menor
valor. Es el más sencillo y nos da una primera idea de la dispersión.
∑𝑛 ̅̅̅2
𝑖=1(𝑥𝑖 −𝑥) ∑𝑛
𝑖=1 𝑥𝑖
2
𝜎2= = - 𝑥̅ 2
𝑛 𝑛
∑𝑛 ̅̅̅2
𝑖=1(𝑥𝑖 −𝑥) ·𝑛1 ∑𝑛 2
𝑖=1 𝑥𝑖 ·𝑛𝑖
𝜎2= = - 𝑥̅ 2
𝑛 𝑛
Desviación típica: La varianza no es buen parámetro puesto que sus unidades son las de la
variable al cuadrado, un buen parámetro de dispersión es la desviación típica. Se representa
por 𝜎 y es la raíz cuadrada de la varianza.
Ejemplo: En una clase la altura media de los alumnos es de 168 cm, con una desviación típica de
16cm y la media de los pesos es 62 kg con una desviación típica de 6 kg. Compara la dispersión
de las dos distribuciones.
CVA= 9,5% y CVB= 9,7%. En ambas la media es bastante representativa, hay poca dispersión,
pero los pesos están algo más dispersos que las alturas.
Cuartiles
Los cuartiles son tres valores de la variable que dividen a un conjunto de datos
ordenados en cuatro partes iguales. Q1, Q2 y Q3 determinan los valores correspondientes
al 25%, al 50% y al 75% de los datos.
Percentiles
Definimos Percentil k como el valor de la variable que deja por debajo de si
al k% de la población.
8- Interpretación conjunta de 𝑥̅ y 𝜎
Si los datos de una variable estadística siguen una distribución normal (es decir, si osn
distribuciones simétricas con los parámetros de centralización situados en las posiciones
centrales y con valores muy próximos), se cumple que:
Ejemplo: Los alumnos de 4º de grado han obtenido en un examen de Matemáticas una media
de 6,2 y una desviación típica de 1,1. ¿Qué conclusiones cabe establecer en relación con los
resultados obtenidos, teniendo en cuenta que se trata de una muestra que sigue una
distribución normal.