Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADISTICA DESCRIPTIVA
Simbología utilizada en la estadística.
Los siguientes son los símbolos más usados en esta rama de las matemáticas:
Símbolo Descripción
, Pertenece a, No pertenece a
Si y solo si
Implica; Si…entonces; Por lo tanto
Sumatoria
>, <, ≥, ≤ Mayor que, Menor que, Mayor o igual que, Menor o
igual que
≠ Diferente
≈ Aproximadamente igual
|x| Valor absoluto de x
| Tal que
Ejemplos de uso:
10
que se lee “Sumatoria total de todos los valores de x
x
i 1
i
desde el valor 1 al valor 10”
Manejo de la información
La estadística es una rama de las matemáticas encargada del estudio del comportamiento de una
población mediante un estudio cuyo propósito es hacer inferencias a partir de un subconjunto de
datos, llamado muestra, tomados de ella. La estadística se encarga a su vez de reunir, organizar y
analizar datos numéricos, así como ayudar a diseñar experimentos, mismos que tienen como
intención primordial la generación de predicciones sobre un comportamiento de una determinada
población. El término estadística se deriva del latín status, que significa estado en el sentido político,
se empleó entonces para referirse a la recolección y descripción de tales datos del estado.
Población
Es el conjunto total de individuos, objetos o medidas que poseen algunas características comunes
observables en un lugar y en un momento determinado. El tamaño de la población se representa
por medio de la letra “N”.
Población finita: Cuando el número de elementos que la forman es finito, por ejemplo el número
de alumnos de un centro de enseñanza, o grupo clase.
Población infinita: Cuando el número de elementos que la forman es infinito, o tan grande que
pudiesen considerarse infinitos. Como por ejemplo si se realizase un estudio sobre los productos
que hay en el mercado. Hay tantos y de tantas calidades que esta población podría considerarse
infinita.
Muestra
Es un subconjunto fielmente representativo de la población, para poder realizar estudios sobre ella
y poderlas inferir propiedades a la población. Los elementos de la muestra se representan con la
letra “n”.
Muestreo
Es la extracción, de una población, de los elementos de muestra. El muestreo es indispensable para
el investigador ya que es imposible entrevistar a todos los miembros de una población debido a
problemas de tiempo, recursos y esfuerzo. Al seleccionar una muestra lo que se hace es estudiar
una parte o un subconjunto de la población, pero que la misma sea lo suficientemente representativa
de ésta para que luego pueda generalizarse con seguridad de ellas a la población.
Técnicas de Muestreo
Existen dos técnicas para seleccionar la muestra de una población: El no aleatorio, también llamado
de juicio; y el probabilístico.
Aleatorio o Probabilístico: En este caso, todos los elementos de la población tienen alguna
oportunidad de ser escogidos en la muestra, si la probabilidad correspondiente a cada sujeto de la
población es conocida de antemano, recibe el nombre de muestreo probabilístico.
Variables estadísticas.
Una variable es un símbolo, tal como n, x, y, z o w, H1, etc., que puede tomar un valor cualquiera
de un conjunto determinado de ellos, llamado dominio de la variable. Si la variable puede tomar
solamente un valor, entonces se le llama constante. El manejo de muestras en la que los valores
pueden variar nos lleva a las llamadas variables aleatorias y son precisamente este tipo de variables
las que operan en la estadística. Las variables aleatorias se pueden clasificar en discretas y
continúas.
Ejemplos:
- En una familia el número x de hijos puede tomar cualquiera de los valores 0, 1, 2, 3, …, pero no puede
ser 2.5 ó 3.842, es pues una variable discreta.
- La altura h de un individuo puede ser 1.73 mts, 1.75 mts. ó 1.80 mts, dependiendo de la exactitud de
medida; es una variable continua.
Ejercicio 2: Determine sobre los siguientes ejemplos cuál es la población, cuáles son las
variables a estudiar así como su naturaleza.
1. En un estudio realizado para determinar la dosis respuesta de un fármaco para controlar la diabetes
mellitus, se ha realizado el estudio sobre un grupo de 50 personas, se espera determinar si el fármaco
es efectivo.
2. Se desea reconocer si la efectividad de un fármaco que ha sido probado como efectivo en otro país
sobre la población en otro, por lo que se han tomado dos grupos de 40 pacientes cada uno.
3. Se tiene dos grupos de estudiantes de 120 y 135 alumnos con edades 10 y 18 años, sobre los que
se hace un estudio paramétrico, a los que se les plantea una pregunta escolar para determinar la
eficiencia de dos modelos, a fin de comparar si es efectivo.
4. Una investigación sobre los sabores de los refrescos que más les agrada a los niños reporta que se
encuentra que la población infantil tienen preferencia por los sabores de los refrescos de cola.
Datos No agrupados
Los datos No agrupados son una lista simple de valores. Generalmente son en tan poca cantidad
que son fácilmente manejables y por lo mismo no requieren de alguna estructuración especial tal
como una tabla.
Ejemplo 1. Del estudio de la estatura de un cierto núcleo de población se han obtenido los siguientes datos:
Son datos cuantitativos continuos, pues los individuos de una población pueden tener como estatura
cualquier número real en un cierto intervalo.
5, 3, 1, 5, 3, 6, 4, 2, 5, 6, 3, 6, 5, 2, 6, 7 y 3.
Datos Agrupados
Los datos Agrupados se estructuran en una tabla (comúnmente llamada tabla estadística o de
frecuencias) y la decisión de presentarlos de esta manera es porque la cantidad de los mismos ya
no es fácilmente manejable y observable. Los datos agrupados pueden estructurarse en tablas por
Tratamiento individual (recomendado cuando los datos están generalmente compactos) o en
Tratamiento por clases (recomendado para datos muy dispersos).
Frecuencias
Los caracteres estadísticos de una población son las propiedades o cualidades de los individuos
que nos interesa estudiar. Un carácter estadístico divide a la población en grupos. A cada uno de
estos grupos se les denomina modalidad. Cuando el carácter es cuantitativo sus diversas
modalidades son medibles, es decir, se les puede asignar un número. Se llama variable estadística
a la aplicación que a cada modalidad le hace corresponder ese número, es decir, su medida.
Para referencia rápida llamaremos Ejemplo 1 al primer ejemplo de los Datos No agrupados y
Ejemplo 2 al segundo.
Tamaño de la muestra
El tamaño de la muestra es la cantidad de datos que existen en ella y se representa por la letra N.
Frecuencia absoluta
Se llama frecuencia absoluta al número de individuos que toman un determinado valor de una
variable estadística (o una modalidad de un atributo)
Ejemplo 5. En el Ejemplo 2 la frecuencia absoluta del 1 es 1 (solo 1 rata tuvo 1 cría), la frecuencia absoluta
del 2 es 2 (2 ratas tuvieron 2 crías) y la frecuencia absoluta del 3 es 4 (4 ratas tuvieron 3 crías).
Frecuencia relativa
Se llama frecuencia relativa a la razón entre la frecuencia absoluta y el número total de datos o
tamaño de la muestra (N).
Ejemplo 7. En el Ejemplo 2 N=17, entonces, la frecuencia relativa del 1 es 1/17=0.059, la frecuencia elativa
del 2 es 2/17=0.118 y la frecuencia relativa del 3 es 4/17=0.235.
Ejemplo 8. En el Ejemplo 2, la frecuencia relativa acumulada del valor 3 es 0.412 (0.059 + 0.118 + 0.235).
Distribución de frecuencias
Las dos formas más comunes de representar los datos son las tablas y los gráficos.
Tratamiento individual
Para variable discreta, o que siendo continua tengamos pocos datos. Si tenemos una muestra de
tamaño N, la tabla se estructura:
Tabla 1.
El procedimiento a seguir para el correcto diseño de la tabla estadística para tratamiento individual
es el siguiente:
1. Se ordenan los datos recolectados de menor a mayor o viceversa.
2. N es el tamaño de la muestra.
Diseñe una tabla estadística para estos datos, así como también el histograma y el polígono
de frecuencias correspondientes.
Seguimos el procedimiento:
1 - Ordenación de datos
2 – Se determina N=
4 - Representación gráfica
7 7
6 6
5 5
4 4
3 3
2 2
1 1
119 125 130 135 138 140 142 144 119 125 130 135 138 140 142 144
(a) (b)
(c)
71.9 63.9 62.3 72.5 78.0 70.7 71.4 60.5 60.9 68.2
88.5 76.1 82.1 63.7 79.8 67.5 50.1 69.5 66.1 47.3
72.1 59.8 93.7 80.7 61.2 64.3 53.7 74.7 96.3 73.2
Construir una tabla de frecuencias agrupando los datos en clases de la misma amplitud.
Seguimos el procedimiento:
1 - Ordenación de datos
47.3 50.1 53.7 59.8 60.5 60.9 61.2 62.3 63.7 63.9
64.3 66.1 67.5 68.2 69.5 70.7 71.4 71.9 72.1 72.5
73.2 74.7 76.1 78.0 79.8 80.7 82.1 88.5 93.7 96.3
2 – Se determina N=
Clases Marca de fi Fi hi Hi
clase:
mci
4 - Representación gráfica
(a) (b)
(c)
1 - La media aritmética
2 - La mediana
3 - La moda.
Los cálculos de estas medidas son aplicados tanto a datos no agrupados (sin tabla estadística)
como a datos agrupados (con tabla estadística). Se estudiará cada medida para cada tipo de caso.
Media aritmética
La media aritmética de un conjunto de observaciones es una medida de tendencia central conocida
como promedio. Es la suma de todos los valores que toma la variable estadística dividida por el
número total de datos de la muestra (N).
Datos No agrupados: Para los datos no agrupados, es decir, sin tabla estadística, la media aritmética
se calcula a través de la siguiente expresión:
n
xi ( x1 x 2 ... x n )
i 1
x
N N
Ejercicio 5. Los siguientes datos corresponden al registro de pesos de pollos (gr.) de seis semanas
de vida en un establecimiento.
150, 152, 154, 155, 155, 157, 157, 157, 157, 160
10, 3, 5, 9, 6, 8, 8, 7, 9, 6, 8, 7
Datos agrupados: Para el caso de los datos agrupados en tabla estadística, la expresión para
obtener la media aritmética es:
a) – Si es tratamiento individual:
n
xi * f i
x
i 1 x1 f 1 x 2 f 2 ... x n f n
N N
k
mi * f i
x i 1 m1 f 1 m 2 f 2 ... m n f n
N N
Ejercicio 7. Encuentre la media aritmética para los valores de la tabla estadística del Ejercicio 3 del
tratamiento individual.
Mediana
Es la observación que se encuentra en el centro cuando los datos están ordenados, divide a los
datos en dos partes iguales. Este valor se obtiene dependiendo de la cantidad de valores N que
haya en la muestra:
- Si N es impar:
la mediana es la observación que está en el lugar (N+1)/2, esto es
x x( n1) 2
~
- Si N es par:
la mediana es el promedio de las observaciones N/2 y N/2 + 1, esto es
xn 2 xn 21
x
~
2
Ejercicio 8. Encontrar la mediana para el siguiente conjunto de datos:
9, 12, 5, 16, 8, 3, 11
Ejercicio 10. Encuentre el valor de la mediana para los valores de la tabla estadística del Ejercicio
3 del tratamiento individual.
Moda
Ejercicio 11. Si se observa cual es el dato que más se repite en las evaluaciones, se tiene:
3, 5, 6, 6, 7, 7, 8, 8, 8, 9, 9, 10
4, 9, 5, 6, 7
9, 3, 6, 7, 9, 8, 5, 9, 7, 3
Ejercicio 14. Calcula la moda para los datos que se presentan a continuación:
6, 7, 8, 6, 9, 7, 8, 5, 6, 8
8, 6, 5, 5, 9, 6, 8, 6, 5, 9, 8, 9
Ejercicio 16. Encuentre los valores modales para los valores de la tabla estadística del Ejercicio 3
del tratamiento individual.
Cuantiles
Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la
distribución en partes, de tal manera que cada una de ellas contiene el mismo número de
frecuencias.
b) Deciles (Di) Son los valores de la variable que dividen a la distribución en las partes iguales,
cada una de las cuales engloba el 10 % de los datos. En total habrá 9 deciles. (Q2 = D5 = 𝑥̃ )
c) Centiles o Percentiles (Pi) Son los valores que dividen a la distribución en 100 partes iguales,
cada una de las cuales engloba el 1 % de las observaciones. En total habrá 99 percentiles. (Q2
= D5 = Me = P50)
𝑁
𝑘 ( ) − 𝐹𝑘
𝑄𝑘 = 𝐿𝑘 + 4 ×𝑐
𝑓𝑘
Donde:
k= Número de cuartil (1, 2, 3)
Lk = Límite real inferior de la clase del cuartil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.
fk = Frecuencia de la clase del cuartil k
c = Longitud del intervalo de la clase del cuartil k
Ejercicio 17. Calcule el cuartil 1, 2 y 3 para los siguientes dos grupos de datos:
1 - 150, 152, 154, 155, 155, 157, 157, 157, 157, 160, 160, 161, 161, 162, 163, 164
2 - 8, 6, 5, 5, 9, 6, 8, 6, 5, 9, 8, 9, 7
Ejercicio 18. Para el Ejercicio 4 del tratamiento por clases encuentre los siguientes valores:
1) - La media aritmética.
2) - Identifique la moda.
5) - ¿En la marca de clase donde está la mediana también está incluido el __________________?
Ejercicio 19. Los datos que se brindan a continuación corresponden a 110 mediciones de altura
(cm) de plantas de un cultivar de Soja en un determinado estado fenológico del ciclo:
56 57 57 58 58 58 59 59 60 60 61 62 62 62 63 63 63 64 64 64 65 65 65
65 66 66 66 66 66 66 66 67 67 67 67 67 67 68 68 68 68 68 68 68 68 69
69 69 69 69 69 69 69 69 69 69 70 70 70 70 70 70 70 70 70 71 71 71 72
72 72 72 72 72 73 73 73 73 73 73 73 73 73 74 74 74 74 74 75 75 75 75
75 76 77 77 78 78 78 78 78 79 79 80 80 81 82 82 83 84
Diseñe una tabla estadística para estos datos para diez clases. Trace la gráfica de barras, el
polígono de frecuencias y el diagrama circular.
2) - Identifique la moda.
Medidas de dispersión
La dispersión de un conjunto de observaciones se refiere a la magnitud de la variabilidad que presentan las mismas.
i 1
S x
2
n k
xi f i mi f i
2 2
i 1 i 1
S x S x
2 2
n n
xi fi Fi
1 2 2
2 2 3
3 4 5
4 1 8
5 1 10
Solución:
1 – Obtener N
3 – Calcular la sumatoria
𝑛
∑ 𝑥𝑖 2 ⋅ 𝑓𝑖
𝑖=1
Varianza
La varianza se define como se define la media de las diferencias cuadráticas de n puntuaciones con respecto a su media
aritmética, es decir:
x i x
n
2
i 1
V ( x) S 2
Otra definición de varianza es la que dice que la varianza de un conjunto de datos es el cuadrado de la desviación
estándar. Por lo tanto, si ya se conociese el valor de la desviación estándar basta entonces con elevar al cuadrado dicho
valor para obtener la varianza o viceversa. Basado en esto, la varianza también se puede obtener a partir de las
expresiones de la desviación estándar, es decir:
n
xi
2
S i 1
x
2 2
n
xi f i
2
S2 i 1
x
2
k
mi f i
2
S2 i 1
x
2
Debido a que la desviación estándar tiene las mismas unidades que la media, la desviación estándar es más utilizada
que la varianza.