Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apuntes de Clases 1
Muestra: Es un subconjunto de la población, de menor tamaño. En general la muestra debería ser representativa de la
población en estudio, para esto cada elemento de la muestra debe ser elegido aleatoriamente (al azar), de tal manera que
cada elemento de la población tenga la misma posibilidad de ser elegido.
Variable: es la característica observada en cada elemento de la muestra o población. Existen dos tipos de variables.
Variable cualitativa o Atributo: Este tipo de variable representa una cualidad o atributo que clasifica a cada caso en una de
varias categorías. La situación más sencilla es aquella en la que se clasifica cada caso en uno de dos grupos
(hombre/mujer, enfermo/sano, fumador/no fumador). Son datos dicotómicos o binarios. Como resulta obvio, en muchas
ocasiones este tipo de clasificación no es suficiente y se requiere de un mayor número de categorías (color de los ojos,
grupo sanguíneo, profesión, etcétera).
En el proceso de medición de estas variables, se pueden utilizar dos escalas:
Escalas nominales: ésta es una forma de observar o medir en la que los datos se ajustan por categorías que no mantienen
una relación de orden entre sí (color de los ojos, genero, profesión, presencia o ausencia de una falla, etcétera).
Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarquía entre las categorías (nivel socioeconómico,
quintil, etcétera).
Variable cuantitativa: este tipo de variable sepuede medir, cuantificar o expresar numéricamente. Las variables
cuantitativas pueden ser de dos tipos:
Discreta: Toma un número finito o infinito numerable de valores. Por ejemplo: Número de cargas familiares, número de
asignaturas inscritas en el año, etc.
Continua: Toma valores dentro de un intervalo de números reales. Por ejemplo: Estatura,
ingreso mensual, temperatura, etc.
Para describir los datos o la información de estas variables se utiliza una tabla llamada tabla de distribución de
frecuencias. Se construirán las tablas y los gráficos utilizando el Software estadístico SPSS.
La tabla de distribución de frecuencias se utiliza para describir la información de una variable, esta variable se puede
agrupar en categorías (cuando toma pocos valores) o en intervalos (cuando toma un número grande de valores). La tabla
tiene la siguiente estructura.
Gráfico circular: Este gráfico se utiliza generalmente para describir la información de una variable cualitativa, que
considera pocas categorías.
Gráfico de Barras: Consiste en k-barras, separadas una de otra, correspondientes a las k- categorías o niveles de la
variable. La altura de cada barra es la frecuencia absoluta correspondiente a cada categoría. (Este gráfico también puede
ser usado para describir un atributo).
1
Universidad de Tarapacá Departamento de Matemática
Situación: En el Colegio “Alegría” de Enseñanza Básica, se realiza un estudio sobre el nivel socioeconómico, el número
de hermanos y el peso de los alumnos de Primer año Básico. Para esto se eligió una muestra de 75 niños, obteniendo los
siguientes resultados:
Nivel socioeconómico
B E EP M B A B M EP B M EP M E A
P P
EP B M A A EP M M M A B B A M A
M M B M M B M A B E M M B B M
P
A M A B B A A E M E B EP M B B
P P
M A M
E M M B B B
A M B A M M
P
Donde: EP: extrema pobreza B: nivel socioeconómico bajo M: nivel socioeconómico medio A: nivel socioeconómico
alto.
Número de Hermanos
0 1 1 2 2 2 3 3 4 1 1 0 0 1 2
2 3 2 3 4 1 0 1 1 0 2 2 3 4 3
0 2 3 4 5 3 2 1 1 2 3 3 1 1 0
5 0 2 3 3 4 2 1 0 1 2 2 3 4 1
1 2 2 1 0 2 1 2 4 2 1 5 2 1 2
1. Indique los elementos donde se observan las características: Niños de primero Básico del colegio Alegría
2. Indique el tipo de variable correspondiente a cada característica observada.
Nivel socioeconómico: Variable cualitativa ordinal
Número de hermanos: Variable cuantitativa discreta
Peso: Variable cuantitativa continua
3. En la siguiente figura se muestra la tabla para la variable nivel socioeconómico, tabla obtenida utilizando SPSS.
Nivel Socioeconómico
Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado
A 15 20,0 20,0 20,0
Válidos
B 21 28,0 28,0 48,0
EP 12 16,0 16,0 64,0
M 27 36,0 36,0 100,0
Total 75 100,0 100,0
Completa la tabla de distribución de frecuencias usando la información dada en la tabla anterior
2
Universidad de Tarapacá Departamento de Matemática
Pobreza
Medio 27 36,0 75 100
Sector Azul: “20% de los niños de la muestra tienen un nivel socioeconómico alto”.
5. En la siguiente figura se muestra la tabla para la variable número de hermanos, obtenida usando SPSS.
Número de hermanos
Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado
Válidos 0 10 13,3 13,3 13,3
1 20 26,7 26,7 40,0
2 22 29,3 29,3 69,3
3 13 17,3 17,3 86,7
4 7 9,3 9,3 96,0
5 3 4,0 4,0 100,0
Total 75 100,0 100,0
Tabla 2:
N° de hermanos N° de niños Porcentaje de N° acumulado de Porcentaje
niños niños acumulado de niños
0 10 13,3 10 13,3
1 20 26,7 30 40,0
2 22 29,3 52 69,3
3 13 17,3 65 86,7
4 7 9,3 72 96,0
5 3 4,0 75 100,0
3
Universidad de Tarapacá Departamento de Matemática
4
Universidad de Tarapacá Departamento de Matemática
Apuntes de Clases 2
En el caso que una variable cuantitativa continua o discreta con muchas categorías, es necesario agrupar la información
utilizando intervalos, llamados intervalos de clase. Para determinar estos intervalos se siguen los siguientes pasos:
1. Se calcula el número de intervalos (k) , para esto se puede utilizar:
a) La Regla de Sturges, donde: k = 1 + 3,3 log (n)
b) k ≈ √ n.
2. En la masa de datos se ubica el menor y mayor valor observado de la variable. x min y xmax respectivamente.
3. Se calcula el rango de la variable L=x max −x min
4. Se determina la amplitud de cada intervalo de clase c i=x i−x i−1.
L
Generalmente se construyen k- intervalos de clase de igual amplitud la que esta dada por c i ≈
k
Por ejemplo para la variable peso de 75 niños de primero básico del colegio Alegría, se obtiene la siguiente información al
analizar los datos en SPSS.
Estadísticos
i) k = 1+3,3log(75)= 7,18…≈ 7
Peso 12 ,1
ii) Amplitud de cada intervalo c i= =1 , 72.. ≈ 1 , 8
N Válidos 75 7
Perdidos 0 ¿
iii) Nuevo rango L =1 ,8∗7=12 ,6
Rango 12,1
Mínimo 14,9 iv) Diferencia = 12,6 – 12,1 = 0,5 (0,3 – 0,2)
Máximo 27,0 El Límite inferior del primer intervalo es: 14,9 – 0,3 = 14,6
El Límite superior del séptimo intervalo es: 27,0+0,2= 27,2
El cálculo anterior se utiliza para transformar la variable consumo a una variable categórica que permite construir la
siguiente tabla usando SPSS.
Peso de los Niños
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos <= 16,4 11 14,7 14,7 14,7
16,5 - 18,2 12 16,0 16,0 30,7
18,3 - 20,0 15 20,0 20,0 50,7
20,1 - 21,8 11 14,7 14,7 65,3
21,9 - 23,6 8 10,7 10,7 76,0
23,7 - 25,4 13 17,3 17,3 93,3
25,5+ 5 6,7 6,7 100,0
Total 75 100,0 100,0
5
Universidad de Tarapacá Departamento de Matemática
Histograma de Frecuencias: Este gráfico se utiliza para presentar la información de una variable agrupada en intervalos de
clase. Consiste en k-barras contiguas, correspondientes a los k-intervalo de clase. La altura de cada barra es la frecuencia
absoluta asociada a cada intervalo de clase, y su base es la amplitud de cada intervalo de clase.
En la siguiente figura se muestra el histograma para la variable consumo mensual de agua, obtenido usando SPSS.
Tercera Barra: “15 niños de la muestra pesa entre 18,2 y 20,0 kilogramos”.
Medidas de Resumen: Son valores que resumen el comportamiento de las observaciones de una variable, describen la
distribución de la variable con respecto a posición, dispersión, simetría y apuntamiento.
Medidas de Resumen o Estadígrafos de Posición: Sirven para observar en que parte de la escala de medición tienden a
agruparse las observaciones de una variable.
Medidas de Resumen o Estadígrafos de Dispersión: Describen un grupo de observaciones de una variable en función
de la dispersión de los ítems incluidos dentro de ese grupo. Es decir describen cuan dispersas o variables son las
observaciones de una variable.
Medidas de Resumen de Asimetría: Describen como se distribuye la variable en torno a un eje de simetría. Este eje de
simetría se fija en una recta que pase por lamedia aritmética de la distribución. La asimetría también se utiliza para
comparar distribuciones por que se pretende que estas medidas carezcan de unidades.La medida que da el grado de
asimetría de una distribución de datos es el sesgo.
Medidas de Resumen de Apuntamiento o Curtosis:Muestran como se distribuyen losvalores centrales de una variable.
Para ello se compara la distribuciónque se esté analizando con la distribución normal. Estas medidas indican si la
distribución tiene una forma de campana más o menosapuntada que la distribución normal.
6
Universidad de Tarapacá Departamento de Matemática
Medidas de Resumen
Posición
Media o promedio aritmético Tendencia
central
Moda
Mediana
Percentil
Dispersión
Varianza
Coeficiente de Variación
Puntaje Típico
Recorrido intercuartil
Asimetría
Coeficiente de asimetía
Apuntamiento
Coeficiente de curtosis
√
N N
1 1
Poblacional μ= ∑x
N i=1 i σ= ∑ ( x i−μ )
2
N i=1
√
n n
1 1
Muestral X= ∑x
n i=1 i S= ∑ ( x i−X )
2
n−1 i=1
√
n n
1 1
Datos agrupados en categorías o X= ∑m ∙f
n i=1 i i S= ∑ ( m − X )2 ∙ f i
intervalos de clase n−1 i=1 i
Observación:
1. mi : marca de clase, punto medio del i-ésimo intervalo de clase o valor correspondiente a la i-ésima categoría.
2. La desviación típica describe la variabilidad absoluta de las observaciones de una variable, con respecto a la media
o promedio aritmético. Se expresa en la misma unidad de medida que la variable
3. La media aritmética y la desviación típica se pueden obtener usando el modulo estadístico de una calculadora
científica.
Varianza: Se define como el cuadrado de la desviación típica. Al igual que la desviación típica, la varianza mide la
variabilidad o dispersión de las observaciones de la variable respecto de la media o promedio aritmético.
7
Universidad de Tarapacá Departamento de Matemática
σ2 : Varianza poblacional
S2 : Varianza muestral
Coeficiente de Variación: Es un número abstracto, que se expresa en porcentaje. Describe la variabilidad relativa de las
observaciones de una variable. Se define por:
S
C.V= ∙100
X
El coeficiente de variación, también se utiliza para comparar los elementos de la muestra o muestras respecto a dos o una
varible.
En el caso de comparar los elementos de una muestra respecto de dos variables observadas en ellos, los elementos de la
muestra o población serán más homogéneos respecto a la variable que tenga menor coeficiente de variación, que respecto
a la otra variable.
En el caso de comparar dos grupos de elementos en los que se observa la misma variable, el grupo que tenga menor
coeficiente de variación será más homogéneo que el otro grupo, respecto a dicha variable.
Puntaje Típico: Es el valor que indica la posición relativa de una observación respecto al promedio. Se define por:
x o −X
Z ( xo )= , luego si.
S
Z (x¿¿ o)=0 ¿, se tiene, x o= X .
Z (x¿¿ o)< 0 ¿, entonces el valor observado de la variable, estaría bajo el promedio en ||desviaciones típicas.
Z (x¿¿ o)> 0 , ¿entonces el valor observado de la variable, estaría sobre el promedio en Z (x¿¿ o)¿ desviaciones
típicas.
El puntaje típico, se utiliza para medir “el rendimiento” de un individuo de la muestra o de la población respecto al grupo
total de individuos.
Ejemplo de aplicación: En el centro de salud integral “Vida Sana”, se realiza un estudio sobre la cantidad diaria de horas
de ejercicio realizadas y la cantidad de calorías (en miles), que consumen diariamente los pacientes que acuden a este
centro de salud integral. El estudio se hizo en base a una muestra de 60 pacientes, obteniéndose los resultados que se
describen en las siguientes tablas:
Horas N° de
pacientes
0,5 10
1,0 14
1,5 16
2,0 12
2,5 8
8
Universidad de Tarapacá Departamento de Matemática
Calorías N° de pacientes
1,0 – 1,4 9
1,4 – 1,8 13
1,8 – 2,2 17
2,2 – 14
2,6
2,6 – 7
3,0
N° de mi ∙ f i 2
Horas
Pacientes ( mi− X ) ∙ f i
0,5 10 5 9,025
1 14 14 2,835
1,5 16 24 0,04
2 12 24 3,63
2,5 8 20 8,82
Total T1= 60 T2=87 T3= 24,35
T 2 87
X= = =1 , 45 ≈ 1, 5“La cantidad promedio de horas de ejerccicio realizadas por los pacientes es de 1,5 horas”
T 1 60
S=
√ T3
T 1−1
=
√ 24 ,35
59
=0 , 64 ≈ 0 , 6, “La variabilidad absoluta del número de horas de ejercicios realizada por los
pacientes , respecto al promedio es de 0,6 horas”
Coeficiente de Variación
S 0 ,64
C.V= ∙100= ∙ 100=44 , 14 “La variabilidad relativa del número de horas de ejercicios realizada por los
X 1, 45
pacientes , respecto al promedio es del 44,14%”
Calorías mi Nº de mi ∙ f i 2
( mi− X ) ∙ f i
pacientes
1,0 – 1,4 1,2 9 10,8 5,476
1, 4 – 1,8 1,6 13 20,8 1,877
1,8 – 2,2 2 17 34 0,007
2,2 – 2,6 2,4 14 33,6 2,470
2,6 – 3,0 2,8 7 19,6 4,707
Total T1= 60 T2=118,8 T3= 14,536
9
Universidad de Tarapacá Departamento de Matemática
Media o promedio aritmético
T 2 118 , 8
X= = =1 ,98 ; “ El número promedio de calorías consumidas diariamente, por lo s pacientes es de 1980
T1 60
calorias”.
S=
√ T3
T 1−1
=
√
14,534
59
=0 , 50 ; “La variabilidad absoluta del número de calorías consumidas por los pacientes, respecto
al promedio, es de 500 calorías”.
Coeficiente de Variación
S 0 ,50
C.V= ∙100= ∙100=25 , 25 ; “La variabilidad relativa del número de calorías consumidas por los
X 1 , 98
pacientes, respecto al promedio, es de 500 calorías”.
Moda: Es el valor de la variable que más se repite en un grupo de observaciones de una variable (o atributo). Para
variables descritas en una tabla de distribución de frecuencias, la moda esta asociada a la máxima frecuencia absoluta. En
el caso de una variable agrupada en intervalos de clase, la moda se calcula usando la siguiente formula.
Md=x j−1+ c j ∙
( f j −f j−1
f j −f j−1+ f j−f j +1 )
f j : máxima frecuencia absoluta.
x j−1: Límite inferior del intervalo de clase asociado a la máxima frecuencia absoluta.
c j : Amplitud del intervalo de clase asociado a la máxima frecuencia absoluta.
f j−1: frecuencia absoluta ubicada en la posición anterior de f j .
f j +1 : frecuencia absoluta ubicada en la posición posterior de f j .
Observación: Una variable puede tener una, dos o más modas.
Mediana: Es el valor central en un grupo de datos ordenados de menor a mayor. Se denota por Me.
Ejemplo:
1 , 2 , 3 , 3 , 4 , 4 , 5 , 7 , 9 la mediana es 4
6+7
1 , 2 , 3 , 5 , 6 , 7 , 8 , 9 , 9 , 10 la mediana es =6 ,5
2
10
Universidad de Tarapacá Departamento de Matemática
Esto significa que la mediana es igual al percentil 50. Luego calcular e interpretar la mediana equivale a calcular e
50. Es decir,
Me=P50
interpretar el percentil
Recorrido Intercuartil: Mide la variabilidad del 50% de las observaciones de una variable, ubicadas en la franja central
de todas las observaciones ordenadas de menor a mayor.
El Recorrido intercuartil se denota por R.I y se define por: R . I =P 75−P25
El Recorrido Intercuartil, también se utiliza para comparar dos grupos de elementos de dos muestras donde se observa la
misma variable. El grupo con menor recorrido intercuartil, será más homogéneo en su parte central (la franja central), que
el grupo con mayor recorrido intercuartil, respecto a la variable observada.
11