Está en la página 1de 11

Universidad de Tarapacá Departamento de Matemática

Apuntes de Clases 1

Contenido: Estadística DescriptivaAsignatura: Bioestadística y ComputaciónProfesora: Ludy Nuñez S.

Población: Es el conjunto de elementos, donde se obtiene la información de un fenómeno o experimento en estudio.

Muestra: Es un subconjunto de la población, de menor tamaño. En general la muestra debería ser representativa de la
población en estudio, para esto cada elemento de la muestra debe ser elegido aleatoriamente (al azar), de tal manera que
cada elemento de la población tenga la misma posibilidad de ser elegido.

Variable: es la característica observada en cada elemento de la muestra o población. Existen dos tipos de variables.

Variable cualitativa o Atributo: Este tipo de variable representa una cualidad o atributo que clasifica a cada caso en una de
varias categorías. La situación más sencilla es aquella en la que se clasifica cada caso en uno de dos grupos
(hombre/mujer, enfermo/sano, fumador/no fumador). Son datos dicotómicos o binarios. Como resulta obvio, en muchas
ocasiones este tipo de clasificación no es suficiente y se requiere de un mayor número de categorías (color de los ojos,
grupo sanguíneo, profesión, etcétera).
En el proceso de medición de estas variables, se pueden utilizar dos escalas:
Escalas nominales: ésta es una forma de observar o medir en la que los datos se ajustan por categorías que no mantienen
una relación de orden entre sí (color de los ojos, genero, profesión, presencia o ausencia de una falla, etcétera).
Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarquía entre las categorías (nivel socioeconómico,
quintil, etcétera).

Variable cuantitativa: este tipo de variable sepuede medir, cuantificar o expresar numéricamente. Las variables
cuantitativas pueden ser de dos tipos:
Discreta: Toma un número finito o infinito numerable de valores. Por ejemplo: Número de cargas familiares, número de
asignaturas inscritas en el año, etc.
Continua: Toma valores dentro de un intervalo de números reales. Por ejemplo: Estatura,
ingreso mensual, temperatura, etc.

Para describir los datos o la información de estas variables se utiliza una tabla llamada tabla de distribución de
frecuencias. Se construirán las tablas y los gráficos utilizando el Software estadístico SPSS.

La tabla de distribución de frecuencias se utiliza para describir la información de una variable, esta variable se puede
agrupar en categorías (cuando toma pocos valores) o en intervalos (cuando toma un número grande de valores). La tabla
tiene la siguiente estructura.

Variable fi hix100 Fi Hix100


X1 f1 h1x100 F1 H1x100
⁞ ⁞ ⁞ ⁞ ⁞
Xi fi hix100 Fi Hix100
⁞ ⁞ ⁞ ⁞ ⁞
Xk fk hkx100 Fk Hkx100

Xi: Valor de la variable.


fi: frecuencia absoluta, corresponde al número de veces que en la masa de datos se repite el valor X i.
hi: frecuencia relativa, corresponde a la proporción de de veces que en la masa de datos se repite el valor X i.
Fi: frecuencia absoluta acumulada, corresponde al número de observaciones menores o iguales a X i.
Hi: frecuencia relativa acumulada, corresponde a la proporción de observaciones menores o iguales a X i.

Gráfico circular: Este gráfico se utiliza generalmente para describir la información de una variable cualitativa, que
considera pocas categorías.

Gráfico de Barras: Consiste en k-barras, separadas una de otra, correspondientes a las k- categorías o niveles de la
variable. La altura de cada barra es la frecuencia absoluta correspondiente a cada categoría. (Este gráfico también puede
ser usado para describir un atributo).

1
Universidad de Tarapacá Departamento de Matemática
Situación: En el Colegio “Alegría” de Enseñanza Básica, se realiza un estudio sobre el nivel socioeconómico, el número
de hermanos y el peso de los alumnos de Primer año Básico. Para esto se eligió una muestra de 75 niños, obteniendo los
siguientes resultados:
Nivel socioeconómico
B E EP M B A B M EP B M EP M E A
P P
EP B M A A EP M M M A B B A M A
M M B M M B M A B E M M B B M
P
A M A B B A A E M E B EP M B B
P P
M A M
E M M B B B
A M B A M M
P
Donde: EP: extrema pobreza B: nivel socioeconómico bajo M: nivel socioeconómico medio A: nivel socioeconómico
alto.

Número de Hermanos
0 1 1 2 2 2 3 3 4 1 1 0 0 1 2
2 3 2 3 4 1 0 1 1 0 2 2 3 4 3
0 2 3 4 5 3 2 1 1 2 3 3 1 1 0
5 0 2 3 3 4 2 1 0 1 2 2 3 4 1
1 2 2 1 0 2 1 2 4 2 1 5 2 1 2

Peso (en Kg)


15,3 18,5 16,0 19,6 20,5 21,3 17,4 18,7 16,6 15,9 22,8 23,7 15,8 19,0 20,5
24,7 26,2 15,5 16,3 17,0 18,4 18,7 19,8 20,2 21,4 16,4 17,3 18,3 27,0 20,2
23,9 21,2 25,1 18,7 17,5 16,9 18,9 16,4 17,4 15,8 17,2 24,5 25,8 22,7 23,1
24,0 25,8 22,6 23,7 24,0 14,9 16,0 17,3 18,5 19,9 20,3 22,5 19,4 25,0 24,6
25,1 16,9 16,8 20,1 21,4 18,5 17,2 22,9 23,5 26,8 22,0 21,5 23,7 24,9 19,5

1. Indique los elementos donde se observan las características: Niños de primero Básico del colegio Alegría
2. Indique el tipo de variable correspondiente a cada característica observada.
Nivel socioeconómico: Variable cualitativa ordinal
Número de hermanos: Variable cuantitativa discreta
Peso: Variable cuantitativa continua

3. En la siguiente figura se muestra la tabla para la variable nivel socioeconómico, tabla obtenida utilizando SPSS.

Nivel Socioeconómico
Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado
A 15 20,0 20,0 20,0
Válidos
B 21 28,0 28,0 48,0
EP 12 16,0 16,0 64,0
M 27 36,0 36,0 100,0
Total 75 100,0 100,0
Completa la tabla de distribución de frecuencias usando la información dada en la tabla anterior

Tabla 1: nivel Socioeconómico de 75 niños de primero básico del colegio Alegría

Nivel Cantidad Porcentaje de Cantidad Porcentaje


socioeconómic de niños niños acumulada acumulado
o
Alto 15 20,0 15 20,0
Bajo 21 28,0 36 48,,0
Extrema 12 16,0 48 64,0

2
Universidad de Tarapacá Departamento de Matemática

Pobreza
Medio 27 36,0 75 100

Interpretación de algunos valores de la tabla.


15, “15 niños de la muestra tienen nivel socioeconómico alto”
36,0 “ El 36% de los niños de la muestra son de nivel socioeconómico medio”.
36, “ 36 niños de la muestra son de nivel socioeconómico alto o bajo”.
64,0, “El 64% de los niños de la muestra son de Extrema pobreza, o nivel socioeconómico bajo o alto.

4. Interprete un sector del gráfico que se obtuvo usando SPSS.

Sector Azul: “20% de los niños de la muestra tienen un nivel socioeconómico alto”.

5. En la siguiente figura se muestra la tabla para la variable número de hermanos, obtenida usando SPSS.
Número de hermanos
Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado
Válidos 0 10 13,3 13,3 13,3
1 20 26,7 26,7 40,0
2 22 29,3 29,3 69,3
3 13 17,3 17,3 86,7
4 7 9,3 9,3 96,0
5 3 4,0 4,0 100,0
Total 75 100,0 100,0

Complete la tabla de distribución de frecuencias utilizando la información de la tabla anterior

Tabla 2:
N° de hermanos N° de niños Porcentaje de N° acumulado de Porcentaje
niños niños acumulado de niños
0 10 13,3 10 13,3
1 20 26,7 30 40,0
2 22 29,3 52 69,3
3 13 17,3 65 86,7
4 7 9,3 72 96,0
5 3 4,0 75 100,0
3
Universidad de Tarapacá Departamento de Matemática

Interpretación de algunos valores de la tabla.


f 2=20; “20 niños de la muestra tiene un hermano”
h6 ∙ 100=4 , 0; “El 4% de los niños de la muestra tiene 5 hermanos”.
F 3=52; “52 niños de la muestra tienen 0, 1 o 2 hermanos”.
H 4 ∙ 100=86 ; “El 86,7% de los niños de la muestra tiene 0,1, 2 o 3 hermanos”.
6. Interprete una barra del siguiente gráfico construido usando SPSS.

Quinta barra: “7 niños de la muestra tienen 4 hermanos”

4
Universidad de Tarapacá Departamento de Matemática

Apuntes de Clases 2

Contenido: Estadística Descriptiva Asignatura: Bioestadística y Computación Profesora: Ludy Núñez S

En el caso que una variable cuantitativa continua o discreta con muchas categorías, es necesario agrupar la información
utilizando intervalos, llamados intervalos de clase. Para determinar estos intervalos se siguen los siguientes pasos:
1. Se calcula el número de intervalos (k) , para esto se puede utilizar:
a) La Regla de Sturges, donde: k = 1 + 3,3 log (n)
b) k ≈ √ n.
2. En la masa de datos se ubica el menor y mayor valor observado de la variable. x min y xmax respectivamente.
3. Se calcula el rango de la variable L=x max −x min
4. Se determina la amplitud de cada intervalo de clase c i=x i−x i−1.
L
Generalmente se construyen k- intervalos de clase de igual amplitud la que esta dada por c i ≈
k

Por ejemplo para la variable peso de 75 niños de primero básico del colegio Alegría, se obtiene la siguiente información al
analizar los datos en SPSS.

Estadísticos
i) k = 1+3,3log(75)= 7,18…≈ 7
Peso 12 ,1
ii) Amplitud de cada intervalo c i= =1 , 72.. ≈ 1 , 8
N Válidos 75 7
Perdidos 0 ¿
iii) Nuevo rango L =1 ,8∗7=12 ,6
Rango 12,1
Mínimo 14,9 iv) Diferencia = 12,6 – 12,1 = 0,5 (0,3 – 0,2)
Máximo 27,0 El Límite inferior del primer intervalo es: 14,9 – 0,3 = 14,6
El Límite superior del séptimo intervalo es: 27,0+0,2= 27,2

El cálculo anterior se utiliza para transformar la variable consumo a una variable categórica que permite construir la
siguiente tabla usando SPSS.
Peso de los Niños
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos <= 16,4 11 14,7 14,7 14,7
16,5 - 18,2 12 16,0 16,0 30,7
18,3 - 20,0 15 20,0 20,0 50,7
20,1 - 21,8 11 14,7 14,7 65,3
21,9 - 23,6 8 10,7 10,7 76,0
23,7 - 25,4 13 17,3 17,3 93,3
25,5+ 5 6,7 6,7 100,0
Total 75 100,0 100,0

Usando la información de la tabla anterior se completar la tabla de distribución de frecuencias


Tabla 3:
Peso, en kg. N° de Porcentaje de N° acumulado Porcentaje acumulado
niños niños de niños de niños
14,5 – 16,4 11 14,7 11 14,7
16, 5 – 18,2 12 16,0 23 30,7
18, 3 – 20,0 15 20,0 38 50,7
20,1 – 21,8 11 14,7 49 65,3
21,9 – 23,6 8 10,7 57 76,0
23,7 – 25,4 13 17,3 70 93,3
25,5 – 27,2 5 6,7 75 100,0

5
Universidad de Tarapacá Departamento de Matemática

Interpretación de algunos valores de la tabla 3.


f 1=11, “11 niños de la muestra pesan entre 14,5 y 16,4 kilos”.
h3 ∙100=20 , 0; “El 20% de los niños de la muestra pesan entre 18,3 y 20 kilos”.
F 5=57; “57 niños de la muestra pesan entre 14,5 y 23,6 kilos”.
H 6 ∙100=93 , 3; “Un 93,3% de los niños de la muestra pesa entre 14,5 y 25,4 kilos”.

Histograma de Frecuencias: Este gráfico se utiliza para presentar la información de una variable agrupada en intervalos de
clase. Consiste en k-barras contiguas, correspondientes a los k-intervalo de clase. La altura de cada barra es la frecuencia
absoluta asociada a cada intervalo de clase, y su base es la amplitud de cada intervalo de clase.

En la siguiente figura se muestra el histograma para la variable consumo mensual de agua, obtenido usando SPSS.

Tercera Barra: “15 niños de la muestra pesa entre 18,2 y 20,0 kilogramos”.

Medidas de Resumen o Estadígrafos

Medidas de Resumen: Son valores que resumen el comportamiento de las observaciones de una variable, describen la
distribución de la variable con respecto a posición, dispersión, simetría y apuntamiento.

Medidas de Resumen o Estadígrafos de Posición: Sirven para observar en que parte de la escala de medición tienden a
agruparse las observaciones de una variable.

Medidas de Resumen o Estadígrafos de Dispersión: Describen un grupo de observaciones de una variable en función
de la dispersión de los ítems incluidos dentro de ese grupo. Es decir describen cuan dispersas o variables son las
observaciones de una variable.

Medidas de Resumen de Asimetría: Describen como se distribuye la variable en torno a un eje de simetría. Este eje de
simetría se fija en una recta que pase por lamedia aritmética de la distribución. La asimetría también se utiliza para
comparar distribuciones por que se pretende que estas medidas carezcan de unidades.La medida que da el grado de
asimetría de una distribución de datos es el sesgo.

Medidas de Resumen de Apuntamiento o Curtosis:Muestran como se distribuyen losvalores centrales de una variable.
Para ello se compara la distribuciónque se esté analizando con la distribución normal. Estas medidas indican si la
distribución tiene una forma de campana más o menosapuntada que la distribución normal.

6
Universidad de Tarapacá Departamento de Matemática
Medidas de Resumen
Posición
Media o promedio aritmético Tendencia
central
Moda

Mediana

Percentil

Dispersión
Varianza

Desviación estándar o típica

Coeficiente de Variación

Puntaje Típico

Recorrido intercuartil

Asimetría

Coeficiente de asimetía

Apuntamiento
Coeficiente de curtosis

Media o Promedio Aritmético y Desviación Típica o Estándar


x x x
Sean 1 , 2 ,……, n …. Las observaciones de una variable X, entonces la media o promedio aritmético y la desviación
estándar se definen por:
Media o Promedio Aritmético Desviación Estándar o Típica


N N
1 1
Poblacional μ= ∑x
N i=1 i σ= ∑ ( x i−μ )
2
N i=1


n n
1 1
Muestral X= ∑x
n i=1 i S= ∑ ( x i−X )
2
n−1 i=1


n n
1 1
Datos agrupados en categorías o X= ∑m ∙f
n i=1 i i S= ∑ ( m − X )2 ∙ f i
intervalos de clase n−1 i=1 i

Observación:
1. mi : marca de clase, punto medio del i-ésimo intervalo de clase o valor correspondiente a la i-ésima categoría.
2. La desviación típica describe la variabilidad absoluta de las observaciones de una variable, con respecto a la media
o promedio aritmético. Se expresa en la misma unidad de medida que la variable
3. La media aritmética y la desviación típica se pueden obtener usando el modulo estadístico de una calculadora
científica.

Varianza: Se define como el cuadrado de la desviación típica. Al igual que la desviación típica, la varianza mide la
variabilidad o dispersión de las observaciones de la variable respecto de la media o promedio aritmético.
7
Universidad de Tarapacá Departamento de Matemática
σ2 : Varianza poblacional
S2 : Varianza muestral

Coeficiente de Variación: Es un número abstracto, que se expresa en porcentaje. Describe la variabilidad relativa de las
observaciones de una variable. Se define por:
S
C.V= ∙100
X
El coeficiente de variación, también se utiliza para comparar los elementos de la muestra o muestras respecto a dos o una
varible.
En el caso de comparar los elementos de una muestra respecto de dos variables observadas en ellos, los elementos de la
muestra o población serán más homogéneos respecto a la variable que tenga menor coeficiente de variación, que respecto
a la otra variable.
En el caso de comparar dos grupos de elementos en los que se observa la misma variable, el grupo que tenga menor
coeficiente de variación será más homogéneo que el otro grupo, respecto a dicha variable.

Puntaje Típico: Es el valor que indica la posición relativa de una observación respecto al promedio. Se define por:
x o −X
Z ( xo )= , luego si.
S
 Z (x¿¿ o)=0 ¿, se tiene, x o= X .
 Z (x¿¿ o)< 0 ¿, entonces el valor observado de la variable, estaría bajo el promedio en ||desviaciones típicas.
 Z (x¿¿ o)> 0 , ¿entonces el valor observado de la variable, estaría sobre el promedio en Z (x¿¿ o)¿ desviaciones
típicas.

El puntaje típico, se utiliza para medir “el rendimiento” de un individuo de la muestra o de la población respecto al grupo
total de individuos.

Ejemplo de aplicación: En el centro de salud integral “Vida Sana”, se realiza un estudio sobre la cantidad diaria de horas
de ejercicio realizadas y la cantidad de calorías (en miles), que consumen diariamente los pacientes que acuden a este
centro de salud integral. El estudio se hizo en base a una muestra de 60 pacientes, obteniéndose los resultados que se
describen en las siguientes tablas:

Horas N° de
pacientes
0,5 10
1,0 14
1,5 16
2,0 12
2,5 8

8
Universidad de Tarapacá Departamento de Matemática

Calorías N° de pacientes
1,0 – 1,4 9
1,4 – 1,8 13
1,8 – 2,2 17
2,2 – 14
2,6
2,6 – 7
3,0

Para la cantidad de horas de ejercicio realizadas se tiene.

N° de mi ∙ f i 2
Horas
Pacientes ( mi− X ) ∙ f i
0,5 10 5 9,025
1 14 14 2,835
1,5 16 24 0,04
2 12 24 3,63
2,5 8 20 8,82
Total T1= 60 T2=87 T3= 24,35

Media o promedio aritmético

T 2 87
X= = =1 , 45 ≈ 1, 5“La cantidad promedio de horas de ejerccicio realizadas por los pacientes es de 1,5 horas”
T 1 60

Desviación Estándar o Típica

S=
√ T3
T 1−1
=
√ 24 ,35
59
=0 , 64 ≈ 0 , 6, “La variabilidad absoluta del número de horas de ejercicios realizada por los
pacientes , respecto al promedio es de 0,6 horas”

Coeficiente de Variación
S 0 ,64
C.V= ∙100= ∙ 100=44 , 14 “La variabilidad relativa del número de horas de ejercicios realizada por los
X 1, 45
pacientes , respecto al promedio es del 44,14%”

Puntaje Típico de un paciente que realiza 2 horas de ejercicios.


x o −X 2−1 , 45
Z ( xo )= = =0 , 86 ; “El paciente que realiza 2 horas de ejercicio está sobre el promedio, en 0,86 unidades
S 0 , 64
de desviación típca”.

Para la cantidad de calorías se tiene:

Calorías mi Nº de mi ∙ f i 2
( mi− X ) ∙ f i
pacientes
1,0 – 1,4 1,2 9 10,8 5,476
1, 4 – 1,8 1,6 13 20,8 1,877
1,8 – 2,2 2 17 34 0,007
2,2 – 2,6 2,4 14 33,6 2,470
2,6 – 3,0 2,8 7 19,6 4,707
Total T1= 60 T2=118,8 T3= 14,536

9
Universidad de Tarapacá Departamento de Matemática
Media o promedio aritmético
T 2 118 , 8
X= = =1 ,98 ; “ El número promedio de calorías consumidas diariamente, por lo s pacientes es de 1980
T1 60
calorias”.

Desviación Estándar o Típica

S=
√ T3
T 1−1
=

14,534
59
=0 , 50 ; “La variabilidad absoluta del número de calorías consumidas por los pacientes, respecto
al promedio, es de 500 calorías”.

Coeficiente de Variación
S 0 ,50
C.V= ∙100= ∙100=25 , 25 ; “La variabilidad relativa del número de calorías consumidas por los
X 1 , 98
pacientes, respecto al promedio, es de 500 calorías”.

Puntaje Típico de un paciente que consume diariamente 1450 calorias


x o −X 1, 45−1 , 98
Z ( xo )= = =−1 , 06; “El paciente que consume 14590 calorias al dìa, està bajo el promedio, en
S 0 ,50
1,06 unidades de desviación típica”.

Comparación de Coeficientes de Variación.


CV horas=44 , 14>CV calorias =25 , 25
“Los pacientes de la muestra son más homogéneos respecto a la cantidad d calorías que consume, que al número de horas
de ejercicio realizadas”.

Moda: Es el valor de la variable que más se repite en un grupo de observaciones de una variable (o atributo). Para
variables descritas en una tabla de distribución de frecuencias, la moda esta asociada a la máxima frecuencia absoluta. En
el caso de una variable agrupada en intervalos de clase, la moda se calcula usando la siguiente formula.

Md=x j−1+ c j ∙
( f j −f j−1
f j −f j−1+ f j−f j +1 )
f j : máxima frecuencia absoluta.
x j−1: Límite inferior del intervalo de clase asociado a la máxima frecuencia absoluta.
c j : Amplitud del intervalo de clase asociado a la máxima frecuencia absoluta.
f j−1: frecuencia absoluta ubicada en la posición anterior de f j .
f j +1 : frecuencia absoluta ubicada en la posición posterior de f j .
Observación: Una variable puede tener una, dos o más modas.

Percentil k (k=1,….99): En un grupo de observaciones ordenadas de menor a mayor, el percentil k, es le valor de la


variable que satisface las siguientes condiciones:
“No más del k% de las observaciones de la variable son inferiores a él” o “No más del (100-k)% de las observaciones de
la variable son superiores a él”

Mediana: Es el valor central en un grupo de datos ordenados de menor a mayor. Se denota por Me.
Ejemplo:
 1 , 2 , 3 , 3 , 4 , 4 , 5 , 7 , 9 la mediana es 4
6+7
 1 , 2 , 3 , 5 , 6 , 7 , 8 , 9 , 9 , 10 la mediana es =6 ,5
2

10
Universidad de Tarapacá Departamento de Matemática

Esto significa que la mediana es igual al percentil 50. Luego calcular e interpretar la mediana equivale a calcular e
50. Es decir,
Me=P50
interpretar el percentil

Recorrido Intercuartil: Mide la variabilidad del 50% de las observaciones de una variable, ubicadas en la franja central
de todas las observaciones ordenadas de menor a mayor.
El Recorrido intercuartil se denota por R.I y se define por: R . I =P 75−P25
El Recorrido Intercuartil, también se utiliza para comparar dos grupos de elementos de dos muestras donde se observa la
misma variable. El grupo con menor recorrido intercuartil, será más homogéneo en su parte central (la franja central), que
el grupo con mayor recorrido intercuartil, respecto a la variable observada.

11

También podría gustarte