Está en la página 1de 32

1 Estadı́stica Descriptiva

1.1 Conceptos básicos

Estadı́stica. Ciencia que recoge, organiza, presenta, analiza e interpreta


datos con el fin de propiciar una toma de decisiones más eficaz.

El estudio de la estadı́stica se divide en dos categorias: la estadı́stica de-


scriptiva y la estadı́stica inferencial.

Estadı́stica descriptiva. Métodos para organizar, resumir y presentar


los datos de manera informativa.
Por ejemplo la población de la República Dominicana en el año 2011, la
tasa de analbetismo, la matrı́cula inicial del año escolar 2011-2012.

Estadı́stica Inferencial. Métodos que se emplean para determinar una


propiedad de una población con base a la informacón de una muestra de
ella. Por ejemplo, la estimación de la proporción de la población que
respalda un determinado candidato, la estimación del ingreso promedio de
la la comunidad de padres y madres de un distrito educativo, la estimación
de la problación de la república dominicana para el año 2020.

Población. Conjunto de individuos u objetos de interés o medidas que


se obtienen a partir de todos los individuos u objetos de interés.

Muestra. Porción o parte de la población de interés.

1
Parámetro. Es una medición numérica que describe algunas carac-
terı́sticas de una población.

Estadı́stico. Es una medicı́on numérica que describe alguna carac-


terı́stica de una muestra.

Variable. Es el conjunto de caracterı́sticas de la población que interesan


en una investigación cientı́fica. Por ejemplo un educador le puede llamar
la atención el rendimiento en lectura de los estudiantes que han aprendido
a leer con un método determinado.

1.2 Tipos de variables

Existen dos tipos básicos de variables: cualitativas y cuantitativas.

Variable cualitativa o de atributo. Cuando la caraterı́stica que se


estudia es de naturaleza no numérica. Como ejemplo tenemos: el género,
el estado civil, etc.

Variable cuantitativa . Cuando la variable que se estudia aparece en


forma numérica. Como ejemplo tenemos: el ingreso de los profesores del
sector público, las calificaciones numérica de los estudiantes.

2
1.3 Escala de medición

Las variables se clasifican por escala de medición. La escala de medición


de los datos de una variable rige los cálculos que se llevan a cabo con el fin
de resumir y presentar los datos.

Escala nominal. Cuando los datos de una variable se compone de


etiquetas o nombres utilizados para identificar un atributo del elemento.
Como ejemplo tenemos el sexo, el estado civil, nivel académico.

Escala ordinal. Cuando los datos pueden acomodarse en algún orden,


aunque no es posible determinar diferencias entre los valores de los datos
o tales diferencias carecen de significado. Como ejemplo tenemos las cali-
ficaciones literales de un estudiante.

Escala de intervalo. Se parece al nivel anterior pero con la propiedad


adicional de que la diferencia entre los valores de los datos es significativa.
Sin embargo, los datos en esta escala no tienen punto de partida cero natu-
ral inherente. Como ejemplos tenemos las temperaturas corporales de 98.2
F y 98.6 F, los años 1000, 2008, 1776 y 1492. El tiempo no inicia en el
año cero, por lo que el año cero es arbitrario y no constituye un punto de
partida cero natural que represente la ausencia de tiempo.

Escala de razón. Es similar a la escala de intervalo, pero con la


propiedad adicional de que si tiene un punto de partida cero natural (donde
el cero indica que nada de la cantidad está presente). Tanto las diferencias
como los cocientes tienen sentido. Como ejemplo tenemos los ingresos de
los empleados, el tiempo en servicio de los profesores.

3
2 Resumen de datos
2.1 Distribución de Frecuencias

Una distribución de frecuencias es un resumen tabular de datos que mues-


tra el número (frecuencias) de elementos en cada una de varias clases que
no se superponen.

Los elementos de una distribución de frecuencias son:


1. Los lı́mites de clase inferiores son las cifras mas pequeñas que pueden
pertenecer a las diferentes clases.
2. Los lı́mites de clase superiores son las cifras mas grandes que pueden
pertenecer a las diferentes clases.
3. Las fronteras de clase son las cifras que se utilizan para separar las
clases, pero sin los espacios creados por los lı́mites de clase.
4. Las marcas de clase son los puntos medios de clases. Se calculan me-
diante la semi suma de los lı́mtes inferior y superior de clase.
5. la anchura de clase es la diferencia entre dos lı́mites de clases inferiores
consecutivos o dos fronteras de clases inferiores consecutivas.

2.2 Procedimientos para construir una Distribución de Frecuencias

Para construir una distribución de frecuencias se dan los siguientes pasos:


1. Decida el número de clases que desea, el cual debe estar entre 5 y 20.
2. Calcule la anchura de clase dividiendo el rango entre el número de
clases.

4
3. Punto de partida: Comience por elegir un número para el lı́mte infe-
rior de la primera clase. Elija el valor del dato más bajo o un valor
conveniente que sea un poco más pequeño.
4. Usando el lı́mite inferior de la primera clase y la anchura de clase,
proceda a listar los demás lı́mites de clases inferiores. (Sume la anchura
de clase al punto de partida para obtener el segundo lı́mite de clase
inferior y ası́ sucesivamente). Luego proceda a determinar los lı́mites
superiores.
5. Determine la frecuencia de cada clase.

2.3 Distribución de Frecuencias relativas

Una Distribución de Frecuencias relativas se determina dividiendo la fre-


cuencia de cada clase entre el total de frecuencias.

2.4 Distribución de Frecuencias acumuladas

Otra variante de la distribución de frecuencias estándar se utiliza cuando


se busca totales acumulativos. La frecuencia acumulativa de una clase es
la suma de la frecuencia para esa clase y todas las clases anteriores.

2.5 Histogramas

Un histograma es una gráfica de barras donde la escala horizontal repre-


senta clases de valores de datos y la escala vertical representa las frecuen-
cias. Las alturas de las barras corresponden a los valores de frecuencia; en
tanto que las barras se dibujan de manera adyacente ( sin huecos entre sı́).

2.6 Polı́gono de frecuencias

Un polı́gono de frecuencias se usa para presentar los puntos medios de clase


en una distribución de frecuencias.

5
El procedimiento para construir un polı́gono de frecuencias consiste en
determinar cada punto medio de clase y luego se marca en la base superior
de cada rectángulo.
Ejemplo. Los datos siguientes corresponden a las puntuaciones del coe-
ficiente de inteligencia de 70 personas tomadas al azar. Considerando una
anchura de clase igual 10

102 135 105 82 114 126 93 107 128 123 91 116 133 100
151 51 104 101 118 123 98 90 67 112 107 123 121 115
93 73 116 105 107 118 153 109 78 98 104 140 117 147
121 89 95 98 143 114 118 123 102 89 83 135 101 120
84 76 158 78 136 107 105 100 97 95 102 85 94 89
1. Contruya una distribución de frecuencias.
2. Contruya una distribución de frecuencias relativas.
3. Contruya una distribución de frecuencias porcentual.
4. Contruya una distribución de frecuencias acumuladas.
5. Contruya una distribución de frecuencias acumuladas porcentual.
6. Interprete la frecuencia simple de la 3ra. clase.
7. Interprete la frecuencia acumulada de la 4ta. clase.
8. Interprete la frecuencia acumulada porcentual de la 5ta. clase.
9. Construya un histograma y un polı́gono de frecuencias.

3 Presentación de datos

Existen tres formas diferentes de presentar los datos estadı́sticos, que son

6
1. Escrita
2. Tabular
3. Gráfica

3.1 presentación escrita

Esta forma de presentación de informaciones se usa cuando una serie de


datos incluye pocos valores, por lo cual resulta más apropiada la palabra
escrita como forma de describir el comportamiento de los datos.

3.2 presentación tabular

Cuando los datos estadı́sticos se presentan a través de un conjunto de filas


y de columnas que responden a un ordenamiento lógico, decimos que están
presentados en forma tabular o en forma de tabla o cuadro estadı́stico.

Un cuadro estadı́stico consta de varias partes, las principales son las sigu-
ientes:
1. Tı́tulo
2. Encabezados
3. Cuerpo del cuadro
4. Fuente
5. Notas al pies
Tı́tulo
Es la parte más importante del cuadro y sirve para describir todo el con-
tenido de éste. Un tı́tulo completo y correcto siempre debe responder las
preguntas ¿qué?, ¿cómo?, ¿dónde? y ¿cuándo?.

7
Ejemplo.
Alumnos matriculados del sector público segun nivel, año lectivo 1999-
2000.

Encabezados
Son los diferentes subtı́tulos que se colocan en en parte superior de cada
columna.

Columna matriz
Es la columna principal del cuadro. Se encuentra al lado izquierdo del
cuadro y se coloca en ella la variable principal bajo estudio.

Cuerpo
Contiene todas las informaciones numéricas que aparecen en la tabla.
Fuente
Indica la procedencia de los datos. Si las informaciones fueron recopiladas
y presentadas por la misma persona o intitución no es necesario señalar la
fuente.

Notas al pie
Las notas al pie son usadas para hacer algunas aclaraciones sobre aspectos
que aparecen en la tabla y que no han sido explicados en otra parte.

3.3 presentación gráfica

Una gráfica podemos definirla como una expresión artı́stica usada para
representar un conjunto de datos.
De acuerdo al tipo de variable que vamos a presentar, los gráficos mas
usados son los siguientes:
1. De barra
2. Lineal

8
3. Circular
Gráfico de barras
Es un conjunto de rectángulos o barras separadas una de otra, en razón
de que se usa para representar variables discretas. La altura de cada barra
depende de la frecuencia de clase.
Gráfico lineal
Son usadas principalmente para representar datos clasificados por cantidad
o tiempo, es decir, se usan para representar series de tiempo o cronológica.
Gráfico Circular

Se usan especialemte para representar las partes en que se divide una


cantidad total.

4 Medidas de tendencia central

Las medidas de tendencia central más usadas son: la media, la moda y la


mediana.

Media aritmética
Es la medida de tendencia central o promedio más conocida y más ampli-
amente usada.
Se define como el cociente que se obtiene al dividir la suma de los valores
de la variable entre el total de las observaciones.
Para una variable X, se denota po X̄ en el caso de una muestra y por µ en
el caso de una población y se determina mediante la fórmula

xi
X̄ =
n
Ejemplo. Determine la media en el siguiente conjunto de datos: 67, 45,
52, 67.

9
Media ponderada
la media ponderada para un conjunto de datos se determina mediante la
fórmula ∑
XW
X¯w = ∑
W
Ejemplo. Determine el ı́ndice académico de un estudiante con 78 en una
asignatura de 5 créditos, 80 en una asignatura de 4
créditos y 85 en una asignatura de 3 créditos
datos: 67, 45, 52, 67.
Mediana
La mediana es la observación de la mitad después que se colocan los datos
en una serie ordenada.

Si el conjunto de datos tiene un número impar de observaciones, la


posición de la mediana es
n+1
2
Ejemplo. Determine la mediana en el siguiente conjunto de datos: 67, 45,
52, 67, 48.

Cuando un conjunto de datos contiene un número par de observaciones


la mediana es el promedio de los dos valores intermedio.

Ejemplo. Determine la mediana en el siguiente conjunto de datos: 83,


75, 70, 62, 93, 75.

Moda. Es la observación de mayor frecuencia.

Ejemplo. Determine la moda en el siguiente conjunto de datos: 67, 45,


52, 67.

10
Percentiles
Un percentil aporta información acerca de la dispersión de los datos en el
intervalo que va del menor a mayor valor de los datos.

El percentil p es un valor que por lo menos p por ciento de las observa-


ciones son menores o iguales que este valor y por lo menos (100 − p) por
ciento de las observaciones son mayores o iguales que este valor.
Cálculo del Percentil p

1. Ordenar los datos de menor a mayor.


2. Calcular el ı́ndice i
p
i=( )n
100
donde p es el percentil deseado y n es el número de observaciones.

(a) Si i no es un número entero, debe redondearlo. El primer entero


mayor correspondiente a i denota la posición del percentil p.
(b) Si i es un número entero, el percentil p es el promedio de los valores
en las posiciones i e i+1.
Ejemplo. Los siguientes datos corresponden a las calificaciones de 15
estudiantes:
76, 87, 78, 90, 60, 70, 75, 87, 70, 70. 65, 85, 79, 85, 60.
Determine:
a) El percentil 85
b) El percentil 70

Cuartiles. Con frecuencia es conveniente dividir los datos en 4 partes;


ası́, cada parte contiene una cuarta parte o 25% de las observaciones. A
los puntos de división se le llama cuartiles y están definidos como sigue:

11
a) Q1 = primer cuartil o percentil 25.
b) Q2 = segundo cuartil o percentil 50.
c) Q3 = tercer cuartil o percentil 75.

Ejemplo. Determine Q1 y Q3 en los datos del ejemplo anterior.

5 Medidas de variabilidad o dispersión

Nos indican qué tan dispersos se encuentra un conjunto de datos . Las más
usadas son:

El rango. Se define como la diferencia entre el valor mayor y el valor


menor. Se denota como R = Xmax − Xmin

El rango intercuartı́lico.Es la diferencia entre el tercer cuartil y el primer


cuartil. En otras palabras, es el rango en que se encuentra el 50% central
de los datos. Se denota como
IQR = Q3 − Q1
Varianza. Es una medida de variabilidad que utiliza todos los datos.
Está basada en la diferencia entre el valor de cada observación y la media.Si
los datos son de una población se le llama varianza poblacional y se denota
y se determina mediante la fórmula

2 (x1 − µ)2
σ =
N
Si los datos provienen de una muestra la varianza se llama varianza mues-
tral y se denota y se determina

2 (x1 − x̄)2
s =
n−1

12
Desviación estándar. se define como la raiz cuadrada positiva de la
varianza. √
Desviación estándar muestral = s = s2

Desviación estándar poblacional = σ = σ2

6 Medidas descriptivas calculadas a partir de datos agrupados

Media aritmética.
la media aritmética a partir de datos agrupados se determina mediante la
fórmula

fi xi
X=
n
donde fi es la frecuencia de clase y xi es la marca de clase.

La mediana está dada por


n
2 −F
med = Lmd + [ ]C
fmd
donde
Lmd = lı́mite inferior de la clase que contiene la mediana.
F = frecuencia acumulada de la clase que antecede a la clase mediana.
fmd es la frecuencia de la clase mediana
C es la anchura de clase de la clase mediana.

Nota: La mediana se ubica en la clase que tiene frecuencia acumulada


de 50% o más.

13
La moda se hallará en la clase que contenga la frecuencia más alta, lla-
mada clase modal. se determina mediante la fórmula:

Da
M oda = Lmo + [ ]C
Db + Da
donde
Lmo es el lı́mite inferior de la clase modal.
Da es la diferencia entre la frecuencia de la clase modal y la frecuencia de
la clase que le antecede.
Db es la diferencia entre la frecuencia de la clase modal y la frecuencia de
la clase que le sigue.
C es la anchura de la clase modal.

7 Introducción a la Teorı́a de Probabilidad

La teorı́a de la probabilidad es un modelamiento matemático del azar o


aleatoriedad. En el lenguaje cotidiano el término probabilidad se entiende
como una medida de nuestra confianza de que ocurra un evento aleato-
rio. Una situación que envuelve incertidumbre es lo que en el lenguaje es-
tadı́stico se denomina fenómeno aleatorio, y se caracteriza esencialemente
porque su desarrollo no es previsible.

Podemos definir de forma muy simple la probabilidad como un número


de 0 a 1, que le asignamos a un fenómeno para indicar su posibilidad de
ocurrir.

7.1 Conceptos relacionados con la teorı́a de probabilidad

Experimento

14
En el sentido usual del término, un experimento es un procedimiento u
operación que puede dar lugar a distintos resultados, todos ellos previa-
mente identificables. Un ejemplo de un experimento puede ser lanzar una
moneda para observar si cae cara o escudo. Otro ejemplo es averiguar cuál
entre varios métodos de aprendizaje es el mas efectivo o aplicar un examen
final a un estudiante y observar la puntuación.

Espacio muestral

Con cada experimento E, definimos el espacio muestral como el conjunto


de todos los resultados posibles de E. Usualmente designamos este conjunto
como S. Por ejemplo, en el experimento aleatorio que consiste en lanzar un
dado, el espacio muestral es

S = {1, 2, 3, 4, 5, 6}.
Evento o suceso

Un evento A respecto a un espacio muestral S asociado a un experimento


E es simplemente un conjunto de resultados posibles. Es un subconjunto
del espacio muestral.

7.2 Operaciones y Relaciones entre Eventos

La identificación de un evento como un subconjunto de un espacio muestral


hace posible el uso de la teorı́a de conjuntos para especificar matemáticamente
las relaciones y operaciones entre eventos.
1. Si A y B son eventos, entonces A ∪ B es el suceso que ocurre si y sólo
si A o B o ambos ocurren.
2. Si A y B son eventos, entonces A ∩ B es el evento que ocurre si y sólo
si A y B ocurren.

15
3. Si A es un evento, Ā es el evento que ocurre si y sólo si A no ocurre.
El evento Ā se llama evento complementario de A.
Definición. Dos eventos A y B, son mutuamente excluyentes si no
pueden ocurrir juntos. Expresamos esto escribiendo A ∩ B = ∅.

7.3 Definiciones de probabilidad

Probabilidad clásica o a priori.

Si en un experimento pueden producirse N resultados igualmente posibles


y mutuamente excluyentes y si dentro de estos N resultados el evento E
puede ocurrir NE veces, la probabilidad del evento E, que se escribe P (E),
está dada por

NE
P (E) =
N
Probabilidad según el concepto de frecuencia relativa
Consideremos un evento E que se produce en n repeticiones o ensayos de
algún experimento. De acuerdo con el concepto de frecuencia relativa de
ocurrencia, la probabilidad del evento E, P (E), es igual a la frecuencia
relativa de ocurrencia del evento E cuando n es grande. Si nE es el número
de veces que ocurre el evento E en n ensayos de un experimento, podemos
estimar P (E) mediante la expresión
nE
P (E) =
n

7.4 Cálculo de probabilidad de un evento

Regla de la suma

16
Si A y B son eventos entonces la probabilidad de que ocurra A o B o
ambos es
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
Ejemplo 1. Suponga que hay un grupo de 500 profesionales recién grad-
uados de los cuales 175 se especializaron en educación, 150 en comercio,
100 en derecho y 75 en ciencias de la salud. Suponga también que se elige
alzar una persona de este grupo. ¿Cuál es la probabilidad de que la per-
sona elegida se haya especializado en educación o en comercio?

Ejemplo 2. Un sistema escolar recibe 25 solicitudes para una vacante


de director. Entre los solicitantes 10 son hombres y 15 mujeres. 17 de ellos
acreditaron tı́tulo de maestrı́a y 8 tienen licenciatura según indica la tabla.

Sexo M aestrı́a Lic. T


M asc. 7 3 10
F em. 10 5 15
T otal 17 8 25
Se hace una elección al azar entre estos 25 aspirantes. ¿ Cuál es la prob-
abilidad de que la persona seleccionada sea:
1. Una mujer?
2. Una persona con tı́tulo de maestrı́a?
3. Masculino y licenciado?
4. una mujer o una persona con licenciatura?

8 Distribución de probabilidad Discreta

Definición. Sea E un experimento y S un espacio muestral asociado a E.


Una función X que asigna a cada uno de los elementos s ∈ S un número
real X(s), se llama variable aleatoria.

17
La notacion Rx será utilizada para designar la imagen de una variable
aleatoria X; es decir, Rx es el conjunto de todos aquellos números asig-
nados por X a un espacio muestral S. Se hará referencia a Rx como el
recorrido de X.

Las variables aleatorias pueden ser discretas o continuas. Una variable


aleatoria es discreta cuando el recorrido es finito o infinito contable. Las
variables aleatorias continuas son aquellas en las cuales el recorrido Rx es
un conjunto continuo de números tales como un intervalo o una unión de
intervalos.

Ejemplo. Se lanza un par de dados equilibrados. El espacio muestral


S está conformado por 36 pares ordenados (a,b) donde a y b pueden ser
entero entre 1 y 6, es decir,

S = {(1, 1), (1, 2), ..., (6, 6)}


Supongamos que X asigna a cada punto (a,b) de S el máximo de sus
números, es decir, X(a,b) = Max(a,b). Por ejemplo X(1,1) = 1, X(3,4)
= 4, X(5,6) = 6. Por tanto X es una variable aleatoria discreta, donde
cualquier número entero entre 1 y 6 puede ocurrir y ningún otro número
puede ocurrir y el recorrido de X es

Rx = {1, 2, 3, 4, 5, 6}
Ahora supongamos que la variable Y asigna a cada punto (a,b) la suma de
sus números, es decir, Y(a,b) = a + b. Por ejemplo, Y(1,1) = 2, Y(3,4) =
7, Y(6,3) = 9, Y(6,6) = 12. Entonces Y es una variable aleatoria discreta
donde cualquier número entre 2 y 12 puede ocurrir y ningun otro número
puede ocurrir. Por tanto el recorrido de Y es

18
Ry = {2, 3, 4, 5, ..., 12}
Distribución de probabilidad discreta
Cualquier regla o mecanismo que sirva para determinar P (X = x), proba-
bilidad de que la variable aleatoria X tome cada uno de los valores posibles
x, se denomina una distribución de probabilidad. Esta regla o mecanismo
puede ser una tabla, un gráfico o una fórmula.
Una fórmula que se emplee para calcular P (X = x) se denomina función
de probabilidad y generalmente se denota por f(x). Esta función satisface
las siguientes propiedades:

1. f (xk ) ≥ 0

2. nk=1 f (xk ) = 1

8.1 Valor esperado, varianza y desviación estándar de una variable aleatoria


discreta

Definición. Sea X una variable aleatoria discreta con la función de dis-


tribucion P(x). Entonces el valor esperado de X se define como

E(X) = xi P (xi )
Si P(X) es una caracterı́stica precisa de la distribución de frecuencia pobla-
cional, entonces E(X) = µ es la media poblacional.

Definición. Sea X una variable aleatoria con media E(X) = µ. La


varianza de X se define como el valor esperado de (X − µ)2 . Esto es
V (X) = σ 2 = E[(X − µ)2 ]
La desviación estándar de X es la raı́z cuadrada positiva de V(X).

19
Teorema. Si X es una variable aleatoria discreta con función de proba-
bilidad P(X) y media E(X) = µ; entonces

V (X) = σ 2 = E[(X − µ)2 ] = E(X 2 ) − µ2

Ejemplo. Las edades en años de 280 estudiantes se muestran en la


siguiente tabla.

Edad Frecuencia
6 40
7 42
8 50
9 35
10 38
11 45
1. Sea X la variable aleatoria que indica la edad de un estudiante. De-
termine la distribución de probabilidad de X.
2. ¿ Cuál es la probabilidad de que un estudiante elegido al azar tenga 9
años?
3. ¿ Cuál es la probabilidad de que un estudiante elegido al azar tenga
más de 10 años?
4. Determine el la edad esperada, la varianza y la desviación estándar.

9 Distribución de probabilidad continua

Una diferencia fundamental entre las variables aleatorias discretas y las


variables aleatorias continuas es cómo se calculan las probabilidades. En

20
las variables aleatorias discretas la función de probabilidad f(x) da la prob-
abilidad de que la variable aleatoria tome un valor determinado. En las
variables aleatorias continuas, la contraparte de la función de probabili-
dad es la función de densidad de probabilidad, que también se denota por
f(x). La diferencia está en que la función de densidad de probabilidad no
da probabilidades directamente, si no que el área bajo la curva de f(x)
que corresponde a un intervalo determinado proporciona la probabilidad
de que la variable aleatoria tome uno de los valores de este intervalo.

9.1 Distribución Normal

La distribución normal es la más importante y la de mayor uso en la Teorı́a


de la Probabilidad .
Esta distribución es la piedra angular en la aplicación de la Inferencia
Estadı́stica en el análisis de datos, puesto que las distribuciones de mu-
chos estadı́sticos muestrales tienden a la distribución normal cuando el
tamaño de la muestra crece. Además, la distribución normal proporciona
una adecuada representación de las distribuciones de una gran cantidad de
variables fı́sicas. Algunos ejemplos son:

- Mediciones efectuadas en organismos vivos: altura, peso, etc.


-Calificaciones en pruebas de aptitud.

9.1.1 Caracterı́sticas de la distribución Normal

Algunas caraterı́sticas importantes de la distribucion normal son las sigu-


ientes:

1. El área total comprendida bajo la curva y por encima del eje horizontal
es igual a 1.

21
2. La distribución es simétrica respecto a la media. es decir , el 50% del
área está a la derecha de la media y el 50% restante a la izquierda.
3. la media, la moda y la mediana coinciden.
4. La desviación estándar determina qué tan plana y ancha es la curva
normal.
5. Los porcentajes de los valores que se encuentran en algunos intervalos
comúnmente usados son:
(a) 68.3 % de los valores de una variable aleatoria normal se encuentran
más o menos a una desviación estándar de la media.
(b) 94.5 % de los valores de una variable aleatoria normal se encuentran
más o menos a dos desviaciones estándar de la media.
(c) 99.7 % de los valores de una variable aleatoria normal se encuentran
más o menos a tres desviaciones estándar de la media.

9.1.2 Distribución Normal estandarizada

Hay una distribución normal diferente para cada valor diferente de µ y σ.


Una distribución normal de especial importancia en estadı́stica es la dis-
tribución normal estandarizada que tiene una media µ = 0 y una varianza
σ 2 = 1. La variable de esta distribución se representa con la letra Z

Las áreas de la distribucion normal estandarizada correspondientes a


varias probabilidades se encuentran tabuladas. El cuerpo de la tabla que
usaremos, da las áreas bajo la curva a la izquierda de z0 , un valor especı́fico
de Z.

Ejemplo. Determine las siguientes probabilidades:

1. P (−1.78 ≤ Z ≤ 1.52)

22
2. P (Z > 1.76)
3. P (Z < 1.5)
Si la variable aleatoria normal no está estandarizada, para calcular prob-
abilidades hay que estandarizar la variable utilizando la siguiente fórmula
de conversion
x−µ
z=
σ
Ejemplo. Los CI de los individuos que componen una determinada
población, tienen aproximadamente una distribución normal, con una me-
dia de 100 y una desviación tı́pica de 10.
1. Hallar la proporción de individuos con CI mayores 125.
2. ¿Cuál es la probabilidad de que un individuo elegido al azar entre los
de esa población tenga un CI entre 105 y 115?
3. Hallar P (X < 80)

10 Distribuciones muestrales

Gran parte de los conocimientos que tenemos sobre las poblaciones se basan
en la información contenida en las muestras que se sacan de dicha pobla-
ciones. Cuando una firma encuestadora desea saber el nivel de simpatı́a
que tiene un partido polı́tico en la población de votantes, no entrevista a
toda la población de votantes, sólo entrevista a una muestra. Una investi-
gación educativa puede estar interesada en el rendimiento académico de la
población estudiantil en un distrito educativo. Dado que la población de
estudiante puede resultar muy grande sólo se investiga una muestra.

Un conjunto de datos se puede describir por medio de distintas medidas


descriptivas como la media, la varianza y la proporción. Tales medidas
de carácter descriptivo, calculadas a partir de los datos suministrados por

23
una muestra se denomian estadı́sticos. Cuando se calculan con datos pobla-
cionales, se denominan parámetros. Una de las principales preocupaciones
de los investigadores y de las personas encargadas de tomar decisiones, con-
siste en ser capaces de tomar decisiones sobre esos parámetros, que general-
mente no se conocen, tomando como fundamento información relacionada
con estadı́sticos calculados sobre muestras sacadas de las poblaciones. Esta
clase de procedimiento recibe el nombre de inferencia estadı́stica.

Una distribución muestral es una distribución de probabilidad de un es-


tadı́stico muestral calculado a partir de todas las muestras posibles de
tamaño n, elegidas al azar en una población determinada.

La media de la distribución muestral de medias, denotada por X, es igual


a la media de todas las medias y coincide con la media de la población, es
decir,

X
X= =µ
K

donde K es el número de muestras. La varianza de las medias muestrales


está dada por:

1.
σ2 N − n
σx2 = ( )
n N −1

si la población es finita y el tamaño de la muestra es mayor que el 5%


de la población.
2. Si N es infinita o el tamaño de la muestra es menor o igual que el 5%
de la población, entonces:

24
σ2
σx2 =
n

El valor esperado de las proporciones de la distribución muestral de


proporciones es E(b p) = p donde p es la proporción poblacional.
La desviación estándar de pb se llama error estándar de la proporción.
Este valor depende de si la población es finita o infinita. Si la población
es finita y el tamaño de la muestra es mayor que el 5% de la población,
la desviación estándar de pb está dada por

√ √
p(1 − p) N − n
σpb =
n N −1
Si la población es infinita, entonces

p(1 − p)
σpb =
n
Esta fórmula también se usa cuando la población es finita y el tamaño
de la muestra es menor o igual que el 5% de la población.

Para ilustrar lo anterior considere el siguiente ejemplo.


Una escuela tiene N = 5 maestros. la variable de interés, X, es el
número de años de experiencia docente de cada profesor. Los datos
son los siguientes: 6, 1, 2, 9 y 5. Realice la distribución muestral de
medias para n = 2 y determine la media de las medias, la varianza y
la desviación estándar.

10.1 Muestra aleatoria simple

Una muestra aleatoria simple de tamaño n, de una población finita de


tamaño N, es una muestra seleccionada de tal manera que cada muestra

25
posible de tamaño n tenga la misma probabilidad de ser seleccionada.

Un procedimiento para identificar una muestra aleatoria simple a partir


de una población finita es seleccionar uno por uno los elementos que con-
stituyen la muestra, de tal modo que cada uno de los elementos que aún
quedan en la población tengan la misma probabilidad de ser seleccionada.

Ejemplo. Considere la siguiente población de profesores de un centro ed-


ucativo donde se considera el ingreso, tiempo en servicio y nivel académico.

Profesor Ingreso Nivel académico Tiempo en servicio


1 10,500 Licenciado 5
2 12,625 especialidad 2
3 15,369 Licenciado 6
4 9,600 Profesorado 7
5 11,675 Licenciado 4
6 14,759 Especialidad 5
7 15,500 Master 3
8 10,200 Licenciado 1
9 11,457 Profesorado 8
10 9,758 Master 1

Realice lo siguiente:

1. Usando una tabla de números aleatorios seleccione una muestra de


tamaño 5 de esta población.
2. Determine: a) el ingreso promedio de la población, la varianza y la
desviación estándar, b) el ingreso promedio, la varianza y la desviación
estándar de la muestra.
3. Determine: a) la proporción, la varianza y la desviación estándar
poblacional de profesores con tı́tulo de licenciado, b) la proporción,
la varianza y la desviación estándar muestral de profesores con tı́tulo
de licenciado.

26
10.2 Teorema del lı́mite central

Para la distribución muestral de medias el teorema del lı́mite central


establece que
A medida que el tamaño de la muestra (n) se vuelve más grande, la
distribución de las medias muestrales se aproximará a una distribución
normal con una media igual a la media de la población y un error
estándar
σ
σx = √
n
El teorema del lı́mite central para proporciones muestrales establece
que
La disstribución muestral de pb se puede aproximar con una distribución
de probabilidad normal, siempre que el tamaño de la muestra sea
grande. La muestra se considera grande cuando se cumplen las condi-
ciones

(a) np ≥ 5
(b) n(1 − p) ≥ 5

11 Estimación de los parámetros de la población

Se presentan muchas situaciones en las que alguna persona, el que


toma una desición, un planificador o un investigador, desea conocer los
valores de parámetros tales como la media poblacional, la proporción
poblacional, etc. Un educador puede estar interesado en estimar la
proporción de la matrı́cula estudiantil que aprobará al final del año es-
colar. También puede estar interesado en estimar las horas promedio
que los estudiantes dedican al estudio fuera del aula. Generalmente
estas informaciones se obtienen de una muestra y no de la población.

27
La estimación es un conjunto de técnicas que permiten dar un valor
aproximado de un parḿetro de una poblacin a partir de los datos pro-
porcionados por una muestra.
Hay por lo menos dos tipos de estimadores que se utilizan más comúnmente:
Un estimador puntual y un estimador por intervalo. Un estimador pun-
tual utiliza un estadı́stico para estimar el parámetro en un sólo valor o
punto. Un estimador por intervalo especifica el rango dentro del cual
está el parámetro desconocido. Tal intervalo va acompañado (general-
mente) de una afirmación sobre el nivel de confianza que se da en su
exactitud. Por tanto se llama intervalo de confianza.
El error de muestreo es el valor absoluto de la diferencia entre un es-
tadı́stico y el parámetro correspondiente.
Hay tres niveles de confianza que se usan con mayor frecuencia: 90%,
95% y 99%.
Las estimaciones por intervalos gozan de ciertas ventajas sobre las es-
timaciones puntuales. Debido al error de muestreo, probablemente X
no será igual a µ, sin embargo, no hay manera de saber qué tan grande
es el error de muestreo, por tanto los intervalos de confianza se utilizan
para explicar esa discrepancia desconocida.

Un intervalo de confianza tiene un lı́mite inferior de confianza y un


lı́mite superior. Estos lı́mite se hallan calculando primero la media
muestral, luego se suma cierta cantidad a la media muestral para
obtener el lı́mite superior y la misma cantidad se resta a la media
muestral para obtener el lı́mite inferior.
El coeficiente de confianza es el nivel de confianza que se tiene en que
el intervalo contenga el valor desconocido del parámetro.

28
11.1 Intervalo de confianza para la media poblacional, muestras grandes
(n ≥ 30)

El intervalo de confianza para estimar µ cuando σ es conocida es


X ± Zσx
donde Z es el valor asociado al nivel de confianza.

Ejemplo. En una encuesta, se les pidió a 250 alumnos de una es-


cuela que registraran la cantidad de tiempo promedio diario que gasta-
ban estudiando. La muestra arrojó una media de 45 minutos con una
desviación tı́pica de 20 minutos. Construir un intervalo de confianza
del 95% para la media poblacional.

11.2 Tamaño de la muestra para estimar la media poblacional

En cualquier investigación es de gran importancia que la muestra que


se va a sacar sea de tamaño adecuado. Si se toma una muestra de-
masiado grande, se pierde dinero y otros recursos. Por otra parte, si
la muestra es demasiado pequeña, produce resultados inútiles.
La cantidad Zσx , que se le suma y se le resta a le media muestral
se llama margen de error y contiene el tamaño de la muestra. Si la
población es infinita el tamaño de la muestra para estimar la media
poblacional es

z2σ2
n=
E2

Si la población es finita entonces se determina mediante la fórmula

29
N z 2σ2
n= 2 2
z σ + E 2 (N − 1)

Ejemplo. Un investigador de un centro educativo que tiene 2500


alumnos, desea hacer una estimación del tiempo promedio que gastan
los estudiantes en el viaje entre la escuela y la casa. El investigador
desea un intervalo de confianza del 99% y una estimación que esté com-
prendida entre un minuto y la media verdadera. una pequeña muestra
piloto da una varianza de 25 minutos al cuadrado. Qué tamaño debe
tener la muestra que se necesita?

11.3 Intervalo de confianza para la proporción poblacional

Con alguna frecuencia, se desea hacer una estimación de la proporción


de sujetos que componen una población y poseen alguna caracterı́stica
de interés. Por ejemplo la proporción de niños en un sistema escolar
que está n dando un rendimiento bajo, la proporción de adolescente en
una comunidad que tiene acceso al internet, etc. Generalmente, no es
práctico examinar una población entera para determinar la proporción
verdadera que posee la caracterı́stica de interés. En lugar de esto se
toma una muestra aleatoria de la población y se utiliza la proporción
muestral pb para hacer una estimación de la proporción poblacional p.

Cuando el muestreo se hace en una población infinita, el intervalo de


confianza para p está dado por

pb(1 − pb)
pb ± Z
n

30
donde Z está asociado al nivel de confianza y pb es la proporción mues-
tral.

Si el muestreo se hace en una población finita, entonces el intervalo de


confianza es

√ √
pb(1 − pb) N −n
pb ± Z
n N −1

Ejemplo. En un estudio sobre las razones que dan los alumnos sus-
pendidos en la escuela, un investigador tomó una muestra de 200 estu-
diantes suspendidos que fueron entrevistados, 140 dijeron que habı́an
fallado debido a dificultades económicas en su familia. El investigador
querı́a construir un intervalo de confianza del 95% para la verdadera
proporción de jóvenes que habı́an fallado por esta razón.

11.4 Tamaño de la muestra para estimar proporciones poblacionales

Cuando el muestreo se realiza en una población infinita, el tamaño de


la muestra está dado por

Z 2 pq
n=
E2
donde Z está asociado al nivel de confianza , E es el margen de error,
p es la proporción de la población que tiene la caracterı́stica de interés
y q es la proporción de la población que no tiene la caracterı́stica de
interés.

31
Cuando el muestreo se realiza en una población finita, entonces la
fórmula para el tamaño de la muestra es

N pqZ 2
n=
(N − 1)E 2 + Z 2 pq

En ambas fórmulas, si no se conocen los valores de p y q, se recomienda


usar 0.5 para ambos.
Ejemplo. Un consejero escolar desea calcular la proporción de los
1000 alumnos de último año de un sistema escolar que piensa seguir
estudios en la universidad. Qué tamaño debe tener la muestra que
necesita tomar el consejero si su estimación debe estar a 0.05 del valor
verdadero, con 99% de confianza?. En el año anterior, el 70% de los
alumnos encuestados dijeron que tenı́an planeado seguir estudios en la
universidad.

N pqZ 2
n=
(N − 1)E 2 + Z 2 pq
(1000)(0.70)(0.30)(2.58)2
= = 359
(1000 − 1)(0.05)2 + (2.58)2 (0.70)(0.30)

32

También podría gustarte