Estadistica Desc-5

1 Estadı́stica Descriptiva
1.1 Conceptos básicos
Estadı́stica. Ciencia que recoge, organiza, presenta, analiza e interpreta

datos con el fin de propiciar una toma de decisiones más eficaz.
El estudio de la estadı́stica se divide en dos categorias: la estadı́stica de-

scriptiva y la estadı́stica inferencial.
Estadı́stica descriptiva. Métodos para organizar, resumir y presentar

los datos de manera informativa.
Por ejemplo la población de la República Dominicana en el año 2011, la
tasa de analbetismo, la matrı́cula inicial del año escolar 2011-2012.
Estadı́stica Inferencial. Métodos que se emplean para determinar una

propiedad de una población con base a la informacón de una muestra de
ella. Por ejemplo, la estimación de la proporción de la población que
respalda un determinado candidato, la estimación del ingreso promedio de
la la comunidad de padres y madres de un distrito educativo, la estimación
de la problación de la república dominicana para el año 2020.
Población. Conjunto de individuos u objetos de interés o medidas que

se obtienen a partir de todos los individuos u objetos de interés.
Muestra. Porción o parte de la población de interés.
1
Parámetro. Es una medición numérica que describe algunas carac-
terı́sticas de una población.
Estadı́stico. Es una medicı́on numérica que describe alguna carac-

terı́stica de una muestra.
Variable. Es el conjunto de caracterı́sticas de la población que interesan

en una investigación cientı́fica. Por ejemplo un educador le puede llamar
la atención el rendimiento en lectura de los estudiantes que han aprendido
a leer con un método determinado.
1.2 Tipos de variables
Existen dos tipos básicos de variables: cualitativas y cuantitativas.
Variable cualitativa o de atributo. Cuando la caraterı́stica que se

estudia es de naturaleza no numérica. Como ejemplo tenemos: el género,
el estado civil, etc.
Variable cuantitativa . Cuando la variable que se estudia aparece en

forma numérica. Como ejemplo tenemos: el ingreso de los profesores del
sector público, las calificaciones numérica de los estudiantes.
2
1.3 Escala de medición
Las variables se clasifican por escala de medición. La escala de medición

de los datos de una variable rige los cálculos que se llevan a cabo con el fin
de resumir y presentar los datos.
Escala nominal. Cuando los datos de una variable se compone de

etiquetas o nombres utilizados para identificar un atributo del elemento.
Como ejemplo tenemos el sexo, el estado civil, nivel académico.
Escala ordinal. Cuando los datos pueden acomodarse en algún orden,

aunque no es posible determinar diferencias entre los valores de los datos
o tales diferencias carecen de significado. Como ejemplo tenemos las cali-
ficaciones literales de un estudiante.
Escala de intervalo. Se parece al nivel anterior pero con la propiedad

adicional de que la diferencia entre los valores de los datos es significativa.
Sin embargo, los datos en esta escala no tienen punto de partida cero natu-
ral inherente. Como ejemplos tenemos las temperaturas corporales de 98.2
F y 98.6 F, los años 1000, 2008, 1776 y 1492. El tiempo no inicia en el
año cero, por lo que el año cero es arbitrario y no constituye un punto de
partida cero natural que represente la ausencia de tiempo.
Escala de razón. Es similar a la escala de intervalo, pero con la

propiedad adicional de que si tiene un punto de partida cero natural (donde
el cero indica que nada de la cantidad está presente). Tanto las diferencias
como los cocientes tienen sentido. Como ejemplo tenemos los ingresos de
los empleados, el tiempo en servicio de los profesores.
3
2 Resumen de datos
2.1 Distribución de Frecuencias
Una distribución de frecuencias es un resumen tabular de datos que mues-

tra el número (frecuencias) de elementos en cada una de varias clases que
no se superponen.
Los elementos de una distribución de frecuencias son:

1. Los lı́mites de clase inferiores son las cifras mas pequeñas que pueden
pertenecer a las diferentes clases.
2. Los lı́mites de clase superiores son las cifras mas grandes que pueden
pertenecer a las diferentes clases.
3. Las fronteras de clase son las cifras que se utilizan para separar las
clases, pero sin los espacios creados por los lı́mites de clase.
4. Las marcas de clase son los puntos medios de clases. Se calculan me-
diante la semi suma de los lı́mtes inferior y superior de clase.
5. la anchura de clase es la diferencia entre dos lı́mites de clases inferiores
consecutivos o dos fronteras de clases inferiores consecutivas.
2.2 Procedimientos para construir una Distribución de Frecuencias
Para construir una distribución de frecuencias se dan los siguientes pasos:

1. Decida el número de clases que desea, el cual debe estar entre 5 y 20.
2. Calcule la anchura de clase dividiendo el rango entre el número de
clases.
4
3. Punto de partida: Comience por elegir un número para el lı́mte infe-
rior de la primera clase. Elija el valor del dato más bajo o un valor
conveniente que sea un poco más pequeño.
4. Usando el lı́mite inferior de la primera clase y la anchura de clase,
proceda a listar los demás lı́mites de clases inferiores. (Sume la anchura
de clase al punto de partida para obtener el segundo lı́mite de clase
inferior y ası́ sucesivamente). Luego proceda a determinar los lı́mites
superiores.
5. Determine la frecuencia de cada clase.
2.3 Distribución de Frecuencias relativas
Una Distribución de Frecuencias relativas se determina dividiendo la fre-

cuencia de cada clase entre el total de frecuencias.
2.4 Distribución de Frecuencias acumuladas
Otra variante de la distribución de frecuencias estándar se utiliza cuando

se busca totales acumulativos. La frecuencia acumulativa de una clase es
la suma de la frecuencia para esa clase y todas las clases anteriores.
2.5 Histogramas
Un histograma es una gráfica de barras donde la escala horizontal repre-

senta clases de valores de datos y la escala vertical representa las frecuen-
cias. Las alturas de las barras corresponden a los valores de frecuencia; en
tanto que las barras se dibujan de manera adyacente ( sin huecos entre sı́).
2.6 Polı́gono de frecuencias
Un polı́gono de frecuencias se usa para presentar los puntos medios de clase

en una distribución de frecuencias.
5
El procedimiento para construir un polı́gono de frecuencias consiste en
determinar cada punto medio de clase y luego se marca en la base superior
de cada rectángulo.
Ejemplo. Los datos siguientes corresponden a las puntuaciones del coe-
ficiente de inteligencia de 70 personas tomadas al azar. Considerando una
anchura de clase igual 10
102 135 105 82 114 126 93 107 128 123 91 116 133 100
151 51 104 101 118 123 98 90 67 112 107 123 121 115
93 73 116 105 107 118 153 109 78 98 104 140 117 147
121 89 95 98 143 114 118 123 102 89 83 135 101 120
84 76 158 78 136 107 105 100 97 95 102 85 94 89
1. Contruya una distribución de frecuencias.
2. Contruya una distribución de frecuencias relativas.
3. Contruya una distribución de frecuencias porcentual.
4. Contruya una distribución de frecuencias acumuladas.
5. Contruya una distribución de frecuencias acumuladas porcentual.
6. Interprete la frecuencia simple de la 3ra. clase.
7. Interprete la frecuencia acumulada de la 4ta. clase.
8. Interprete la frecuencia acumulada porcentual de la 5ta. clase.
9. Construya un histograma y un polı́gono de frecuencias.
3 Presentación de datos
Existen tres formas diferentes de presentar los datos estadı́sticos, que son
6
1. Escrita
2. Tabular
3. Gráfica
3.1 presentación escrita
Esta forma de presentación de informaciones se usa cuando una serie de

datos incluye pocos valores, por lo cual resulta más apropiada la palabra
escrita como forma de describir el comportamiento de los datos.
3.2 presentación tabular
Cuando los datos estadı́sticos se presentan a través de un conjunto de filas

y de columnas que responden a un ordenamiento lógico, decimos que están
presentados en forma tabular o en forma de tabla o cuadro estadı́stico.
Un cuadro estadı́stico consta de varias partes, las principales son las sigu-
ientes:
1. Tı́tulo
2. Encabezados
3. Cuerpo del cuadro
4. Fuente
5. Notas al pies
Tı́tulo
Es la parte más importante del cuadro y sirve para describir todo el con-
tenido de éste. Un tı́tulo completo y correcto siempre debe responder las
preguntas ¿qué?, ¿cómo?, ¿dónde? y ¿cuándo?.
7
Ejemplo.
Alumnos matriculados del sector público segun nivel, año lectivo 1999-
2000.
Encabezados
Son los diferentes subtı́tulos que se colocan en en parte superior de cada
columna.
Columna matriz
Es la columna principal del cuadro. Se encuentra al lado izquierdo del
cuadro y se coloca en ella la variable principal bajo estudio.
Cuerpo
Contiene todas las informaciones numéricas que aparecen en la tabla.
Fuente
Indica la procedencia de los datos. Si las informaciones fueron recopiladas
y presentadas por la misma persona o intitución no es necesario señalar la
fuente.
Notas al pie
Las notas al pie son usadas para hacer algunas aclaraciones sobre aspectos
que aparecen en la tabla y que no han sido explicados en otra parte.
3.3 presentación gráfica
Una gráfica podemos definirla como una expresión artı́stica usada para
representar un conjunto de datos.
De acuerdo al tipo de variable que vamos a presentar, los gráficos mas
usados son los siguientes:
1. De barra
2. Lineal
8
3. Circular
Gráfico de barras
Es un conjunto de rectángulos o barras separadas una de otra, en razón
de que se usa para representar variables discretas. La altura de cada barra
depende de la frecuencia de clase.
Gráfico lineal
Son usadas principalmente para representar datos clasificados por cantidad
o tiempo, es decir, se usan para representar series de tiempo o cronológica.
Gráfico Circular
Se usan especialemte para representar las partes en que se divide una

cantidad total.
4 Medidas de tendencia central
Las medidas de tendencia central más usadas son: la media, la moda y la

mediana.
Media aritmética
Es la medida de tendencia central o promedio más conocida y más ampli-
amente usada.
Se define como el cociente que se obtiene al dividir la suma de los valores
de la variable entre el total de las observaciones.
Para una variable X, se denota po X̄ en el caso de una muestra y por µ en
el caso de una población y se determina mediante la fórmula
∑
xi
X̄ =
n
Ejemplo. Determine la media en el siguiente conjunto de datos: 67, 45,
52, 67.
9
Media ponderada
la media ponderada para un conjunto de datos se determina mediante la
fórmula ∑
XW
X¯w = ∑
W
Ejemplo. Determine el ı́ndice académico de un estudiante con 78 en una
asignatura de 5 créditos, 80 en una asignatura de 4
créditos y 85 en una asignatura de 3 créditos
datos: 67, 45, 52, 67.
Mediana
La mediana es la observación de la mitad después que se colocan los datos
en una serie ordenada.
Si el conjunto de datos tiene un número impar de observaciones, la

posición de la mediana es
n+1
2
Ejemplo. Determine la mediana en el siguiente conjunto de datos: 67, 45,
52, 67, 48.
Cuando un conjunto de datos contiene un número par de observaciones

la mediana es el promedio de los dos valores intermedio.
Ejemplo. Determine la mediana en el siguiente conjunto de datos: 83,

75, 70, 62, 93, 75.
Moda. Es la observación de mayor frecuencia.
Ejemplo. Determine la moda en el siguiente conjunto de datos: 67, 45,

52, 67.
10
Percentiles
Un percentil aporta información acerca de la dispersión de los datos en el
intervalo que va del menor a mayor valor de los datos.
El percentil p es un valor que por lo menos p por ciento de las observa-

ciones son menores o iguales que este valor y por lo menos (100 − p) por
ciento de las observaciones son mayores o iguales que este valor.
Cálculo del Percentil p
1. Ordenar los datos de menor a mayor.

2. Calcular el ı́ndice i
p
i=( )n
100
donde p es el percentil deseado y n es el número de observaciones.
(a) Si i no es un número entero, debe redondearlo. El primer entero

mayor correspondiente a i denota la posición del percentil p.
(b) Si i es un número entero, el percentil p es el promedio de los valores
en las posiciones i e i+1.
Ejemplo. Los siguientes datos corresponden a las calificaciones de 15
estudiantes:
76, 87, 78, 90, 60, 70, 75, 87, 70, 70. 65, 85, 79, 85, 60.
Determine:
a) El percentil 85
b) El percentil 70
Cuartiles. Con frecuencia es conveniente dividir los datos en 4 partes;

ası́, cada parte contiene una cuarta parte o 25% de las observaciones. A
los puntos de división se le llama cuartiles y están definidos como sigue:
11
a) Q1 = primer cuartil o percentil 25.
b) Q2 = segundo cuartil o percentil 50.
c) Q3 = tercer cuartil o percentil 75.
Ejemplo. Determine Q1 y Q3 en los datos del ejemplo anterior.
5 Medidas de variabilidad o dispersión
Nos indican qué tan dispersos se encuentra un conjunto de datos . Las más
usadas son:
El rango. Se define como la diferencia entre el valor mayor y el valor

menor. Se denota como R = Xmax − Xmin
El rango intercuartı́lico.Es la diferencia entre el tercer cuartil y el primer

cuartil. En otras palabras, es el rango en que se encuentra el 50% central
de los datos. Se denota como
IQR = Q3 − Q1
Varianza. Es una medida de variabilidad que utiliza todos los datos.
Está basada en la diferencia entre el valor de cada observación y la media.Si
los datos son de una población se le llama varianza poblacional y se denota
y se determina mediante la fórmula
∑
2 (x1 − µ)2
σ =
N
Si los datos provienen de una muestra la varianza se llama varianza mues-
tral y se denota y se determina
∑
2 (x1 − x̄)2
s =
n−1
12
Desviación estándar. se define como la raiz cuadrada positiva de la
varianza. √
Desviación estándar muestral = s = s2
√
Desviación estándar poblacional = σ = σ2
6 Medidas descriptivas calculadas a partir de datos agrupados
Media aritmética.
la media aritmética a partir de datos agrupados se determina mediante la
fórmula
∑
fi xi
X=
n
donde fi es la frecuencia de clase y xi es la marca de clase.
La mediana está dada por

n
2 −F
med = Lmd + [ ]C
fmd
donde
Lmd = lı́mite inferior de la clase que contiene la mediana.
F = frecuencia acumulada de la clase que antecede a la clase mediana.
fmd es la frecuencia de la clase mediana
C es la anchura de clase de la clase mediana.
Nota: La mediana se ubica en la clase que tiene frecuencia acumulada

de 50% o más.
13
La moda se hallará en la clase que contenga la frecuencia más alta, lla-
mada clase modal. se determina mediante la fórmula:
Da
M oda = Lmo + [ ]C
Db + Da
donde
Lmo es el lı́mite inferior de la clase modal.
Da es la diferencia entre la frecuencia de la clase modal y la frecuencia de
la clase que le antecede.
Db es la diferencia entre la frecuencia de la clase modal y la frecuencia de
la clase que le sigue.
C es la anchura de la clase modal.
7 Introducción a la Teorı́a de Probabilidad
La teorı́a de la probabilidad es un modelamiento matemático del azar o

aleatoriedad. En el lenguaje cotidiano el término probabilidad se entiende
como una medida de nuestra confianza de que ocurra un evento aleato-
rio. Una situación que envuelve incertidumbre es lo que en el lenguaje es-
tadı́stico se denomina fenómeno aleatorio, y se caracteriza esencialemente
porque su desarrollo no es previsible.
Podemos definir de forma muy simple la probabilidad como un número

de 0 a 1, que le asignamos a un fenómeno para indicar su posibilidad de
ocurrir.
7.1 Conceptos relacionados con la teorı́a de probabilidad
Experimento
14
En el sentido usual del término, un experimento es un procedimiento u
operación que puede dar lugar a distintos resultados, todos ellos previa-
mente identificables. Un ejemplo de un experimento puede ser lanzar una
moneda para observar si cae cara o escudo. Otro ejemplo es averiguar cuál
entre varios métodos de aprendizaje es el mas efectivo o aplicar un examen
final a un estudiante y observar la puntuación.
Espacio muestral
Con cada experimento E, definimos el espacio muestral como el conjunto

de todos los resultados posibles de E. Usualmente designamos este conjunto
como S. Por ejemplo, en el experimento aleatorio que consiste en lanzar un
dado, el espacio muestral es
S = {1, 2, 3, 4, 5, 6}.
Evento o suceso
Un evento A respecto a un espacio muestral S asociado a un experimento

E es simplemente un conjunto de resultados posibles. Es un subconjunto
del espacio muestral.
7.2 Operaciones y Relaciones entre Eventos
La identificación de un evento como un subconjunto de un espacio muestral

hace posible el uso de la teorı́a de conjuntos para especificar matemáticamente
las relaciones y operaciones entre eventos.
1. Si A y B son eventos, entonces A ∪ B es el suceso que ocurre si y sólo
si A o B o ambos ocurren.
2. Si A y B son eventos, entonces A ∩ B es el evento que ocurre si y sólo
si A y B ocurren.
15
3. Si A es un evento, Ā es el evento que ocurre si y sólo si A no ocurre.
El evento Ā se llama evento complementario de A.
Definición. Dos eventos A y B, son mutuamente excluyentes si no
pueden ocurrir juntos. Expresamos esto escribiendo A ∩ B = ∅.
7.3 Definiciones de probabilidad
Probabilidad clásica o a priori.
Si en un experimento pueden producirse N resultados igualmente posibles

y mutuamente excluyentes y si dentro de estos N resultados el evento E
puede ocurrir NE veces, la probabilidad del evento E, que se escribe P (E),
está dada por
NE
P (E) =
N
Probabilidad según el concepto de frecuencia relativa
Consideremos un evento E que se produce en n repeticiones o ensayos de
algún experimento. De acuerdo con el concepto de frecuencia relativa de
ocurrencia, la probabilidad del evento E, P (E), es igual a la frecuencia
relativa de ocurrencia del evento E cuando n es grande. Si nE es el número
de veces que ocurre el evento E en n ensayos de un experimento, podemos
estimar P (E) mediante la expresión
nE
P (E) =
n
7.4 Cálculo de probabilidad de un evento
Regla de la suma
16
Si A y B son eventos entonces la probabilidad de que ocurra A o B o
ambos es
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
Ejemplo 1. Suponga que hay un grupo de 500 profesionales recién grad-
uados de los cuales 175 se especializaron en educación, 150 en comercio,
100 en derecho y 75 en ciencias de la salud. Suponga también que se elige
alzar una persona de este grupo. ¿Cuál es la probabilidad de que la per-
sona elegida se haya especializado en educación o en comercio?
Ejemplo 2. Un sistema escolar recibe 25 solicitudes para una vacante

de director. Entre los solicitantes 10 son hombres y 15 mujeres. 17 de ellos
acreditaron tı́tulo de maestrı́a y 8 tienen licenciatura según indica la tabla.
Sexo M aestrı́a Lic. T

M asc. 7 3 10
F em. 10 5 15
T otal 17 8 25
Se hace una elección al azar entre estos 25 aspirantes. ¿ Cuál es la prob-
abilidad de que la persona seleccionada sea:
1. Una mujer?
2. Una persona con tı́tulo de maestrı́a?
3. Masculino y licenciado?
4. una mujer o una persona con licenciatura?
8 Distribución de probabilidad Discreta
Definición. Sea E un experimento y S un espacio muestral asociado a E.

Una función X que asigna a cada uno de los elementos s ∈ S un número
real X(s), se llama variable aleatoria.
17
La notacion Rx será utilizada para designar la imagen de una variable
aleatoria X; es decir, Rx es el conjunto de todos aquellos números asig-
nados por X a un espacio muestral S. Se hará referencia a Rx como el
recorrido de X.
Las variables aleatorias pueden ser discretas o continuas. Una variable

aleatoria es discreta cuando el recorrido es finito o infinito contable. Las
variables aleatorias continuas son aquellas en las cuales el recorrido Rx es
un conjunto continuo de números tales como un intervalo o una unión de
intervalos.
Ejemplo. Se lanza un par de dados equilibrados. El espacio muestral

S está conformado por 36 pares ordenados (a,b) donde a y b pueden ser
entero entre 1 y 6, es decir,
S = {(1, 1), (1, 2), ..., (6, 6)}

Supongamos que X asigna a cada punto (a,b) de S el máximo de sus
números, es decir, X(a,b) = Max(a,b). Por ejemplo X(1,1) = 1, X(3,4)
= 4, X(5,6) = 6. Por tanto X es una variable aleatoria discreta, donde
cualquier número entero entre 1 y 6 puede ocurrir y ningún otro número
puede ocurrir y el recorrido de X es
Rx = {1, 2, 3, 4, 5, 6}
Ahora supongamos que la variable Y asigna a cada punto (a,b) la suma de
sus números, es decir, Y(a,b) = a + b. Por ejemplo, Y(1,1) = 2, Y(3,4) =
7, Y(6,3) = 9, Y(6,6) = 12. Entonces Y es una variable aleatoria discreta
donde cualquier número entre 2 y 12 puede ocurrir y ningun otro número
puede ocurrir. Por tanto el recorrido de Y es
18
Ry = {2, 3, 4, 5, ..., 12}
Distribución de probabilidad discreta
Cualquier regla o mecanismo que sirva para determinar P (X = x), proba-
bilidad de que la variable aleatoria X tome cada uno de los valores posibles
x, se denomina una distribución de probabilidad. Esta regla o mecanismo
puede ser una tabla, un gráfico o una fórmula.
Una fórmula que se emplee para calcular P (X = x) se denomina función
de probabilidad y generalmente se denota por f(x). Esta función satisface
las siguientes propiedades:
1. f (xk ) ≥ 0
∑
2. nk=1 f (xk ) = 1
8.1 Valor esperado, varianza y desviación estándar de una variable aleatoria

discreta
Definición. Sea X una variable aleatoria discreta con la función de dis-

tribucion P(x). Entonces el valor esperado de X se define como
∑
E(X) = xi P (xi )
Si P(X) es una caracterı́stica precisa de la distribución de frecuencia pobla-
cional, entonces E(X) = µ es la media poblacional.
Definición. Sea X una variable aleatoria con media E(X) = µ. La

varianza de X se define como el valor esperado de (X − µ)2 . Esto es
V (X) = σ 2 = E[(X − µ)2 ]
La desviación estándar de X es la raı́z cuadrada positiva de V(X).
19
Teorema. Si X es una variable aleatoria discreta con función de proba-
bilidad P(X) y media E(X) = µ; entonces
V (X) = σ 2 = E[(X − µ)2 ] = E(X 2 ) − µ2
Ejemplo. Las edades en años de 280 estudiantes se muestran en la

siguiente tabla.
Edad Frecuencia
6 40
7 42
8 50
9 35
10 38
11 45
1. Sea X la variable aleatoria que indica la edad de un estudiante. De-
termine la distribución de probabilidad de X.
2. ¿ Cuál es la probabilidad de que un estudiante elegido al azar tenga 9
años?
3. ¿ Cuál es la probabilidad de que un estudiante elegido al azar tenga
más de 10 años?
4. Determine el la edad esperada, la varianza y la desviación estándar.
9 Distribución de probabilidad continua
Una diferencia fundamental entre las variables aleatorias discretas y las

variables aleatorias continuas es cómo se calculan las probabilidades. En
20
las variables aleatorias discretas la función de probabilidad f(x) da la prob-
abilidad de que la variable aleatoria tome un valor determinado. En las
variables aleatorias continuas, la contraparte de la función de probabili-
dad es la función de densidad de probabilidad, que también se denota por
f(x). La diferencia está en que la función de densidad de probabilidad no
da probabilidades directamente, si no que el área bajo la curva de f(x)
que corresponde a un intervalo determinado proporciona la probabilidad
de que la variable aleatoria tome uno de los valores de este intervalo.
9.1 Distribución Normal
La distribución normal es la más importante y la de mayor uso en la Teorı́a

de la Probabilidad .
Esta distribución es la piedra angular en la aplicación de la Inferencia
Estadı́stica en el análisis de datos, puesto que las distribuciones de mu-
chos estadı́sticos muestrales tienden a la distribución normal cuando el
tamaño de la muestra crece. Además, la distribución normal proporciona
una adecuada representación de las distribuciones de una gran cantidad de
variables fı́sicas. Algunos ejemplos son:
- Mediciones efectuadas en organismos vivos: altura, peso, etc.

-Calificaciones en pruebas de aptitud.
9.1.1 Caracterı́sticas de la distribución Normal
Algunas caraterı́sticas importantes de la distribucion normal son las sigu-

ientes:
1. El área total comprendida bajo la curva y por encima del eje horizontal
es igual a 1.
21
2. La distribución es simétrica respecto a la media. es decir , el 50% del
área está a la derecha de la media y el 50% restante a la izquierda.
3. la media, la moda y la mediana coinciden.
4. La desviación estándar determina qué tan plana y ancha es la curva
normal.
5. Los porcentajes de los valores que se encuentran en algunos intervalos
comúnmente usados son:
(a) 68.3 % de los valores de una variable aleatoria normal se encuentran
más o menos a una desviación estándar de la media.
(b) 94.5 % de los valores de una variable aleatoria normal se encuentran
más o menos a dos desviaciones estándar de la media.
(c) 99.7 % de los valores de una variable aleatoria normal se encuentran
más o menos a tres desviaciones estándar de la media.
9.1.2 Distribución Normal estandarizada
Hay una distribución normal diferente para cada valor diferente de µ y σ.

Una distribución normal de especial importancia en estadı́stica es la dis-
tribución normal estandarizada que tiene una media µ = 0 y una varianza
σ 2 = 1. La variable de esta distribución se representa con la letra Z
Las áreas de la distribucion normal estandarizada correspondientes a

varias probabilidades se encuentran tabuladas. El cuerpo de la tabla que
usaremos, da las áreas bajo la curva a la izquierda de z0 , un valor especı́fico
de Z.
Ejemplo. Determine las siguientes probabilidades:
1. P (−1.78 ≤ Z ≤ 1.52)
22
2. P (Z > 1.76)
3. P (Z < 1.5)
Si la variable aleatoria normal no está estandarizada, para calcular prob-
abilidades hay que estandarizar la variable utilizando la siguiente fórmula
de conversion
x−µ
z=
σ
Ejemplo. Los CI de los individuos que componen una determinada
población, tienen aproximadamente una distribución normal, con una me-
dia de 100 y una desviación tı́pica de 10.
1. Hallar la proporción de individuos con CI mayores 125.
2. ¿Cuál es la probabilidad de que un individuo elegido al azar entre los
de esa población tenga un CI entre 105 y 115?
3. Hallar P (X < 80)
10 Distribuciones muestrales
Gran parte de los conocimientos que tenemos sobre las poblaciones se basan
en la información contenida en las muestras que se sacan de dicha pobla-
ciones. Cuando una firma encuestadora desea saber el nivel de simpatı́a
que tiene un partido polı́tico en la población de votantes, no entrevista a
toda la población de votantes, sólo entrevista a una muestra. Una investi-
gación educativa puede estar interesada en el rendimiento académico de la
población estudiantil en un distrito educativo. Dado que la población de
estudiante puede resultar muy grande sólo se investiga una muestra.
Un conjunto de datos se puede describir por medio de distintas medidas

descriptivas como la media, la varianza y la proporción. Tales medidas
de carácter descriptivo, calculadas a partir de los datos suministrados por
23
una muestra se denomian estadı́sticos. Cuando se calculan con datos pobla-
cionales, se denominan parámetros. Una de las principales preocupaciones
de los investigadores y de las personas encargadas de tomar decisiones, con-
siste en ser capaces de tomar decisiones sobre esos parámetros, que general-
mente no se conocen, tomando como fundamento información relacionada
con estadı́sticos calculados sobre muestras sacadas de las poblaciones. Esta
clase de procedimiento recibe el nombre de inferencia estadı́stica.
Una distribución muestral es una distribución de probabilidad de un es-

tadı́stico muestral calculado a partir de todas las muestras posibles de
tamaño n, elegidas al azar en una población determinada.
La media de la distribución muestral de medias, denotada por X, es igual

a la media de todas las medias y coincide con la media de la población, es
decir,
∑
X
X= =µ
K
donde K es el número de muestras. La varianza de las medias muestrales

está dada por:
1.
σ2 N − n
σx2 = ( )
n N −1
si la población es finita y el tamaño de la muestra es mayor que el 5%

de la población.
2. Si N es infinita o el tamaño de la muestra es menor o igual que el 5%
de la población, entonces:
24
σ2
σx2 =
n
El valor esperado de las proporciones de la distribución muestral de

proporciones es E(b p) = p donde p es la proporción poblacional.
La desviación estándar de pb se llama error estándar de la proporción.
Este valor depende de si la población es finita o infinita. Si la población
es finita y el tamaño de la muestra es mayor que el 5% de la población,
la desviación estándar de pb está dada por
√ √
p(1 − p) N − n
σpb =
n N −1
Si la población es infinita, entonces
√
p(1 − p)
σpb =
n
Esta fórmula también se usa cuando la población es finita y el tamaño
de la muestra es menor o igual que el 5% de la población.
Para ilustrar lo anterior considere el siguiente ejemplo.

Una escuela tiene N = 5 maestros. la variable de interés, X, es el
número de años de experiencia docente de cada profesor. Los datos
son los siguientes: 6, 1, 2, 9 y 5. Realice la distribución muestral de
medias para n = 2 y determine la media de las medias, la varianza y
la desviación estándar.
10.1 Muestra aleatoria simple
Una muestra aleatoria simple de tamaño n, de una población finita de

tamaño N, es una muestra seleccionada de tal manera que cada muestra
25
posible de tamaño n tenga la misma probabilidad de ser seleccionada.
Un procedimiento para identificar una muestra aleatoria simple a partir

de una población finita es seleccionar uno por uno los elementos que con-
stituyen la muestra, de tal modo que cada uno de los elementos que aún
quedan en la población tengan la misma probabilidad de ser seleccionada.
Ejemplo. Considere la siguiente población de profesores de un centro ed-

ucativo donde se considera el ingreso, tiempo en servicio y nivel académico.
Profesor Ingreso Nivel académico Tiempo en servicio

1 10,500 Licenciado 5
2 12,625 especialidad 2
4 9,600 Profesorado 7
6 14,759 Especialidad 5
7 15,500 Master 3
9 11,457 Profesorado 8
10 9,758 Master 1
Realice lo siguiente:
1. Usando una tabla de números aleatorios seleccione una muestra de

tamaño 5 de esta población.
2. Determine: a) el ingreso promedio de la población, la varianza y la
desviación estándar, b) el ingreso promedio, la varianza y la desviación
estándar de la muestra.
3. Determine: a) la proporción, la varianza y la desviación estándar
poblacional de profesores con tı́tulo de licenciado, b) la proporción,
la varianza y la desviación estándar muestral de profesores con tı́tulo
de licenciado.
26
10.2 Teorema del lı́mite central
Para la distribución muestral de medias el teorema del lı́mite central

establece que
A medida que el tamaño de la muestra (n) se vuelve más grande, la
distribución de las medias muestrales se aproximará a una distribución
normal con una media igual a la media de la población y un error
estándar
σ
σx = √
n
El teorema del lı́mite central para proporciones muestrales establece
que
La disstribución muestral de pb se puede aproximar con una distribución
de probabilidad normal, siempre que el tamaño de la muestra sea
grande. La muestra se considera grande cuando se cumplen las condi-
ciones
(a) np ≥ 5
(b) n(1 − p) ≥ 5
11 Estimación de los parámetros de la población
Se presentan muchas situaciones en las que alguna persona, el que

toma una desición, un planificador o un investigador, desea conocer los
valores de parámetros tales como la media poblacional, la proporción
poblacional, etc. Un educador puede estar interesado en estimar la
proporción de la matrı́cula estudiantil que aprobará al final del año es-
colar. También puede estar interesado en estimar las horas promedio
que los estudiantes dedican al estudio fuera del aula. Generalmente
estas informaciones se obtienen de una muestra y no de la población.
27
La estimación es un conjunto de técnicas que permiten dar un valor
aproximado de un parḿetro de una poblacin a partir de los datos pro-
porcionados por una muestra.
Hay por lo menos dos tipos de estimadores que se utilizan más comúnmente:
Un estimador puntual y un estimador por intervalo. Un estimador pun-
tual utiliza un estadı́stico para estimar el parámetro en un sólo valor o
punto. Un estimador por intervalo especifica el rango dentro del cual
está el parámetro desconocido. Tal intervalo va acompañado (general-
mente) de una afirmación sobre el nivel de confianza que se da en su
exactitud. Por tanto se llama intervalo de confianza.
El error de muestreo es el valor absoluto de la diferencia entre un es-
tadı́stico y el parámetro correspondiente.
Hay tres niveles de confianza que se usan con mayor frecuencia: 90%,
95% y 99%.
Las estimaciones por intervalos gozan de ciertas ventajas sobre las es-
timaciones puntuales. Debido al error de muestreo, probablemente X
no será igual a µ, sin embargo, no hay manera de saber qué tan grande
es el error de muestreo, por tanto los intervalos de confianza se utilizan
para explicar esa discrepancia desconocida.
Un intervalo de confianza tiene un lı́mite inferior de confianza y un

lı́mite superior. Estos lı́mite se hallan calculando primero la media
muestral, luego se suma cierta cantidad a la media muestral para
obtener el lı́mite superior y la misma cantidad se resta a la media
muestral para obtener el lı́mite inferior.
El coeficiente de confianza es el nivel de confianza que se tiene en que
el intervalo contenga el valor desconocido del parámetro.
28
11.1 Intervalo de confianza para la media poblacional, muestras grandes
(n ≥ 30)
El intervalo de confianza para estimar µ cuando σ es conocida es

X ± Zσx
donde Z es el valor asociado al nivel de confianza.
Ejemplo. En una encuesta, se les pidió a 250 alumnos de una es-

cuela que registraran la cantidad de tiempo promedio diario que gasta-
ban estudiando. La muestra arrojó una media de 45 minutos con una
desviación tı́pica de 20 minutos. Construir un intervalo de confianza
del 95% para la media poblacional.
11.2 Tamaño de la muestra para estimar la media poblacional
En cualquier investigación es de gran importancia que la muestra que

se va a sacar sea de tamaño adecuado. Si se toma una muestra de-
masiado grande, se pierde dinero y otros recursos. Por otra parte, si
la muestra es demasiado pequeña, produce resultados inútiles.
La cantidad Zσx , que se le suma y se le resta a le media muestral
se llama margen de error y contiene el tamaño de la muestra. Si la
población es infinita el tamaño de la muestra para estimar la media
poblacional es
z2σ2
n=
E2
Si la población es finita entonces se determina mediante la fórmula
29
N z 2σ2
n= 2 2
z σ + E 2 (N − 1)
Ejemplo. Un investigador de un centro educativo que tiene 2500

alumnos, desea hacer una estimación del tiempo promedio que gastan
los estudiantes en el viaje entre la escuela y la casa. El investigador
desea un intervalo de confianza del 99% y una estimación que esté com-
prendida entre un minuto y la media verdadera. una pequeña muestra
piloto da una varianza de 25 minutos al cuadrado. Qué tamaño debe
tener la muestra que se necesita?
11.3 Intervalo de confianza para la proporción poblacional
Con alguna frecuencia, se desea hacer una estimación de la proporción

de sujetos que componen una población y poseen alguna caracterı́stica
de interés. Por ejemplo la proporción de niños en un sistema escolar
que está n dando un rendimiento bajo, la proporción de adolescente en
una comunidad que tiene acceso al internet, etc. Generalmente, no es
práctico examinar una población entera para determinar la proporción
verdadera que posee la caracterı́stica de interés. En lugar de esto se
toma una muestra aleatoria de la población y se utiliza la proporción
muestral pb para hacer una estimación de la proporción poblacional p.
Cuando el muestreo se hace en una población infinita, el intervalo de

confianza para p está dado por
√
pb(1 − pb)
pb ± Z
n
30
donde Z está asociado al nivel de confianza y pb es la proporción mues-
tral.
Si el muestreo se hace en una población finita, entonces el intervalo de

confianza es
√ √
pb(1 − pb) N −n
pb ± Z
n N −1
Ejemplo. En un estudio sobre las razones que dan los alumnos sus-
pendidos en la escuela, un investigador tomó una muestra de 200 estu-
diantes suspendidos que fueron entrevistados, 140 dijeron que habı́an
fallado debido a dificultades económicas en su familia. El investigador
querı́a construir un intervalo de confianza del 95% para la verdadera
proporción de jóvenes que habı́an fallado por esta razón.
11.4 Tamaño de la muestra para estimar proporciones poblacionales
Cuando el muestreo se realiza en una población infinita, el tamaño de

la muestra está dado por
Z 2 pq
n=
E2
donde Z está asociado al nivel de confianza , E es el margen de error,
p es la proporción de la población que tiene la caracterı́stica de interés
y q es la proporción de la población que no tiene la caracterı́stica de
interés.
31
Cuando el muestreo se realiza en una población finita, entonces la
fórmula para el tamaño de la muestra es
N pqZ 2
n=
(N − 1)E 2 + Z 2 pq
En ambas fórmulas, si no se conocen los valores de p y q, se recomienda

usar 0.5 para ambos.
Ejemplo. Un consejero escolar desea calcular la proporción de los
1000 alumnos de último año de un sistema escolar que piensa seguir
estudios en la universidad. Qué tamaño debe tener la muestra que
necesita tomar el consejero si su estimación debe estar a 0.05 del valor
verdadero, con 99% de confianza?. En el año anterior, el 70% de los
alumnos encuestados dijeron que tenı́an planeado seguir estudios en la
universidad.
N pqZ 2
n=
(N − 1)E 2 + Z 2 pq
(1000)(0.70)(0.30)(2.58)2
= = 359
(1000 − 1)(0.05)2 + (2.58)2 (0.70)(0.30)
32

Estadistica Desc-5

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Desc-5

Cargado por

Copyright:

Formatos disponibles

1 Estadı́stica Descriptiva

1.1 Conceptos básicos

Estadı́stica. Ciencia que recoge, organiza, presenta, analiza e interpreta

El estudio de la estadı́stica se divide en dos categorias: la estadı́stica de-

Estadı́stica descriptiva. Métodos para organizar, resumir y presentar

Estadı́stica Inferencial. Métodos que se emplean para determinar una

Población. Conjunto de individuos u objetos de interés o medidas que

Muestra. Porción o parte de la población de interés.

Estadı́stico. Es una medicı́on numérica que describe alguna carac-

Variable. Es el conjunto de caracterı́sticas de la población que interesan

1.2 Tipos de variables

Existen dos tipos básicos de variables: cualitativas y cuantitativas.

Variable cualitativa o de atributo. Cuando la caraterı́stica que se

Variable cuantitativa . Cuando la variable que se estudia aparece en

Las variables se clasifican por escala de medición. La escala de medición

Escala nominal. Cuando los datos de una variable se compone de

Escala ordinal. Cuando los datos pueden acomodarse en algún orden,

Escala de intervalo. Se parece al nivel anterior pero con la propiedad

Escala de razón. Es similar a la escala de intervalo, pero con la

Una distribución de frecuencias es un resumen tabular de datos que mues-

Los elementos de una distribución de frecuencias son:

2.2 Procedimientos para construir una Distribución de Frecuencias

Para construir una distribución de frecuencias se dan los siguientes pasos:

2.3 Distribución de Frecuencias relativas

Una Distribución de Frecuencias relativas se determina dividiendo la fre-

2.4 Distribución de Frecuencias acumuladas

Otra variante de la distribución de frecuencias estándar se utiliza cuando

Un histograma es una gráfica de barras donde la escala horizontal repre-

2.6 Polı́gono de frecuencias

Un polı́gono de frecuencias se usa para presentar los puntos medios de clase

3.1 presentación escrita

Esta forma de presentación de informaciones se usa cuando una serie de

3.2 presentación tabular

Cuando los datos estadı́sticos se presentan a través de un conjunto de filas

3.3 presentación gráfica

Se usan especialemte para representar las partes en que se divide una

4 Medidas de tendencia central

Las medidas de tendencia central más usadas son: la media, la moda y la

Si el conjunto de datos tiene un número impar de observaciones, la

Cuando un conjunto de datos contiene un número par de observaciones

Ejemplo. Determine la mediana en el siguiente conjunto de datos: 83,

Moda. Es la observación de mayor frecuencia.

Ejemplo. Determine la moda en el siguiente conjunto de datos: 67, 45,

El percentil p es un valor que por lo menos p por ciento de las observa-

1. Ordenar los datos de menor a mayor.

(a) Si i no es un número entero, debe redondearlo. El primer entero

Cuartiles. Con frecuencia es conveniente dividir los datos en 4 partes;

Ejemplo. Determine Q1 y Q3 en los datos del ejemplo anterior.

5 Medidas de variabilidad o dispersión

El rango. Se define como la diferencia entre el valor mayor y el valor

El rango intercuartı́lico.Es la diferencia entre el tercer cuartil y el primer

6 Medidas descriptivas calculadas a partir de datos agrupados

La mediana está dada por

Nota: La mediana se ubica en la clase que tiene frecuencia acumulada

7 Introducción a la Teorı́a de Probabilidad

La teorı́a de la probabilidad es un modelamiento matemático del azar o

Podemos definir de forma muy simple la probabilidad como un número

7.1 Conceptos relacionados con la teorı́a de probabilidad

Con cada experimento E, definimos el espacio muestral como el conjunto

Un evento A respecto a un espacio muestral S asociado a un experimento

7.2 Operaciones y Relaciones entre Eventos

La identificación de un evento como un subconjunto de un espacio muestral

7.3 Definiciones de probabilidad