Unidad I.
Conceptos
Básicos y
Estadística
Descriptiva
Prof. Angel Castelo Rivas 0999292944
Concepto de Estadística
Se refiere a un conjunto de métodos para manejar la
obtención, presentación y análisis de
observaciones numéricas.
Tema 1. Introducción
Concepto de Estadística
Sus fines son describir al conjunto de datos
obtenidos y tomar decisiones o realizar
generalizaciones acerca de las características de
todas las observaciones bajo consideración.
Tema 1. Introducción
Áreas que conforman a la
Estadística
Estadística Descriptiva (Deductiva): es la encargada de la
organización, condensación, presentación de los datos en
tablas y gráficos y del cálculo de medidas numéricas que
permitan estudiar los aspectos más importantes de los
datos.
Tema 1. Introducción
DESCRIBIR
Áreas que conforman a la
Estadística
Estadística Inferencial o Inferencia Estadística: está
definida por un conjunto de técnicas, mediante las cuales
se hacen generalizaciones o se toman decisiones en base
a información parcial obtenida mediante técnicas
descriptivas.
Tema 1. Introducción
INFERIR
Áreas de Aplicación de la
Estadística
El uso de la Estadística es muy amplio. Resulta
difícil nombrar un área en la cual no se
emplee.
Los métodos estadísticos han encontrado
aplicación en:
Gobierno
Negocios
Tema 1. Introducción
Ciencias Sociales
Ingeniería
Ciencias Física y Naturales
Control de Calidad
Procesos de Manufactura
Muchos otros campos de la actividad intelectual.
Áreas de Aplicación de la
Estadística
Esto se debe a la creciente facilidad con la cual se pueden
manejar grandes cantidades de datos numéricos, debido
al uso de …
Tema 1. Introducción
Conceptos de Población y
Muestra
Población: es la colección de todas las posibles
mediciones u observaciones que pueden hacerse de una
variable bajo estudio.
Tema 1. Introducción
Conceptos de Población y
Muestra
Se clasifica en dos categorías:
Finita: es aquella que incluye una cantidad limitada
contable de observaciones, individuos o medidas.
Siempre que sea posible alcanzar (contar) el número
total de todas las posibles mediciones, se considera
como finita la población.
Tema 1. Introducción
Conceptos de Población y
Muestra
Infinita: es aquella que incluye un gran conjunto de
observaciones o mediciones que no pueden alcanzarse
por conteo. Al menos, hipotéticamente, no existe límite
en cuanto al número de observaciones que el
experimento puede generar.
Tema 1. Introducción
Conceptos de Población y
Muestra
Muestra:
es un conjunto de mediciones u observaciones tomadas a
partir de una población.
es un subconjunto de la población.
Tema 1. Introducción
Conceptos de Población y
Muestra
Muestra aleatoria: se considera aleatoria siempre y
cuando cada observación, medición o individuo de
la población tenga la misma probabilidad de ser
seleccionado.
Tema 1. Introducción
Tipos de datos y escalas de
medida
Variables:
son las características o lo que se estudia de cada
individuo de la muestra. Ej: sexo, edad, peso, estatura,
color de ojos, estado civil, temperatura, cantidad de
nacimientos, presión, grosor, diámetro, ...
Datos:
son los valores que toma la variable en cada caso.
Tema 1. Introducción
Tipos de datos
Cualitativos: son datos que solo toman
valores asociados a las cualidades o
atributos, clasificándolos en una de
varias categorías, es decir, no son
valores numéricos. Ej:
Sexo: f/m.
Tema 1. Introducción
Hábito de fumar: Fumador/No fumador
Color de ojos: negro, azul, marrón, …
Religión: católica, evangélica, …
Estado civil: soltero, casado, divorciado,…
Tipos de datos
Cuantitativos: provienen de variables
que pueden medirse, cuantificarse o
expresarse numéricamente. Ejemplos:
Peso
Edad
Estatura
Tema 1. Introducción
Presión
Humedad
Intensidad de un sismo
Cantidad de hermanos
TEMA 2. ESTADÍSTICA DESCRIPTIVA
Organización de los datos
Una vez que se ha
realizado la
recolección de los
Tema 2. Estadística Descriptiva
datos, se obtienen
datos en bruto, los
cuales rara vez
son significativos
sin una
organización y
tabulación.
Organización de los datos
Formas de organizar los datos:
Un arreglo: es la forma más sencilla de
organizar los datos en bruto, consiste en
Tema 2. Estadística Descriptiva
colocar las observaciones en orden según su
magnitud: ascendente o descendente.
Poco práctica cuando se tiene una gran
cantidad de datos.
Organización de los datos
Una distribución de frecuencias: es un
arreglo de los datos que permite expresar
la frecuencia de ocurrencias de las
observaciones en cada una de las clases,
Tema 2. Estadística Descriptiva
mostrando el patrón de la distribución de
manera más significativa.
Clase Pto. fi Fi fri FRi
Medio
Organización de los datos
La Distribución de Frecuencias:
Se recomienda su uso cuando se tienen grandes cantidades
de datos (n).
Tema 2. Estadística Descriptiva
Su construcción requiere, en primer lugar, la selección de los
límites de los intervalos de clase.
Para definir la cantidad de intervalos de clase (k), se puede
usar:
La regla de Sturges: k = 1 + 3.3log(n)
k = n
Organización de los datos
La cantidad de clases no puede ser tan
pequeño (menos de 5) o tan grande (más
de 20), que la verdadera naturaleza de la
distribución sea imposible de visualizar.
Tema 2. Estadística Descriptiva
La amplitud de todas las clases deberá ser
la misma. Se recomienda que sea impar y
que los puntos medios tengan la misma
cantidad de cifras significativas que los
datos en bruto.
Los límites de las clases deben tener una
cifra significativa más que los datos en
bruto.
Organización de los datos
Determinar:
Punto medio = (Li+Ls)/2.
Tema 2. Estadística Descriptiva
Frecuencia absoluta de la clase (fi).
Frecuencia acumulada de la clase (Fi).
Frecuencia relativa de la clase (fri):
fri = fi/n
Frecuencia relativa acumulada de la clase (FRi).
Ejemplos de Distribución de
Frecuencias
A continuación se presentan
las calificaciones de 60
Tema 2. Estadística Descriptiva
estudiantes que
presentaron la PINA en el
año 2009:
Ejemplos de Distribución de
Frecuencias
23 60 79 32 57 74 52 70 82 36
80 77 81 95 41 65 92 85 55 76
52 10 64 75 78 25 80 98 81 67
41 71 83 54 64 72 88 62 74 43
60 78 89 76 84 48 84 90 15 79
34 67 17 82 69 74 63 80 85 61
a) Construya una distribución de frecuencias.
b) Qué puede concluir de estos datos.
Representación gráfica de los
datos
Los gráficos permiten visualizar en forma
global y rápida el comportamiento de los
datos.
Tema 2. Estadística Descriptiva
Para datos cuantitativos agrupados en
clases, comúnmente se utilizan tres
gráficos:
Histogramas.
Polígono de frecuencias.
Ojiva o Polígono de frecuencias acumuladas.
Representación gráfica de los
datos
Histograma
Representación gráfica de los
datos
Tema 2. Estadística Descriptiva
Histograma y Polígono de Frecuencias
Representación gráfica de los
datos
Tema 2. Estadística Descriptiva
Ojiva
Representación gráfica de los
datos
Para datos cualitativos se usan:
Curvas
Tema 2. Estadística Descriptiva
Barras
Sectores
Representación gráfica de los
datos
Barras
Barras
Representación gráfica de los
datos
Curvas
Representación gráfica de los
datos
Sectores, torta o circular
Tema 2. Estadística Descriptiva
Ejemplos de
construcción de
Tema 2. Estadística Descriptiva
gráficos
Medidas de tendencia central o
posición
Corresponden a valores que generalmente se ubican
en la parte central de un conjunto de datos.
Forma como los datos pueden condensarse en un
Tema 2. Estadística Descriptiva
solo valor central alrededor del cual todos los datos
muestrales se distribuyen.
Medidas de tendencia central o
posición
Las medidas de tendencia central más importantes
son:
Media: Aritmética y Aritmética ponderada.
Tema 2. Estadística Descriptiva
Mediana.
Moda.
Media Aritmética
Es la suma de todas las observaciones dividida entre
el número total de observaciones.
Expresada de forma más intuitiva, podemos decir
que la media aritmética es la cantidad total de la
Tema 2. Estadística Descriptiva
variable distribuida a partes iguales entre cada
observación. (wikipedia)
Por ejemplo, si en una habitación hay tres personas,
la media de dinero que tienen en sus bolsillos sería
el resultado de tomar todo el dinero de los tres y
dividirlo a partes iguales entre cada uno de ellos. Es
decir, la media es una forma de resumir la
información de una distribución (dinero en el bolsillo)
suponiendo que cada observación (persona) tendría
la misma cantidad de la variable. (wikipedia)
Cálculo de la media aritmética
Para datos no agrupados:
n
x i
Tema 2. Estadística Descriptiva
X i 1
n
Para datos agrupados:
k
m f i i
X i 1
n
Donde: mi: punto medio de la clase i
fi: frecuencia absoluta de la clase i
k: cantidad de clases
Mediana
Es el valor que ocupa la posición central de un
conjunto de observaciones, una vez que han sido
ordenados en forma ascendente o descendente.
Tema 2. Estadística Descriptiva
Divide al conjunto de datos en dos partes iguales.
Cálculo de la mediana
Para datos no agrupados:
Si n es impar: posición donde se ubica la mediana es
igual a (n+1)/2.
Tema 2. Estadística Descriptiva
Si n es par: (n+1)/2 no es entero, por lo tanto la
mediana será igual al promedio de las dos posiciones
centrales.
Cálculo de la mediana
Datos agrupados: clase mediana es la
que contiene a la observación que
ocupa la posición n/2.
Tema 2. Estadística Descriptiva
n 1
F ( xm 1 )
Md Lm 2 Cm
f ( xm )
Donde: Lm: límite inferior de la clase mediana.
F(xm-1): frecuencia acumulada de la clase
anterior a la clase mediana.
f(xm): frecuencia absoluta de la clase mediana.
Cm: amplitud de la clase mediana.
Moda
Observación o clase que tiene la mayor frecuencia
en un conjunto de observaciones.
Un conjunto de datos puede ser unimodal, bimodal
Tema 2. Estadística Descriptiva
o multimodal.
Es la única medida de tendencia central que se
puede determinar para datos de tipo cualitativo.
Cálculo de la moda
Para datos no agrupados: es simplemente
la observación que más se repite.
Para datos agrupados:
Tema 2. Estadística Descriptiva
1
Mo Lim Cm
1 2
Donde: Lim: límite inferior de la clase modal.
1: diferencia entre fi de la clase modal y la
anterior.
2: diferencia entre fi de la clase modal y la
posterior.
Cm: amplitud de la clase modal (clase de mayor
frecuencia).
Relación entre la media, la
mediana y la moda
Tema 2. Estadística Descriptiva
Cuando los datos son sesgados es mejor emplear la Md
Cuantiles
Los cuantiles son medidas de posición
“no central” que se utilizan con mayor
frecuencia y se emplean sobre todo para
Tema 2. Estadística Descriptiva
resumir o describir las propiedades de
conjuntos grandes de datos numéricos.
Cuartiles
Deciles
Percentiles
Cuartiles
De la misma manera que la mediana
divide un conjunto de datos en dos
Tema 2. Estadística Descriptiva
grupos iguales, los cuartiles lo dividen
en cuatro grupos iguales.
Cada grupo está formado por 25% de
los datos de la muestra y se denotan
por Q1, Q2 y Q3 respectivamente
25% 25% 25% 25%
Q1 Q2 Q3
Cuartiles
La obtención de los cuartiles depende del número de
datos de la muestra; se utilizan los mismo conceptos del
cálculo de la mediana. Las fórmulas para cada los
Tema 2. Estadística Descriptiva
cuartiles 1 y al vienen a ser:
n 1
Q1 ValorPosic ión( )
4
2(n 1)
Q2 ValorPosic ión( )
4
3(n 1)
Q3 ValorPosic ión( )
4
Se define en minutos el tiempo que le lleva arreglarse, desde
Tema 2. Estadística Descriptiva
que se levanta hasta que sale de casa. A lo largo de 10 días
hábiles consecutivos, Usted recaba los tiempos (redondeados
a minutos)
que se muestras a continuación
39 29 43 52 39
44 40 31 44 35
Cuartil 1
Tamaño de la muestra N=10
29
n 1
31 Q1 VP( )
33 4
Tema 2. Estadística Descriptiva
35
39 10 1
39 Q1 VP( )
40 4
43 Q1 VP(2.75)
44
44
Q1 VP(3)
52 Q1 35 2-2008
Cuartil 2
Tamaño de la muestra N=10
29
n 1
31 Q1 VP ( )
4
Tema 2. Estadística Descriptiva
35
39 2(10 1)
Q2 VP ( )
39 4
5.5
5.5 40
Q2 VP (5.5)
43
39 40
44 Q2
44 2
52 Q2 39.5
Cuartil 3
Tamaño de la muestra N=10
29
31 n 1
Q1 VP ( )
Tema 2. Estadística Descriptiva
35 4
39
3(10 1)
39 Q3 VP ( )
40
4
43 Q3 VP (8.25)
88 44 Q3 VP (8)
44
52
Q3 44
Deciles
Los deciles dividen una muestra en 10 grupos
iguales y cada decil acumula el 10% de los
Tema 2. Estadística Descriptiva
datos.
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
Se trabajan igual que los cuartiles
2-2008
51
Percentiles
Los percentiles dividen una muestra en 100
grupos iguales y cada percentil acumula el 1%
Tema 2. Estadística Descriptiva
de los datos.
1% 1% 1% 1% 1% 1% 1%
Se trabajan igual que los cuartiles y deciles
2-2008
52
Medidas de dispersión,
variación o variabilidad.
Son valores numéricos que indican o describen la
forma en que las observaciones están dispersas o
diseminadas, con respecto al valor central.
Tema 2. Estadística Descriptiva
Medidas de dispersión,
variación o variabilidad.
Son importantes debido a que dos muestras de
observaciones con el mismo valor central pueden
tener una variabilidad muy distinta.
Tema 2. Estadística Descriptiva
Medidas de dispersión,
variación o variabilidad.
Rango.
Varianza.
Tema 2. Estadística Descriptiva
Desviación Típica.
Coeficiente de variación.
Medidas de dispersión:
Rango
Rango (amplitud o recorrido):
Está determinado por los dos valores extremos de los
datos muestrales, es simplemente la diferencia entre la
mayor y menor observación.
Tema 2. Estadística Descriptiva
Es una medida de dispersión absoluta, ya que depende
solamente de los datos y permite conocer la máxima
dispersión.
Medidas de dispersión:
Rango
Casi no se emplea debido a que depende
únicamente de dos valores.
No proporciona una medida de variabilidad de las
Tema 2. Estadística Descriptiva
observaciones con respecto al centro de la
distribución.
Notación: R
Medidas de dispersión:
Varianza
Es un valor numérico que mide el grado de
dispersión relativa porque depende de la posición
de los datos x1,x2,…,xn con respecto a la media.
Tema 2. Estadística Descriptiva
Es el promedio al cuadrado de las desviaciones de
cada observación con respecto a la media.
Notación: s2, 2, var(X)
Medidas de dispersión: Varianza
Si la varianza de un conjunto de
observaciones es grande se dice que los
datos tiene una mayor variabilidad que
Tema 2. Estadística Descriptiva
un conjunto de datos que tenga un
varianza menor.
x x
n
2
i
Para datos NO s 2 i 1
agrupados: n
n
2
i
x 2
2
s i 1
x
n
Medidas de dispersión:
Varianza
Para datos agrupados en una distribución de frecuencias:
Tema 2. Estadística Descriptiva
k
i
m x 2
fi
s 2 i 1
n
k
i fi
m 2
x
2
s 2 i 1
n
Medidas de dispersión: Desviación
Típica
Es la raíz cuadrada de la varianza.
Notación: s, .
Tema 2. Estadística Descriptiva
2
s s
Medidas de dispersión: Coeficiente
de Variación
Es una medida de dispersión relativa que
permite comparar el nivel de dispersión
de dos muestras de variables estadísticas
Tema 2. Estadística Descriptiva
diferentes.
No tiene dimensiones.
Notación: CV
s
CV 100%
x
Medidas de Forma:
Asimetría
Permiten estudiar la forma de la curva, dependiendo
de cómo se agrupan los datos.
Tema 2. Estadística Descriptiva
Medidas de Forma: Kurtosis
Miden si los valores de la distribución están más o
menos concentrados alrededor de los valores
medios de la muestra (zona central de la
Tema 2. Estadística Descriptiva
distribución).
Se definen tres tipos de distribución según su grado
de Kurtosis:
Medidas de Forma: Kurtosis
Mesocúrtica: grado de concentración medio alrededor de los
valores centrales de la variable.
Leptocúrtica: grado de concentración elevado.
Tema 2. Estadística Descriptiva
Platicúrtica: grado de concentración reducido.
Distribuciones de
Probabilidad
Una distribución o densidad de probabilidad de
una variable aleatoria x es la función de
distribución de la probabilidad de dicha variable
Área de curva entre 2 puntos representa la
probabilidad de que ocurra un suceso entre
esos dos puntos.
Distribuciones probabilidad pueden ser discretas o
continuas, de acuerdo al tipo de.
Hay infinidad distribuciones probabilidad, pero
hay ciertas distribuciones “modelo”:
Normal
La Distribución Binomial
Se utiliza en situaciones cuya solución tiene
dos posibles resultados.
Al nacer un/a bebé puede ser varón o hembra.
En el deporte un equipo puede ganar o perder.
Un tratamiento médico puede ser efectivo o
inefectivo.
Vivo / muerto; enfermo / sano; verdadero / falso
Prueba múltiple 4 alternativas: correcta o
incorrecta.
Algo puede considerarse como Éxito o Fracaso
Propiedades de un
1.
experimento de Binomial
En cada prueba del experimento sólo hay dos
posibles resultados: Éxitos o Fracasos.
2. El resultado obtenido en cada prueba es
independiente de los resultados obtenidos en
pruebas anteriores.
3. La probabilidad de un suceso (p) es constante
y no varía de una prueba a otra.
4. La probabilidad del complemento (1- p) es q .
Si repetimos el experimento n veces podemos
obtener los datos para armar una distribución
Binomial.
La función P(x=k)
Función de la distribución Binomial:
k = número de aciertos.
n = número de experimentos.
p = probabilidad de éxito, como por
ejemplo, que salga "cara" al lanzar la
moneda.
1-p = “q”
Ejemplo 1
¿Probabilidad de obtener 6 caras al lanzar una
moneda 10 veces?
El número de aciertos k es 6. Esto es x=6
El número de experimentos n son 10
La probabilidad de éxito p = 0.50
P (k = 6) = 0.205
Es decir, que la probabilidad de obtener 6 caras
al lanzar 10 veces una moneda es de 20.5% .
Distribución
hipergeométrica
En estadística la Distribución hipergeométrica es
una distribución de probabilidad discreta
con tres parámetros discretos N, d y n cuya
función de probabilidad es:
Aquí, se refiere al coeficiente
binomial, o al número de
combinaciones posibles al seleccionar
b elementos de un total a.
Esta distribución se refiere a un
espacio muestra donde hay elementos
de 2 tipos posibles. Indica la
probabilidad de obtener un número de
objetos x de uno de los tipos, al sacar
una muestra de tamaño n, de un total
de N objetos, de los cuales d son del
tipo requerido.
Ejemplo
1. En un lote de productos se tienen
20 productos sin defectos, 3 con
defectos menores y 2 con defectos
mayores, se seleccionan al azar 5
productos de este lote, determine la
probabilidad de que a) 3 de los
productos seleccionados no tengan
defectos y 1 tenga defectos menores,
b) 4 de los productos seleccionados
no tengan defectos y 1 tenga
defectos menores.
C3* 3 C1* 2 C1 ( 1140 )( 3 )( 2 ) 6840
p( x 3, y 1,n 5 ) 20 0.128741
25 C5 53130 53130
C 4 * 3 C1* 2 C 0 20
p( x 4 , y 1; n 5 )
25 C 5
( 4845 )( 3 )( 1 ) 14535
0.27357
53130 53130
REGRESION LINEAL SIMPLE
Una de las aplicaciones mas
importantes de la estadística
implica la estimación del valor
medio de una variable de
respuesta y o la predicción de
algún valor futuro de y con
base el conocimiento de un
conjunto de variables
independientes relacionadas,
x1, x2, . . . xk.
Los modelos que se emplean para
relacionar una variable
dependiente y con las variables
independientes x1, x2, . . . xk se
denominan modelos de regresión o
modelos estadísticos lineales
porque expresan el valor medio de
y para valores dados de x1, x2, . . .
xk como una función lineal de un
conjunto de parámetros
desconocidos.
Los conceptos de análisis de
regresión se presentan
empleando un modelo de
regresión muy sencillo, uno
que relaciona y con una sola
variable x. Aprenderemos a
ajustar este modelo a un
conjunto de datos mediante el
método de los mínimos
cuadrados
Un tipo de modelo probabilístico,
el modelo de regresión lineal
simple, supone que el valor
medio de y para un valor dado
de x se grafica como una línea
recta y que los puntos se
desvían de esta línea de medias
en una cantidad aleatoria
(positiva o negativa) igual a
Modelo de regresión lineal simple
(probabilístico)
Si queremos ajustar un modelo
de regresión lineal simple a un
conjunto de datos, debemos
encontrar estimadores para
los parámetros desconocidos,
0 y 1.
Ejercicio:
Con esta información encontrar la
ecuación de la línea recta E(y)=?
Embarqu
e 1 2 3 4 5 6 7 8 9 10
Distanci
82 21 10 55 48 92 13 32 67 12
a (km)
5 5 70 0 0 0 50 5 0 15
x
Tiempo
3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0
(dias) y
X Y XY X2 Y2
1 825 3.5 2287.5 680625 12.25
2 215 1.0 215.0 46225 1.00
3 1070 4.0 4280.0 1144900 16.00
4 550 2.0 1100.0 302500 4.00
5 480 1.0 480.0 230400 1.00
6 920 3.0 2760.0 846400 9.00
7 1350 4.5 6075.0 1822500 20.25
8 325 1.5 487.5 105625 2.25
9 670 3.0 2010.0 448900 9.00
10 1215 5.0 6075.0 1476225 25.00
7620 28.5 26370 7104300 99.75
ˆ1
SS xy
XY n x y 26370 10(762)(2.85)
X n x 7104300 10(762)
2 2
SS xx 2 ˆ1
SS xy
SS xx
XY n x y 26370 10(762)(2.85)
X nx
2 2
7104300 10(762)2
ˆ1 0.0036
ˆ0 y ˆ1 x
2.85
ˆ
ˆ
0. 0036( 762) 0. 11
yˆ 0 1 x 0.11 0.0036 x