Está en la página 1de 82

Unidad I.

Conceptos Básicos y
Estadística Descriptiva

Prof. Manuel Cumba E.


Concepto de Estadística
 Se refiere a un conjunto de
métodos para manejar la
obtención, presentación y
análisis de observaciones
numéricas.

Tema 1. Introducción
Concepto de Estadística
 Sus fines son describir al conjunto
de datos obtenidos y tomar
decisiones o realizar
generalizaciones acerca de las
características de todas las

Tema 1. Introducción
observaciones bajo consideración.
Áreas que conforman a la Estadística

 Estadística Descriptiva (Deductiva):


es la encargada de la organización,
condensación, presentación de los
datos en tablas y gráficos y del
cálculo de medidas numéricas que

Tema 1. Introducción
permitan estudiar los aspectos más
importantes de los datos.

DESCRIBIR
Áreas que conforman a la Estadística

 Estadística Inferencial o Inferencia


Estadística: está definida por un
conjunto de técnicas, mediante las
cuales se hacen generalizaciones o
se toman decisiones en base a

Tema 1. Introducción
información parcial obtenida
mediante técnicas descriptivas.

INFERIR
Áreas de Aplicación de la Estadística
 El uso de la Estadística es muy amplio.
Resulta difícil nombrar un área en la cual no
se emplee.
 Los métodos estadísticos han encontrado
aplicación en:
 Gobierno
 Negocios

Tema 1. Introducción
 Ciencias Sociales
 Ingeniería
 Ciencias Física y Naturales
 Control de Calidad
 Procesos de Manufactura
 Muchos otros campos de la actividad intelectual.
Áreas de Aplicación de la Estadística

 Esto se debe a la creciente facilidad


con la cual se pueden manejar
grandes cantidades de datos
numéricos, debido al uso de …

Tema 1. Introducción
Conceptos de Población y Muestra
 Población: es la colección de todas
las posibles mediciones u
observaciones que pueden hacerse
de una variable bajo estudio.

Tema 1. Introducción
Conceptos de Población y Muestra
 Se clasifica en dos categorías:
 Finita: es aquella que incluye una
cantidad limitada contable de
observaciones, individuos o medidas.
Siempre que sea posible alcanzar
(contar) el número total de todas las

Tema 1. Introducción
posibles mediciones, se considera como
finita la población.
Conceptos de Población y Muestra
 Infinita: es aquella que incluye un gran
conjunto de observaciones o
mediciones que no pueden alcanzarse
por conteo. Al menos, hipotéticamente,
no existe límite en cuanto al número de
observaciones que el experimento

Tema 1. Introducción
puede generar.
Conceptos de Población y Muestra
 Muestra:
 es un conjunto de mediciones u
observaciones tomadas a partir de una
población.
 es un subconjunto de la población.

Tema 1. Introducción
Conceptos de Población y Muestra
 Muestra aleatoria: se considera
aleatoria siempre y cuando cada
observación, medición o individuo
de la población tenga la misma
probabilidad de ser seleccionado.

Tema 1. Introducción
Tipos de datos y escalas de medida

 Variables:
 son las características o lo que se
estudia de cada individuo de la
muestra. Ej: sexo, edad, peso,
estatura, color de ojos, estado civil,
temperatura, cantidad de nacimientos,
presión, grosor, diámetro, ...

Tema 1. Introducción
 Datos:
 son los valores que toma la variable en
cada caso.
Tipos de datos
 Cualitativos: son datos que solo toman
valores asociados a las cualidades o
atributos, clasificándolos en una de varias
categorías, es decir, no son valores
numéricos. Ej:
 Sexo: f/m.

Tema 1. Introducción
 Hábito de fumar: Fumador/No fumador
 Color de ojos: negro, azul, marrón, …
 Religión: católica, evangélica, …
 Estado civil: soltero, casado, divorciado,…
Tipos de datos
 Cuantitativos: provienen de variables que
pueden medirse, cuantificarse o
expresarse numéricamente. Ejemplos:
 Peso
 Edad
 Estatura

Tema 1. Introducción
 Presión
 Humedad
 Intensidad de un sismo
 Cantidad de hermanos
TEMA 2. ESTADÍSTICA DESCRIPTIVA
Organización de los datos

 Una vez que se ha


realizado la
recolección de los

Tema 2. Estadística Descriptiva


datos, se obtienen
datos en bruto, los
cuales rara vez son
significativos sin
una organización y
tabulación.
Organización de los datos
 Formas de organizar los datos:
 Un arreglo: es la forma más sencilla de
organizar los datos en bruto, consiste en

Tema 2. Estadística Descriptiva


colocar las observaciones en orden según su
magnitud: ascendente o descendente.
 Poco práctica cuando se tiene una gran
cantidad de datos.
Organización de los datos
 Una distribución de frecuencias: es un
arreglo de los datos que permite expresar
la frecuencia de ocurrencias de las
observaciones en cada una de las clases,

Tema 2. Estadística Descriptiva


mostrando el patrón de la distribución de
manera más significativa.

Clase Pto. fi Fi fri FRi


Medio
Organización de los datos

 La Distribución de Frecuencias:
 Se recomienda su uso cuando se tienen
grandes cantidades de datos (n).

Tema 2. Estadística Descriptiva


 Su construcción requiere, en primer
lugar, la selección de los límites de los
intervalos de clase.
 Para definir la cantidad de intervalos de
clase (k), se puede usar:
 La regla de Sturges: k = 1 + 3.3log(n)
 k = n
Organización de los datos
 La cantidad de clases no puede ser tan
pequeño (menos de 5) o tan grande (más
de 20), que la verdadera naturaleza de la
distribución sea imposible de visualizar.

Tema 2. Estadística Descriptiva


 La amplitud de todas las clases deberá ser
la misma. Se recomienda que sea impar y
que los puntos medios tengan la misma
cantidad de cifras significativas que los
datos en bruto.
 Los límites de las clases deben tener una
cifra significativa más que los datos en
bruto.
Organización de los datos
 Determinar:
 Punto medio = (Li+Ls)/2.
 Frecuencia absoluta de la clase (fi).

Tema 2. Estadística Descriptiva


 Frecuencia acumulada de la clase (Fi).
 Frecuencia relativa de la clase (fri):
 fri = fi/n
 Frecuencia relativa acumulada de la
clase (FRi).
Ejemplos de Distribución de
Frecuencias

A continuación se presentan
las calificaciones de 60

Tema 2. Estadística Descriptiva


estudiantes que
presentaron la PINA en el
año 2009:
Ejemplos de Distribución de
Frecuencias

23 60 79 32 57 74 52 70 82 36
80 77 81 95 41 65 92 85 55 76
52 10 64 75 78 25 80 98 81 67
41 71 83 54 64 72 88 62 74 43
60 78 89 76 84 48 84 90 15 79
34 67 17 82 69 74 63 80 85 61

a) Construya una distribución de frecuencias.


b) Qué puede concluir de estos datos.
Representación gráfica de los datos

 Los gráficos permiten visualizar en forma


global y rápida el comportamiento de los
datos.

Tema 2. Estadística Descriptiva


 Para datos cuantitativos agrupados en
clases, comúnmente se utilizan tres
gráficos:
 Histogramas.
 Polígono de frecuencias.
 Ojiva o Polígono de frecuencias acumuladas.
Representación gráfica de los datos

Histograma
Representación gráfica de los datos

Tema 2. Estadística Descriptiva


Histograma y Polígono de Frecuencias
Representación gráfica de los datos

Tema 2. Estadística Descriptiva


Ojiva
Representación gráfica de los datos

 Para datos cualitativos se usan:


 Curvas
 Barras

Tema 2. Estadística Descriptiva


 Sectores
Representación gráfica de los datos

Barras

Barras
Representación gráfica de los datos

Curvas
Representación gráfica de los datos
Sectores, torta o circular

Tema 2. Estadística Descriptiva


Ejemplos de construcción
de gráficos

Tema 2. Estadística Descriptiva


Medidas de tendencia central o
posición

 Corresponden a valores que


generalmente se ubican en la parte
central de un conjunto de datos.

Tema 2. Estadística Descriptiva


 Forma como los datos pueden
condensarse en un solo valor
central alrededor del cual todos los
datos muestrales se distribuyen.
Medidas de tendencia central o
posición

 Las medidas de tendencia central


más importantes son:
 Media: Aritmética y Aritmética

Tema 2. Estadística Descriptiva


ponderada.
 Mediana.
 Moda.
Media Aritmética
 Es la suma de todas las observaciones dividida entre
el número total de observaciones.
 Expresada de forma más intuitiva, podemos decir
que la media aritmética es la cantidad total de la

Tema 2. Estadística Descriptiva


variable distribuida a partes iguales entre cada
observación. (wikipedia)
 Por ejemplo, si en una habitación hay tres personas,
la media de dinero que tienen en sus bolsillos sería
el resultado de tomar todo el dinero de los tres y
dividirlo a partes iguales entre cada uno de ellos. Es
decir, la media es una forma de resumir la
información de una distribución (dinero en el bolsillo)
suponiendo que cada observación (persona) tendría
la misma cantidad de la variable. (wikipedia)
Cálculo de la media aritmética
 Para datos no agrupados:
n

x i

Tema 2. Estadística Descriptiva


X i 1
n
 Para datos agrupados:
k

m f i i
X i 1

n
Donde: mi: punto medio de la clase i
fi: frecuencia absoluta de la clase i
k: cantidad de clases
Mediana
 Es el valor que ocupa la posición
central de un conjunto de
observaciones, una vez que han

Tema 2. Estadística Descriptiva


sido ordenados en forma
ascendente o descendente.
 Divide al conjunto de datos en dos
partes iguales.
Cálculo de la mediana
 Para datos no agrupados:
 Si n es impar: posición donde se ubica
la mediana es igual a (n+1)/2.

Tema 2. Estadística Descriptiva


 Si n es par: (n+1)/2 no es entero, por
lo tanto la mediana será igual al
promedio de las dos posiciones
centrales.
Cálculo de la mediana
 Datos agrupados: clase mediana es la
que contiene a la observación que
ocupa la posición n/2.

Tema 2. Estadística Descriptiva


n 1
 F ( xm 1 )
Md  Lm  2 Cm
f ( xm )

Donde: Lm: límite inferior de la clase mediana.


F(xm-1): frecuencia acumulada de la clase
anterior a la clase mediana.
f(xm): frecuencia absoluta de la clase mediana.
Cm: amplitud de la clase mediana.
Moda
 Observación o clase que tiene la
mayor frecuencia en un conjunto de
observaciones.

Tema 2. Estadística Descriptiva


 Un conjunto de datos puede ser
unimodal, bimodal o multimodal.
 Es la única medida de tendencia
central que se puede determinar
para datos de tipo cualitativo.
Cálculo de la moda
 Para datos no agrupados: es simplemente
la observación que más se repite.
 Para datos agrupados:

Tema 2. Estadística Descriptiva


1
Mo  Lim  Cm
1   2
Donde: Lim: límite inferior de la clase modal.
1: diferencia entre fi de la clase modal y la
anterior.
2: diferencia entre fi de la clase modal y la
posterior.
Cm: amplitud de la clase modal (clase de mayor
frecuencia).
Relación entre la media, la mediana y
la moda

Tema 2. Estadística Descriptiva


Cuando los datos son sesgados es mejor emplear la Md
Cuantiles
 Los cuantiles son medidas de posición “no
central” que se utilizan con mayor
frecuencia y se emplean sobre todo para

Tema 2. Estadística Descriptiva


resumir o describir las propiedades de
conjuntos grandes de datos numéricos.
 Cuartiles
 Deciles

 Percentiles
Cuartiles

De la misma manera que la mediana


divide un conjunto de datos en dos grupos
iguales, los cuartiles lo dividen en cuatro

Tema 2. Estadística Descriptiva


grupos iguales.
 Cada grupo está formado por 25% de los
datos de la muestra y se denotan por Q1,
Q2 y Q3 respectivamente

25% 25% 25% 25%

Q1 Q2 Q3
Cuartiles

La obtención de los cuartiles depende del número de


datos de la muestra; se utilizan los mismo conceptos del
cálculo de la mediana. Las fórmulas para cada los

Tema 2. Estadística Descriptiva


cuartiles 1 y al vienen a ser:
n 1
Q1  ValorPosic ión( )
4
2(n  1)
Q2  ValorPosic ión( )
4
3(n  1)
Q3  ValorPosic ión( )
4
Se define en minutos el tiempo que le lleva arreglarse, desde que se

Tema 2. Estadística Descriptiva


levanta hasta que sale de casa. A lo largo de 10 días hábiles
consecutivos, Usted recaba los tiempos (redondeados a minutos)
que se muestras a continuación

39 29 43 52 39
44 40 31 44 35
Cuartil 1

Tamaño de la muestra N=10

29
n 1
31 Q1  VP( )
33 35 4

Tema 2. Estadística Descriptiva


39 10  1
39 Q1  VP( )
40 4
43 Q1  VP(2.75)
44
44
Q1  VP(3)
2-2008
52 Q1  35
Cuartil 2
Tamaño de la muestra N=10

29
n 1
31 Q1  VP ( )
35 4

Tema 2. Estadística Descriptiva


39 2(10  1)
Q2  VP ( )
39 4
5.5
5.5 40
Q2  VP (5.5)
43
39  40
44 Q2 
44 2
52 Q2  39.5
Cuartil 3
Tamaño de la muestra N=10

29
31 n 1
Q1  VP ( )
35

Tema 2. Estadística Descriptiva


4
39
3(10  1)
39 Q3  VP ( )
40
4
43 Q3  VP (8.25)
88 44 Q3  VP (8)
44
52
Q3  44
Deciles

Los deciles dividen una muestra en 10 grupos


iguales y cada decil acumula el 10% de los

Tema 2. Estadística Descriptiva


datos.

10% 10% 10% 10% 10% 10% 10% 10% 10% 10%

Se trabajan igual que los cuartiles

2-2008
51
Percentiles

Los percentiles dividen una muestra en 100


grupos iguales y cada percentil acumula el 1%

Tema 2. Estadística Descriptiva


de los datos.

1% 1% 1%       1% 1% 1% 1%

Se trabajan igual que los cuartiles y deciles

2-2008
52
Medidas de dispersión, variación o
variabilidad.

 Son valores numéricos que indican


o describen la forma en que las
observaciones están dispersas o

Tema 2. Estadística Descriptiva


diseminadas, con respecto al valor
central.
Medidas de dispersión, variación o
variabilidad.

 Son importantes debido a que dos


muestras de observaciones con el
mismo valor central pueden tener

Tema 2. Estadística Descriptiva


una variabilidad muy distinta.
Medidas de dispersión, variación o
variabilidad.

 Rango.
 Varianza.
Desviación Típica.

Tema 2. Estadística Descriptiva


 Coeficiente de variación.
Medidas de dispersión: Rango
Rango (amplitud o recorrido):
 Está determinado por los dos
valores extremos de los datos

Tema 2. Estadística Descriptiva


muestrales, es simplemente la
diferencia entre la mayor y menor
observación.
 Es una medida de dispersión
absoluta, ya que depende
solamente de los datos y permite
conocer la máxima dispersión.
Medidas de dispersión: Rango
 Casi no se emplea debido a que
depende únicamente de dos
valores.

Tema 2. Estadística Descriptiva


 No proporciona una medida de
variabilidad de las observaciones
con respecto al centro de la
distribución.
 Notación: R
Medidas de dispersión: Varianza
 Es un valor numérico que mide el
grado de dispersión relativa porque
depende de la posición de los datos

Tema 2. Estadística Descriptiva


x1,x2,…,xn con respecto a la media.
 Es el promedio al cuadrado de las
desviaciones de cada observación
con respecto a la media.
 Notación: s2, 2, var(X)
Medidas de dispersión: Varianza
 Si la varianza de un conjunto de
observaciones es grande se dice que los
datos tiene una mayor variabilidad que

Tema 2. Estadística Descriptiva


un conjunto de datos que tenga un
varianza menor.
  x  x
n
2
i
Para datos NO s2  i 1

agrupados: n
n

 i
x 2
2
s 
2 i 1
x
n
Medidas de dispersión: Varianza

Para datos agrupados en una


distribución de frecuencias:

Tema 2. Estadística Descriptiva


k

 im  x  2
 fi
s2  i 1

n
k

 i  fi
m 2

  x
2
s2  i 1

n
Medidas de dispersión: Desviación
Típica

 Es la raíz cuadrada de la varianza.


 Notación: s, .

Tema 2. Estadística Descriptiva


s s 2
Medidas de dispersión: Coeficiente de
Variación

 Es una medida de dispersión relativa que


permite comparar el nivel de dispersión
de dos muestras de variables estadísticas

Tema 2. Estadística Descriptiva


diferentes.
 No tiene dimensiones.
 Notación: CV

s
CV  100%
x
Medidas de Forma: Asimetría
 Permiten estudiar la forma de la
curva, dependiendo de cómo se
agrupan los datos.

Tema 2. Estadística Descriptiva


Medidas de Forma: Kurtosis
 Miden si los valores de la
distribución están más o menos
concentrados alrededor de los

Tema 2. Estadística Descriptiva


valores medios de la muestra (zona
central de la distribución).
 Se definen tres tipos de distribución
según su grado de Kurtosis:
Medidas de Forma: Kurtosis

 Mesocúrtica: grado de concentración


medio alrededor de los valores
centrales de la variable.

Tema 2. Estadística Descriptiva


 Leptocúrtica: grado de concentración
elevado.
 Platicúrtica: grado de concentración
reducido.
Distribuciones de Probabilidad
 Una distribución o densidad de probabilidad de
una variable aleatoria x es la función de
distribución de la probabilidad de dicha variable
 Área de curva entre 2 puntos representa la
probabilidad de que ocurra un suceso entre
esos dos puntos.
 Distribuciones probabilidad pueden ser discretas o
continuas, de acuerdo al tipo de.
 Hay infinidad distribuciones probabilidad, pero
hay ciertas distribuciones “modelo”:
 Normal
La Distribución Binomial
Se utiliza en situaciones cuya solución tiene
dos posibles resultados.
Al nacer un/a bebé puede ser varón o hembra.
En el deporte un equipo puede ganar o perder.
Un tratamiento médico puede ser efectivo o
inefectivo.
Vivo / muerto; enfermo / sano; verdadero /
falso
Prueba múltiple 4 alternativas: correcta o
incorrecta.
Algo puede considerarse como Éxito o Fracaso
Propiedades de un
experimento de Binomial
1. En cada prueba del experimento sólo hay dos
posibles resultados: Éxitos o Fracasos.
2. El resultado obtenido en cada prueba es
independiente de los resultados obtenidos en
pruebas anteriores.
3. La probabilidad de un suceso (p) es constante
y no varía de una prueba a otra.
4. La probabilidad del complemento (1- p) es q .
 Si repetimos el experimento n veces podemos
obtener los datos para armar una distribución
Binomial.
La función P(x=k)
Función de la distribución Binomial:

 k = número de aciertos.
 n = número de experimentos.
 p = probabilidad de éxito, como por
ejemplo, que salga "cara" al lanzar la
moneda.
 1-p = “q”
Ejemplo 1
 ¿Probabilidad de obtener 6 caras al lanzar una
moneda 10 veces?
 El número de aciertos k es 6. Esto es x=6
 El número de experimentos n son 10
 La probabilidad de éxito p = 0.50

 P (k = 6) = 0.205
 Es decir, que la probabilidad de obtener 6 caras al
lanzar 10 veces una moneda es de 20.5% .
Distribución hipergeométrica
En estadística la Distribución hipergeométrica es
una distribución de probabilidad discreta
con tres parámetros discretos N, d y n cuya
función de probabilidad es:
 Aquí, se refiere al coeficiente binomial, o
al número de combinaciones posibles al
seleccionar b elementos de un total a.

 Esta distribución se refiere a un espacio


muestra donde hay elementos de 2 tipos
posibles. Indica la probabilidad de
obtener un número de objetos x de uno
de los tipos, al sacar una muestra de
tamaño n, de un total de N objetos, de
los cuales d son del tipo requerido.
Ejemplo
 1. En un lote de productos se tienen 20
productos sin defectos, 3 con defectos
menores y 2 con defectos mayores, se
seleccionan al azar 5 productos de este
lote, determine la probabilidad de que
a) 3 de los productos seleccionados no
tengan defectos y 1 tenga defectos
menores,
 b) 4 de los productos seleccionados no
tengan defectos y 1 tenga defectos
menores.
C3* 3 C1* 2 C1 ( 1140 )( 3 )( 2 ) 6840
p( x  3, y  1,n  5 )  20
   0.128741
25 C5 53130 53130

C 4 * 3 C1* 2 C 0
p( x  4 , y  1; n  5 )  20

25 C 5

( 4845 )( 3 )( 1 ) 14535
   0.27357
53130 53130
REGRESION LINEAL SIMPLE
 Una de las aplicaciones mas
importantes de la estadística implica
la estimación del valor medio de una
variable de respuesta y o la
predicción de algún valor futuro de y
con base el conocimiento de un
conjunto de variables
independientes relacionadas, x1,
x2, . . . xk.
 Los modelos que se emplean para
relacionar una variable dependiente y
con las variables independientes x1,
x2, . . . xk se denominan modelos de
regresión o modelos estadísticos
lineales porque expresan el valor medio
de y para valores dados de x1, x2, . . .
xk como una función lineal de un
conjunto de parámetros desconocidos.
 Los conceptos de análisis de
regresión se presentan empleando
un modelo de regresión muy
sencillo, uno que relaciona y con
una sola variable x. Aprenderemos
a ajustar este modelo a un
conjunto de datos mediante el
método de los mínimos cuadrados
 Un tipo de modelo probabilístico, el
modelo de regresión lineal simple,
supone que el valor medio de y
para un valor dado de x se grafica
como una línea recta y que los
puntos se desvían de esta línea de
medias en una cantidad aleatoria
(positiva o negativa) igual a 
Modelo de regresión lineal simple
(probabilístico)

Si queremos ajustar un
modelo de regresión lineal
simple a un conjunto de datos,
debemos encontrar
estimadores para los
parámetros desconocidos, 0 y
1.
Ejercicio:
Con esta información encontrar la
ecuación de la línea recta E(y)=?

Embarque 1 2 3 4 5 6 7 8 9 10
Distancia
825 215 1070550 480 920 1350 325 670 1215
(km) x
Tiempo
3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0
(dias) y
X Y XY X2 Y2
1 825 3.5 2287.5 680625 12.25
2 215 1.0 215.0 46225 1.00
3 1070 4.0 4280.0 1144900 16.00
4 550 2.0 1100.0 302500 4.00
5 480 1.0 480.0 230400 1.00
6 920 3.0 2760.0 846400 9.00
7 1350 4.5 6075.0 1822500 20.25
8 325 1.5 487.5 105625 2.25
9 670 3.0 2010.0 448900 9.00
10 1215 5.0 6075.0 1476225 25.00
7620 28.5 26370 7104300 99.75
ˆ1 
SS xy

 XY  n x y 26370  10(762)(2.85)

 X  n x 7104300  10(762)
2 2
SS xx 2 ˆ1 
SS xy
SS xx
  XY  n x y  26370 10 (762 )(2.85)
 X  nx
2 2
7104300  10( 762 )
2

ˆ1  0.0036
ˆ0  y  ˆ1 x
 2.85
ˆ
ˆ
0.0036( 762)  0.11
yˆ   0  1 x  0.11  0.0036 x

También podría gustarte