Está en la página 1de 32

Semestre otoño 2020

Facultad de Ingeniería, Ciencia y Tecnología


Estadística I

Profesor: Álvaro Toledo San Martín


UNIDAD I: ESTADÍSTICA DESCRIPTIVA

• ¿Qué es la estadística?
• Concepto de población y muestra
• datos discretos y continuos
• Gráfico de torta
• Gráfico de barras
• Histograma
• Otros gráficos estadísticos
¿Qué es la Estadística?

Definiciones comunes en textos de estadística o


en la web:
• Es una rama de las Matemáticas
• Disciplina que recoge datos, los procesa, los analiza y obtiene
conclusiones.
• Es la tecnología del conocimiento científico, es un puente entre los
modelos matemáticos y los problemas reales.

¡TODAS ESTAS DEFINICIONES ESTÁN INCOMPLETAS O SON INCORRECTAS!


¿Qué es la Estadística?

• Es una rama de las Matemáticas


Incorrecto. La Estadística no cumple con la doble implicancia entre las ramas de
la matemática, por ejemplo, la Teoría de conjuntos es una rama de las
matemáticas porque utiliza el álgebra (álgebra de conjuntos) y viceversa. La
Estadística ocupa matemáticas, pero la matemática no ocupa estadística
(Observación: La probabilidad es rama de las matemáticas)

• Disciplina que recoge datos, los procesa, los analiza y obtiene


conclusiones.
Incompleto. Cualquier disciplina puede realizar esto, no es propio de la
estadística. Se hace referencia a la estadística pre-inferencial, pero la definición
no aborda la inferencia estadística.
¿Qué es la Estadística?

• Es la tecnología del conocimiento científico, es un puente entre los


modelos matemáticos y los problemas reales.
Definición ambigua. No se comprende el término “tecnología del conocimiento
científico”. Hace referencia al puente entre los modelos matemáticos y los
problemas reales (modelos de probabilidad y estimadores), pero no especifica el
cómo. Ausencia de mención a la estadística pre-inferencial.
Definición de Estadística

Una definición muy aceptable de Estadística es:

“La Estadística es una disciplina científica cuyo propósito es favorecer o


facilitar la realización de inferencias inductivas basada en datos
mediante: El resumen de la información contenida en datos (a efecto
que los usuarios puedan realizar sus inferencias a base de tal resumen)
o el dimensionamiento o control del error inherente a toda inferencia
inductiva.” (Araújo, 2006)
Definiciones esenciales

• Datos: corresponden a las observaciones recolectadas (por ejemplo,


mediante algún tipo de respuesta obtenido de una encuesta)
• Población: es la colección completa de todos los elementos
(personas, mediciones, objetos, etc) a estudiar. Se dice que la
colección es completa porque incluye a todos los elementos que se
estudiarán.
• Censo: es la colección de datos de cada uno de los miembros de la
población.
• Muestra: corresponde a un subconjunto de elementos seleccionados
de una población.
• Modelo: forma teórica que representa un determinado fenómeno. Se
explica mediante una función matemática
Población y Muestra

Mundo de la teoría matemática


(Probabilidas y variable aleatoria)
Tipos de variables

Cualitativas: nominales y ordinales


• Categorización de variables cualitativas:
dicotómicas y politómicas

Cuantitativas: discretas y continuas


• Consideración de la clasificación: intervalar
y razón (racional)
Tipos de gráficos
TABLAS DE
FRECUENCIAS
Tabla de frecuencias para variables cualitativas
Color favorito: azul, rojo, rojo, verde, azul, negro, negro, negro, azul, verde,
azul, rojo
Color favorito Frecuencia Frecuencia Frecuencia absoluta Frecuencia relativa
absoluta (ni) relativa (fi) acumulada (Ni) acumulada (Fi)
Tabla de frecuencias para variables cuantitativas
discretas
Nº de hijos: 0, 1, 1, 1, 0, 0, 3, 3, 2, 1, 1, 2, 2, 2, 1

Nº de hijos Frecuencia Frecuencia Frecuencia absoluta Frecuencia relativa


absoluta (ni) relativa (fi) acumulada (Ni) acumulada (Fi)
Tabla de frecuencias para variables cuantitativas
continua
Estatura (m): 1.67, 1.60, 1.89, 1.77, 1.55, 1.57, 1.68, 1.81, 1.79, 1.63, 1.65,
1.67, 1.67, 1.70, 1.64.
Estatura (m) Marca de clase Frecuencia Frecuencia Frecuencia Frecuencia
(ci) absoluta (ni) relativa (fi) absoluta relativa
acumulada (Ni) acumulada (Fi)
Aplicaciones en
Microsoft Excel
MEDIDAS DE
TENDENCIA CENTRAL Y
POSICIÓN
Estadísticos de tendencia Central

Media: Es el valor
que minimiza la
distancia
cuadrática entre
todos los
elementos que
componen el
conjunto de datos
n
1
x =  xi
n i =1
Mediana: Es el valor  x( n / 2 ) + x( n / 2 ) +1
 , n : par
que divide a las  2
observaciones en dos Me = 
 xn / 2 +1 , n : impar
partes iguales 

Moda: Es el valor más frecuente en las observaciones.
Ejemplo
Se consulta a un grupo de 11 personas
sobre el grado de preferencia (de 1 a 7)
por una marca de café obteniendo los
siguientes datos:

5, 7, 5, 6, 6, 7, 5, 6, 5, 6, 7

a) En base a esto, determine:


• Media
• Mediana
• Moda

b) Suponga que se consulta a una


doceava persona quien valora la
marca de café con un 7. Calcule
nuevamente los estadísticos de la
parte a)
Relación entre media, moda y mediana

media = mediana = moda -> distribución simétrica perfecta.


media < mediana -> distribución asimétrica con cola a la izquierda
media > mediana -> distribución asimétrica con cola a la derecha

Fuente: UGR.es
Observaciones:

• La media es un estadístico sensible


a valores extremos (datos extremos
alteran el promedio)

• La mediana es un estadístico
robusto (invariable ante datos
extremos)
Estadísticos de posición
Son valores de la variable que dividen la muestra
Ejemplos: en partes de igual porcentaje.
• Percentiles: separan la
muestra en grupos de 1%
cada uno
• Cuartiles: agrupan 25% c/u
• Quintiles: agrupan 20% c/u
• Deciles: agrupan 10% c/u
En datos sin tabular:

i) Ordenar de menor a mayor los n datos

ii) Obtener A = n x k /100 (k representa el percentil que se desea calcular, k=1,..,99)

iii)
a) Si A es “entero”, entonces el percentil k corresponde al valor medio de las observaciones ubicadas en
las posiciones A y A+1.
b) Si A no es un entero, el percentil k corresponde a la observación ubicada en la posición entera
siguiente, es decir, [A+1]
Ejemplos:

Determine los percentiles 75 y 90 de los siguientes


datos: 3, 5, 5, 8, 11, 19, 20, 21, 24, 26, 29, 30

solución:
i) P75 A= 12 x 75 /100 = 9, resulta un entero, por tanto el P25 corresponde al promedio de las
observaciones en las posiciones 9º y 10º, es decir, P25= (24+26)/2 = 25

ii) P90 A = 12 x 90 / 100 = 10,8, dado que no es un entero, nos “movemos” al entero siguiente Es decir,
P90 = 29 (observación en la 11va posición)
MEDIDAS DE
DISPERSIÓN Y DE
FORMA
Estadísticos de dispersión

Estadísticos de dispersión

• Rango: Xmax-Xmin. Corresponde a la distancia (dispersión) entre el


dato mayor y el dato menor.
Es sensible a valores extremos.

• Varianza : corresponde al promedio de las desviaciones cuadráticas


respecto a la media
Distintas distribuciones para la media y varianza
Estadísticos de dispersión (continuación)

Desviación estándar:
Corresponde a la raíz cuadrada de la varianza.

𝑛
1 2
𝑆= ෍ 𝑥𝑖 − 𝑥ҧ
𝑛
𝑖=1

¿Qué mide?
La Regla Empírica

Si los datos son “relativamente” simétricos, se cumple que:

i) El 68% se encuentra a menos de una desviación estándar de la media.

ii) El 95% está a menos de dos desviaciones estándar de la media.

iii) El 99,7% (casi todos) están a menos de tres desviaciones estándar de la media.
La Regla Empírica

También podría gustarte