Explora Libros electrónicos
Categorías
Explora Audiolibros
Categorías
Explora Revistas
Categorías
Explora Documentos
Categorías
Concepto de Estadística: es la rama de la matemática que transforma los DATOS en información útil para la toma de
decisiones. Debemos tener en cuenta que el Dato por sí solo no sirve, no nos dice nada. Por lo tanto, es necesario
juntar todos los datos que obtenemos, organizarlos y analizarlos, de esta manera nos van a servir como información
útil.
Tenemos dos ramas de la estadística:
• Estadística descriptiva: se encarga de recolectar los datos, ordenarlos y finalmente analizarlos para sacar
estadísticas. En definitiva, reúne información en base a un conjunto de datos.
• Estadística Inferencial: a partir de una cierta cantidad de datos trata de obtener características de una
población a partir de una muestra. Es decir, que, a través de los datos de un grupo pequeño, saca
conclusiones de un grupo grande.
Debe tenerse en cuenta que para estadística siempre el objeto de estudio es la POBLACION, mientras que la
medida de estudio es la MUESTRA.
Las medidas utilizadas para describir una población se llaman Parámetros, mientras que las medidas para
describir unas muestras se llaman Estadísticas.
Un Dato, también llamado Variable, por sí solo es un hecho aislado, no nos dice nada.
• Datos Categóricos (también Cualitativos): sus valores solo pueden ser divididos por categorías. Por ejemplo:
si tengo una población puedo dividirla por género. Son como “etiquetas” al momento de clasificar.
• Datos Cuantitativos: sus valores representan cantidades. Estos a su vez se dividen en:
✓ Cuantitativo Discreto: cuando dentro de un intervalo puede tomar solo algunos valores. Por
ejemplo, la cantidad de hijos que hay por familia en una población. Es decir, no se puede
tener 3 hijos y medio.
✓ Cuantitativo Continuos: cuando dentro de un intervalo puede tomar cualquier valor. Por
ejemplo, la edad de las personas. La Cantidad de litros de cerveza que puede producir una
fábrica por día, por ejemplo, entre 42,5 y 51,6 litros.
Esta otra medida de clasificar los datos toma a la MEDICIÓN como concepto a la hora de tomar decisiones, que nos
permiten describir, diferenciar, explicar, etc.
Ahora bien, la medición nos sirve como parámetro para asignar símbolos a objetos, atribuciones, observaciones.
• Medición Nominal (concepto clasificatorio): la característica de los datos consiste en nombres, etiquetas o
categorías. Son meramente cualitativos donde no importa el orden. Por ejemplo, realizar un censo en una
localidad y hacer la medición por las etiquetas de “Hombre, Mujer o Niños”. Al momento de volcarlos a un
gráfico, no nos importaría el orden. Otro ejemplo, seria las respuestas de una en cuesta donde tenemos “SI,
NO o NS/NC”
• Medición Ordinal (concepto comparativo): los datos que se obtienen de la medición se encuentran
ordenados. Sin embargo, las diferencias entre dichos valores de los datos no deben estar determinados
mediante manipulaciones de algún tipo. Por ejemplo, puede ocurrir que quiera hacer una medición en mi
empresa clasificando a los empleados según el nivel de estudios alcanzado. Al momento de volcarlo a un
gráfico, lo ideal es que lo acomode por “Primario, Secundario y Universitario” donde el orden SI importa.
• Medición por Intervalos (concepto métrico): al igual que el ordinal, donde las mediciones de los datos están
ordenadas, se le adiciona que entre número y numero la escala tiene que ser la misma, y tiene un significado
particular. Por ejemplo, si quiero medir en un gráfico la temperatura de una ciudad, pongo en una escala de
10cm una temperatura de 10°, 20°, 30°... no puedo saltar de 30° a 1000°. No tendría sentido la escala que
uso y presta a la confusión a la hora de tomar decisiones.
• Medición Proporcional o de Razón (concepto métrico): al igual que la medición de intervalo, se le suma el
punto inicial cero (que indica que no hay cantidad presente). Por ejemplo, si quiero medir una producción y
utilizo el Cero como punto de partida, me indicaría que no tengo costo de fabricación.
Resumen:
Exactitud y Precisión:
Decimos que tenemos error de muestreo cuando la característica de la población es diferente de la característica
muestral. Por lo tanto, el muestreo aleatorio permite la medición del error de muestreo.
Por otro lado, tenemos el error no muestral o sistemático, relacionado con mediciones defectuosas del sistema,
malos instrumentos, etc.
Ahora bien, decimos que cuando el Error No Muestral o sistemático es igual a cero, la información es exacta.
Mientras que, cuando el Error Muestral tiende a cero, la información es Precisa.
Tipos de Muestreo:
• Probabilístico: se da cuando todos los elementos de una población tienen una probabilidad conocida y no
nula de pertenecer a la muestra. A partir del muestreo probabilístico se permite calcular el error muestral.
• No Probabilístico: caso contrario al probabilístico.
En el Muestreo Aleatorio Simple (MAS) se enumeran los elementos de la población y se eligen “n” elementos que
compondrán la muestra. Donde N= Tamaño de la Población y n= Tamaño de la Muestra.
Cada elemento de la población tiene una probabilidad igual a n/N de pertenecer al a muestra. Y el Numero de
muestras, dependera que se reponga o no al elemento extraído.
N Cn=N!/n!(N-n)!
N Vn=N!/(N-n)!
Clase 2 05/02/2020
Probabilidad
Concepto: se toma a la probabilidad como la posibilidad de que un Evento (cada resultado posible de una variable)
indeterminado pueda ocurrir.
Son valores que dan un resultado entre 0 y 1. Donde:
Probabilidad= 0 --> imposibilidad de que el evento ocurra.
Probabilidad= 1 --> Certeza de que el evento ocurra.
• Probabilidad Subjetiva: se trata de un Juicio u opinión individual acerca de la posibilidad de ocurrencia, que
también puede tomarse desde la experiencia diaria. Ejemplo: mañana hay probabilidades de que suba el
dólar.
La Probabilidad se mide a través de un espacio muestral, que son todos los eventos posibles que pueden mostrar
esos valores. Por ejemplo: las 6 caras de un dado, las 52 cartas del mazo de póker.
Ahora bien, la Suma de las probabilidades de todos los eventos mutuamente excluyentes y conjuntamente
exhaustivos es igual a 1.
Tenemos 3 Teoremas Importantes:
2. Probabilidad Condicional: es la probabilidad de que ocurra un evento, sabiendo que ocurrió el otro.
Ejemplos:
✓ P(2 rey): P(rey y rey)= P(rey) x P(rey/rey)
= 4/40 x 3/39
Un ejemplo de la independencia estadística ocurre cuando se juega a la Ruleta, dado que cada evento es
independiente del otro.
Teorema de Bayes: también conocido como el teorema de las causas, tiene que ver con la probabilidad condicional.
Indica cual es la probabilidad de que la ocurrencia de un evento determinado sea causada por la ocurrencia de otro.
Generalmente se utiliza para revisar probabilidades previamente calculadas cuando se tiene información nueva.
▪ Tendencia Central
1. Media Aritmética: es la más usada, la más famosa. Conocida también como el promedio simple. Se define
como la suma de todos los valores, dividida por el número de valores. Tiene un solo defecto que es que está
influenciada por los valores extremos (outliers). Es mejor estimador poblacional que la mediana.
Un ejemplo: quiero calcular mi promedio de la facultad. Tengo 4 materias aprobadas con 7, 8, 9, 7. Tengo que sumas
(7+8+9+7) dividido por 4 (cantidad de materias) = 7.75
2. Mediana: es el número del “valor medio”. Es decir, separa el 50% de los valores más chicos, del 50% de los
valores más grandes. No está afectada por los valores extremos como la media aritmética. El problema de
este análisis es que los valores deben estar ordenados para poder calcularlos. Por ejemplo: si tenemos el
siguiente listado de números: 11-12-13-14-15-16-17, la mediana es el numero 14.
3. Modo: es el valor que más veces se repite, el de mayor frecuencia absoluta. Tiene la ventana de no estar
influenciado por los Outliers. La desventaja es que puede ocurrir que no haya modo, o que haya más de uno.
Este puede ser bimodal, trimodal. Por ejemplo: si tenemos la siguiente serie de números: 2-3-4-4-5-5-5-6-7-
8-8-9-9. El modo es el Número 5, dado que es el número que más se repite.
4. Media Geométrica: es la menos utilizada. Se utiliza cuando una variable viene de un producto, cuando la
variable viene de una suma se utiliza la Media Aritmética. Nos permite medir la tasa de cambio de la variable
sobre el tiempo. Se calcula de la siguiente manera: Xg= (X1*X2*X3)1/n
5. Media Armónica: se define como el recíproco de la media aritmética de los valores recíprocos de la variable.
Se utiliza cuando las variables son inversamente proporcionales. Mientras que una variable crece, la otra
disminuye. Por ejemplo: la productividad.
Por lo tanto, se aplica cuando se presenta una relación inversa entre las variables implícitas.
▪ Cuartiles o Quartiles: son valores fuera de escala y extremos. El cuartil, divide los datos ordenados en 4
segmentos con un igual número de términos por segmento.
Puede ocurrir que también nos encontremos con los Quintiles (que dividen los valores en 5 partes iguales), los
Deciles (dividen en 10 partes iguales), los Percentiles (dividen en 100). La mediana es un ejemplo de esto, y se
considera un Fractil, dado que divide los valores en 2 partes iguales.
▪ Medidas de Variación: dan información sobre el Spread o variabilidad de los valores de los datos
1. Rango: es la medida de variación más simple. La misma define la diferencia que hay entre el mayor valor y el
menor valor del conjunto de datos. Ejemplo: si tengo alumnos con 22 años y otros de 30 años, hay una
diferencia de 8 años de edad entre ellos.
La desventaja es que está muy influenciado por los outliers. Un valor muy chico, o un valor muy grande me cambia el
rango.
Otra desventaja, es que no tiene en cuenta el camino de la distribución de los datos. Por ejemplo:
Box and Whisker Plot: nos permite tener una visualización de los datos utilizando el resumen de los 5 números.
2. Rango Intercuartil: nos permite eliminar los problemas ocasionados por los outliers. Por lo tanto, se
eliminan los valores altos y bajos, y se calcula el rango intercuartílico de los valores restantes.
▪ Covarianza Muestral: muestra el grado de relación entre dos variables que pueden dar positivo o negativo.
Al momento de hacer un análisis, ocurre que la muestra siempre es lo más conveniente, dado que:
• La población ya de por sí es demasiado grande (tiene a infinito), por lo que es imposible de analizar en su
totalidad.
• Las características de la población pueden variar si nos demoramos en el estudio.
• Al estudiar una parte de la Población, tanto los costos como el tiempo en el estudio de la muestra, van a ser
menores.
Por lo tanto, podemos concluir que las muestras presentan las siguientes ventajas:
• Nos ayudan con el tiempo en la colección y el análisis de los datos, permitiendo tomar decisiones
rápidamente.
• Con la muestra podemos realizar estudios, que serían imposibles de llevar a cabo sobre la población total.
En la Inferencia Estadística, el muestreo debe ser Aleatorio. Para ello, se utiliza el Muestreo Aleatorio Simple (MAS)
donde cada valor o individuo del marco muestral, tiene la misma oportunidad para ser elegido.
La selección de dicha muestra puede ser con reposición o sin reposición.
Distribuciones Muestrales: es una distribución de todos los posibles valores de un estadístico, para un tamaño
muestral dado, seleccionado aleatoria e independientemente de una población.
Destacamos que: diferentes muestras del mismo tamaño de la población arrojaran diferentes medias muestrales.
Una medida de la variabilidad de la media está dada por el Error Estándar de la Media, que nos expresa cuanto varia
la media muestral entre una media y la otra.
El error estándar de la media decrece cuando el tamaño de la muestra se incrementa. Por lo tanto, a
medida que n es más grande, el error muestral decrece.
Si la población que se está analizando no es normal, se puede aplicar el Teorema Central del Límite, que, aunque la
población no sea normal, si la muestra es suficientemente grande (n) la distribución de la media muestral (gráfico) va
a tender a ser normal su distribución.
“n” se considera grande cuando su valor supera los 30 (n>30), de esta manera nos proporcionará una distribución
aproximadamente normal. Ahora bien, si lo que buscamos son distribuciones simétricas, n >15.
Proporciones Poblacionales:
• Proporción Poblacional (π): es la proporción de la población que tiene una característica. (ejemplo: Hombre,
Mujer).
• Proporción Muestral (p): provee una estimación de π:
La proporción muestral (p) tiende a una distribución binomial, suponiendo un muestreo sin reemplazo para una
población infinita, de lo contrario suponiendo un muestreo con reemplazo para una población finita donde debemos
aplicar el Factor de Corrección por Finitud.
Clase 6 17/02/2020
Inferencia Estadística
Un estimador debe cumplir con dos características fundamentales para que pueda considerarse óptimo: la varianza
del estimador debe ser la menor posible y la distribución del muestreo debe estar lo más concentrada posible
alrededor del parámetro.
2. Estimador Consistente: ocurre cuando la diferencia entre el valor esperado del estimador y el parámetro,
disminuye a medida que aumenta el tamaño de la muestra.
3. Estimador Eficiente: es el estimador insesgado de menor varianza, también llamado estimador insesgado de
varianza mínima. Por lo tanto, si tengo 2 estimadores, voy a utilizar el de menor varianza.
Para el intervalo de confianza, se trabaja con un nivel de confianza del 95% (confianza de que el intervalo contenga
el verdadero valor del parámetro poblacional desconocido). También se describe como (1- α) = 0.95