Está en la página 1de 14

Clase 1 03/02/2020

Concepto de Estadística: es la rama de la matemática que transforma los DATOS en información útil para la toma de
decisiones. Debemos tener en cuenta que el Dato por sí solo no sirve, no nos dice nada. Por lo tanto, es necesario
juntar todos los datos que obtenemos, organizarlos y analizarlos, de esta manera nos van a servir como información
útil.
Tenemos dos ramas de la estadística:
• Estadística descriptiva: se encarga de recolectar los datos, ordenarlos y finalmente analizarlos para sacar
estadísticas. En definitiva, reúne información en base a un conjunto de datos.
• Estadística Inferencial: a partir de una cierta cantidad de datos trata de obtener características de una
población a partir de una muestra. Es decir, que, a través de los datos de un grupo pequeño, saca
conclusiones de un grupo grande.

 Debe tenerse en cuenta que para estadística siempre el objeto de estudio es la POBLACION, mientras que la
medida de estudio es la MUESTRA.

Las medidas utilizadas para describir una población se llaman Parámetros, mientras que las medidas para
describir unas muestras se llaman Estadísticas.

Un Dato, también llamado Variable, por sí solo es un hecho aislado, no nos dice nada.

Los datos se dividen en:

• Datos Categóricos (también Cualitativos): sus valores solo pueden ser divididos por categorías. Por ejemplo:
si tengo una población puedo dividirla por género. Son como “etiquetas” al momento de clasificar.
• Datos Cuantitativos: sus valores representan cantidades. Estos a su vez se dividen en:
✓ Cuantitativo Discreto: cuando dentro de un intervalo puede tomar solo algunos valores. Por
ejemplo, la cantidad de hijos que hay por familia en una población. Es decir, no se puede
tener 3 hijos y medio.
✓ Cuantitativo Continuos: cuando dentro de un intervalo puede tomar cualquier valor. Por
ejemplo, la edad de las personas. La Cantidad de litros de cerveza que puede producir una
fábrica por día, por ejemplo, entre 42,5 y 51,6 litros.

Otra manera de clasificar los datos: Niveles o escalas de medidas

Esta otra medida de clasificar los datos toma a la MEDICIÓN como concepto a la hora de tomar decisiones, que nos
permiten describir, diferenciar, explicar, etc.

Ahora bien, la medición nos sirve como parámetro para asignar símbolos a objetos, atribuciones, observaciones.

Se pueden distinguir cuatro niveles (escalas) de medición:

• Medición Nominal (concepto clasificatorio): la característica de los datos consiste en nombres, etiquetas o
categorías. Son meramente cualitativos donde no importa el orden. Por ejemplo, realizar un censo en una
localidad y hacer la medición por las etiquetas de “Hombre, Mujer o Niños”. Al momento de volcarlos a un
gráfico, no nos importaría el orden. Otro ejemplo, seria las respuestas de una en cuesta donde tenemos “SI,
NO o NS/NC”
• Medición Ordinal (concepto comparativo): los datos que se obtienen de la medición se encuentran
ordenados. Sin embargo, las diferencias entre dichos valores de los datos no deben estar determinados
mediante manipulaciones de algún tipo. Por ejemplo, puede ocurrir que quiera hacer una medición en mi
empresa clasificando a los empleados según el nivel de estudios alcanzado. Al momento de volcarlo a un
gráfico, lo ideal es que lo acomode por “Primario, Secundario y Universitario” donde el orden SI importa.
• Medición por Intervalos (concepto métrico): al igual que el ordinal, donde las mediciones de los datos están
ordenadas, se le adiciona que entre número y numero la escala tiene que ser la misma, y tiene un significado
particular. Por ejemplo, si quiero medir en un gráfico la temperatura de una ciudad, pongo en una escala de
10cm una temperatura de 10°, 20°, 30°... no puedo saltar de 30° a 1000°. No tendría sentido la escala que
uso y presta a la confusión a la hora de tomar decisiones.
• Medición Proporcional o de Razón (concepto métrico): al igual que la medición de intervalo, se le suma el
punto inicial cero (que indica que no hay cantidad presente). Por ejemplo, si quiero medir una producción y
utilizo el Cero como punto de partida, me indicaría que no tengo costo de fabricación.

Resumen:

✓ Medición Nominal: solo clases o categorías


✓ Medición Ordinal: Categorías con algún orden
✓ Medición Intervalo: diferencias, pero sin un punto inicial
✓ Medición de Razón: Diferencias con un punto de inicio natural

Exactitud y Precisión:

Decimos que tenemos error de muestreo cuando la característica de la población es diferente de la característica
muestral. Por lo tanto, el muestreo aleatorio permite la medición del error de muestreo.

Por otro lado, tenemos el error no muestral o sistemático, relacionado con mediciones defectuosas del sistema,
malos instrumentos, etc.

Ahora bien, decimos que cuando el Error No Muestral o sistemático es igual a cero, la información es exacta.
Mientras que, cuando el Error Muestral tiende a cero, la información es Precisa.

Tipos de Muestreo:

• Probabilístico: se da cuando todos los elementos de una población tienen una probabilidad conocida y no
nula de pertenecer a la muestra. A partir del muestreo probabilístico se permite calcular el error muestral.
• No Probabilístico: caso contrario al probabilístico.

En el Muestreo Aleatorio Simple (MAS) se enumeran los elementos de la población y se eligen “n” elementos que
compondrán la muestra. Donde N= Tamaño de la Población y n= Tamaño de la Muestra.

Cada elemento de la población tiene una probabilidad igual a n/N de pertenecer al a muestra. Y el Numero de
muestras, dependera que se reponga o no al elemento extraído.

Por lo tanto, tendremos:

• Muestreo con reposición= Nn


• Muestreo Sin reposición:
a. Las muestras difieren en los individuos que las constituyen únicamente.

N Cn=N!/n!(N-n)!

b. Las muestras difieren en los individuos o en el orden de presentación.

N Vn=N!/(N-n)!
Clase 2 05/02/2020

Probabilidad

Concepto: se toma a la probabilidad como la posibilidad de que un Evento (cada resultado posible de una variable)
indeterminado pueda ocurrir.
Son valores que dan un resultado entre 0 y 1. Donde:
Probabilidad= 0 --> imposibilidad de que el evento ocurra.
Probabilidad= 1 --> Certeza de que el evento ocurra.

Tenemos distintos conceptos de Probabilidad, que son:


• Probabilidad Básica:

• Probabilidad Empírica: es de observación

• Probabilidad Subjetiva: se trata de un Juicio u opinión individual acerca de la posibilidad de ocurrencia, que
también puede tomarse desde la experiencia diaria. Ejemplo: mañana hay probabilidades de que suba el
dólar.

La Probabilidad se mide a través de un espacio muestral, que son todos los eventos posibles que pueden mostrar
esos valores. Por ejemplo: las 6 caras de un dado, las 52 cartas del mazo de póker.

Tenemos diferentes tipos de eventos:


✓ Evento Simple: es un resultado de un espacio muestral teniendo en cuenta solo una característica. Por
ejemplo: una carta roja de un mazo de cartas.
✓ Complemento de un Evento A (conocido como A’): son todos los resultados que no son parte del Evento A.
Por ejemplo: todas las posibilidades de que no salgan reyes de un mazo de cartas. 36/40
✓ Evento Conjunto: involucra dos o más características simultáneamente. Por ejemplo: que salga un AS y que
sea rojo en un mazo de cartas.
✓ Eventos mutuamente excluyentes: se trata de eventos que no puede ocurrir conjuntamente. Por ejemplo:
retiro una carta de un mazo. Las cartas pueden ser A= impares o B= pares. Evento A y B, son mutuamente
excluyentes.
Hay una aclaración: si A y B son mutuamente excluyentes, la intersección de ambos es vacía.
✓ Eventos Colectivamente Exhaustivos: el Conjunto de eventos cubre por entero el espacio muestral. Por
ejemplo, en las cartas de póker, puede ocurrir que:
Eventos A= AS, B= Cartas negras, C= Diamantes y D= Corazones.
Los eventos A, B, C, y D son colectivamente exhaustivos (pero no mutuamente excluyentes, por ejemplo: un
AS puede ser de corazones).
Y los eventos B, C y D son colectivamente exhaustivos y también mutuamente excluyentes.

 Ahora bien, la Suma de las probabilidades de todos los eventos mutuamente excluyentes y conjuntamente
exhaustivos es igual a 1.
Tenemos 3 Teoremas Importantes:

1. Regla General de la Suma:

Ejemplo: P(rey o basto)= P(rey) + P(basto) - P(rey y Basto)


= 4/40 + 10/40 - 1/40 = 13/40

Si A y B son mutuamente excluyentes: P(A y B)=0 se simplifica la regla


Ejemplo: P(rey o as)= P(rey) + P(as) - P(rey y as)
= 4/40 + 4/40 - 0 = 8/40

2. Probabilidad Condicional: es la probabilidad de que ocurra un evento, sabiendo que ocurrió el otro.

--> La probabilidad de que ocurra A, sabiendo que ocurrio B.

3. Probabilidades Conjuntas (Ley del Producto): es la probabilidad conjunta de los eventos A y B.

Ejemplos:
✓ P(2 rey): P(rey y rey)= P(rey) x P(rey/rey)
= 4/40 x 3/39

✓ P(1 rey + 1 Caballo)= P(rey) x P(Caballo/rey) ó P(caballo) x P(Rey/caballo)


= 4/40 x 4/39 + 4/40 x 4/39

Independencia Estadística: se da cuando dos eventos son independientes si y solo sí:

ó = Eventos A y B son independientes cuando la probabilidad de un evento no se


afecta por la ocurrencia del otro evento.

Un ejemplo de la independencia estadística ocurre cuando se juega a la Ruleta, dado que cada evento es
independiente del otro.

Teorema de Bayes: también conocido como el teorema de las causas, tiene que ver con la probabilidad condicional.
Indica cual es la probabilidad de que la ocurrencia de un evento determinado sea causada por la ocurrencia de otro.
Generalmente se utiliza para revisar probabilidades previamente calculadas cuando se tiene información nueva.

Bi= evento (de k eventos posibles, mutuamente excluyentes y colectivamente exhaustivos)


A= evento que ha ocurrido e incide sobre P(Bi).
Clase 3 06/02/2020
Análisis Exploratorio de Datos

▪ Tendencia Central
1. Media Aritmética: es la más usada, la más famosa. Conocida también como el promedio simple. Se define
como la suma de todos los valores, dividida por el número de valores. Tiene un solo defecto que es que está
influenciada por los valores extremos (outliers). Es mejor estimador poblacional que la mediana.
Un ejemplo: quiero calcular mi promedio de la facultad. Tengo 4 materias aprobadas con 7, 8, 9, 7. Tengo que sumas
(7+8+9+7) dividido por 4 (cantidad de materias) = 7.75

2. Mediana: es el número del “valor medio”. Es decir, separa el 50% de los valores más chicos, del 50% de los
valores más grandes. No está afectada por los valores extremos como la media aritmética. El problema de
este análisis es que los valores deben estar ordenados para poder calcularlos. Por ejemplo: si tenemos el
siguiente listado de números: 11-12-13-14-15-16-17, la mediana es el numero 14.

3. Modo: es el valor que más veces se repite, el de mayor frecuencia absoluta. Tiene la ventana de no estar
influenciado por los Outliers. La desventaja es que puede ocurrir que no haya modo, o que haya más de uno.
Este puede ser bimodal, trimodal. Por ejemplo: si tenemos la siguiente serie de números: 2-3-4-4-5-5-5-6-7-
8-8-9-9. El modo es el Número 5, dado que es el número que más se repite.

4. Media Geométrica: es la menos utilizada. Se utiliza cuando una variable viene de un producto, cuando la
variable viene de una suma se utiliza la Media Aritmética. Nos permite medir la tasa de cambio de la variable
sobre el tiempo. Se calcula de la siguiente manera: Xg= (X1*X2*X3)1/n

5. Media Armónica: se define como el recíproco de la media aritmética de los valores recíprocos de la variable.
Se utiliza cuando las variables son inversamente proporcionales. Mientras que una variable crece, la otra
disminuye. Por ejemplo: la productividad.
Por lo tanto, se aplica cuando se presenta una relación inversa entre las variables implícitas.

▪ Cuartiles o Quartiles: son valores fuera de escala y extremos. El cuartil, divide los datos ordenados en 4
segmentos con un igual número de términos por segmento.
Puede ocurrir que también nos encontremos con los Quintiles (que dividen los valores en 5 partes iguales), los
Deciles (dividen en 10 partes iguales), los Percentiles (dividen en 100). La mediana es un ejemplo de esto, y se
considera un Fractil, dado que divide los valores en 2 partes iguales.

▪ Medidas de Variación: dan información sobre el Spread o variabilidad de los valores de los datos

1. Rango: es la medida de variación más simple. La misma define la diferencia que hay entre el mayor valor y el
menor valor del conjunto de datos. Ejemplo: si tengo alumnos con 22 años y otros de 30 años, hay una
diferencia de 8 años de edad entre ellos.
La desventaja es que está muy influenciado por los outliers. Un valor muy chico, o un valor muy grande me cambia el
rango.
Otra desventaja, es que no tiene en cuenta el camino de la distribución de los datos. Por ejemplo:

Box and Whisker Plot: nos permite tener una visualización de los datos utilizando el resumen de los 5 números.

2. Rango Intercuartil: nos permite eliminar los problemas ocasionados por los outliers. Por lo tanto, se
eliminan los valores altos y bajos, y se calcula el rango intercuartílico de los valores restantes.

Nos permite medir donde está el 50% de los datos centrales.


3. Varianza: es el promedio (aproximado) de las desviaciones cuadráticas de los valores alrededor de la media.

4. Desviación estándar: es la raíz cuadrada de la Varianza.

▪ Coeficiente de Variación: muestra la variación relativa a la media, expresada en Porcentaje.


− CV<10%= homogénea
− 10%<CV<30%= poco homogénea
− CV>30% = no homogénea

▪ Forma de Distribución: nos permite visualizar como se distribuyen los datos.

Medidas de forma: Simétrica o Asimétrica


Forma de la Distribución: Curtosis o Kurtosis. Se encarga de describir la concentración relativa de los valores en el
centro en comparación con las colas, tomando como base a la distribución normal, con un valor de 3.

▪ Covarianza Muestral: muestra el grado de relación entre dos variables que pueden dar positivo o negativo.

(Excel) Clase 4 12/02/2020


Clase 5 13/02/2020
Muestreo y distribuciones muestrales

Al momento de hacer un análisis, ocurre que la muestra siempre es lo más conveniente, dado que:
• La población ya de por sí es demasiado grande (tiene a infinito), por lo que es imposible de analizar en su
totalidad.
• Las características de la población pueden variar si nos demoramos en el estudio.
• Al estudiar una parte de la Población, tanto los costos como el tiempo en el estudio de la muestra, van a ser
menores.
Por lo tanto, podemos concluir que las muestras presentan las siguientes ventajas:
• Nos ayudan con el tiempo en la colección y el análisis de los datos, permitiendo tomar decisiones
rápidamente.
• Con la muestra podemos realizar estudios, que serían imposibles de llevar a cabo sobre la población total.
En la Inferencia Estadística, el muestreo debe ser Aleatorio. Para ello, se utiliza el Muestreo Aleatorio Simple (MAS)
donde cada valor o individuo del marco muestral, tiene la misma oportunidad para ser elegido.
La selección de dicha muestra puede ser con reposición o sin reposición.

Distribuciones Muestrales: es una distribución de todos los posibles valores de un estadístico, para un tamaño
muestral dado, seleccionado aleatoria e independientemente de una población.

Distribución Muestral de la Media:


Ejemplo de una población de tamaño 4, con variable aleatoria X que es la edad de 18, 20, 22 y 24 años.

Destacamos que: diferentes muestras del mismo tamaño de la población arrojaran diferentes medias muestrales.
Una medida de la variabilidad de la media está dada por el Error Estándar de la Media, que nos expresa cuanto varia
la media muestral entre una media y la otra.

El error estándar de la media decrece cuando el tamaño de la muestra se incrementa. Por lo tanto, a
medida que n es más grande, el error muestral decrece.
Si la población que se está analizando no es normal, se puede aplicar el Teorema Central del Límite, que, aunque la
población no sea normal, si la muestra es suficientemente grande (n) la distribución de la media muestral (gráfico) va
a tender a ser normal su distribución.

“n” se considera grande cuando su valor supera los 30 (n>30), de esta manera nos proporcionará una distribución
aproximadamente normal. Ahora bien, si lo que buscamos son distribuciones simétricas, n >15.

Proporciones Poblacionales:

• Proporción Poblacional (π): es la proporción de la población que tiene una característica. (ejemplo: Hombre,
Mujer).
• Proporción Muestral (p): provee una estimación de π:
La proporción muestral (p) tiende a una distribución binomial, suponiendo un muestreo sin reemplazo para una
población infinita, de lo contrario suponiendo un muestreo con reemplazo para una población finita donde debemos
aplicar el Factor de Corrección por Finitud.

Clase 6 17/02/2020
Inferencia Estadística

 Estimación puntual: tomo una muestra y calculo el estimador de esa muestra.

Un estimador debe cumplir con dos características fundamentales para que pueda considerarse óptimo: la varianza
del estimador debe ser la menor posible y la distribución del muestreo debe estar lo más concentrada posible
alrededor del parámetro.

Propiedades de los Estimadores:


1. Estimador Insesgado: significa que no tiene sesgo y es aquel cuya esperanza es igual al parámetro
poblacional

2. Estimador Consistente: ocurre cuando la diferencia entre el valor esperado del estimador y el parámetro,
disminuye a medida que aumenta el tamaño de la muestra.
3. Estimador Eficiente: es el estimador insesgado de menor varianza, también llamado estimador insesgado de
varianza mínima. Por lo tanto, si tengo 2 estimadores, voy a utilizar el de menor varianza.

 Estimación Puntual y de Intervalos: (provee información adicional acerca de la variabilidad) describe un


intervalo de valores dentro del cual es posible que esté el parámetro de la población.

Debemos saber que un intervalo proporciona un rango de valores:


• Toma en cuenta la variación del estadístico de muestra a muestra
• Basado en observaciones de 1 muestra
• Proporciona información acerca de los parámetros poblacionales
• Se establece en términos de nivel de confianza o seguridad
• Nunca es 100% seguro

Para el intervalo de confianza, se trabaja con un nivel de confianza del 95% (confianza de que el intervalo contenga
el verdadero valor del parámetro poblacional desconocido). También se describe como (1- α) = 0.95

La siguiente formula se utiliza para σ Conocida

La siguiente formula se utiliza para σ Desconocida


Cuando la desviación estándar poblacional es desconocida se sustituye la desviación estándar por la S. Por lo tanto,
se utiliza la distribución T de Student en lugar de la normal.
Intervalo de confianza para la Proporción Poblacional, π:
Un intervalo que estima la proporción poblacional (π) puede ser calculado con un nivel de confianza utilizando la
proporción muestral (p).

 Pruebas de Hipótesis: son supuestos acerca de un parámetro poblacional


Siempre se empieza con el supuesto de que la Hipótesis nula es Verdadera. Es la hipótesis que siempre es testeada.

También podría gustarte