Está en la página 1de 10

Estadísticas

¿Qué es la estadística?
Estudia la recolección de datos, los analiza e interpreta
Población: un conjunto completo sobre una característica particular (puntajes,
personas, medidas)
Muestra: subconjunto de individuos en base a la población.
MEDIDAS:
POBLACION MUESTRA
MEDIDA parámetro estadístico
PROMEDIO

VARIANZA
DESVIACION

PROPORCION

➢ Se puede sacar un promedio de la población, pero a través de la muestra y


se deja como un todo. Ya que la muestra tiene cifras más controladas que
de la población.

MUESTREO
• los datos deben ser seleccionados aleatoriamente, si no son seleccionados
de manera apropiada serán inútiles.

ESTADISTICO
Una medida numérica que describe alguna característica de una muestra.
• E. descriptiva: se recolectan los datos (encuestas), se resumen y se
presentan (gráficos).

• E. indiferencial: se llega a una conclusión sobre una población a partir de


los datos de la muestra (estimación, prueba de hipótesis).
TIPO DE DATOS
• Datos en corte transversal: datos tomados por muchas variables en un
tiempo determinado (muchas variables-en 1 tiempo)

• Datos en series de tiempo: datos tomados por una variable en diferentes


periodos de tiempo (una variable-diferentes tiempos)

• Datos de panel: es la mezcla de ambos datos (transversal y series de


tiempo)
VARIABLES
Variable: característica que va cambiando según datos.
Cualitativa o categóricas: no se refiere a números, si no que a características
(números)
Cuantitativas o numéricas: se miden a través de números (letras).
➢ Discreta: son números enteros
➢ Continua: esta dentro de un rango (peso, estatura).
RECOLECCION DE DATOS
Fuentes primarias: observaciones, encuestas, experimentación (de forma
directa).

Fuentes secundarias: impresos o electrónicos (documentos de tiempos


anteriores)

Se obtienen datos de 2 fuentes:

➢ Estudio observacional: vemos y medimos características específicas.


➢ Experimento: se aplica un tratamiento y luego se ven los efectos o
resultados.

TIPOS DE ESTUDIOS
Estudio transversal: los datos son tomados en el mismo momento.

Estudio retrospectivo o de control de caso: los datos son tomados del


pasado

Estudio prospectivo o longitudinal o cohorte: los datos son tomados del


futuro
MUESTREO
Muestreo aleatorio: cada miembro de la población tiene la misma probabilidad de
ser seleccionado.
Muestreo aleatorio simple: se elige una muestra de N sujetos, tal que cada
muestra de la misma cantidad n, tenga la misma posibilidad de ser elegida.
Muestreo sistemático: se selecciona un punto de partido y se sigue una
secuencia (cada n elemento de la población).
Muestreo conveniencia: se ocupan resultados que son fáciles de obtener.
Muestreo estratificado: se subdivide la población en al menos 2 subgrupos que
tienen que compartir las mismas características (ej. edad o estatura) y se obtiene
una muestra de cada subgrupo.
Muestreo conglomerado: se divide el área de la población en secciones, luego
se eligen al azar algunas de estas secciones y se juntan a todos los
seleccionados, y ese sería el resultado de la muestra.

ERRORES DE MUESTREO
• Error de muestreo es la diferencia entre el resultado de una muestra y el
verdadero resultado de la población; este error es consecuencia de las
fluctuaciones por el azar.
• Error que NO es de muestreo sucede cuando los datos muestrales se
obtienen, registran o analizan de forma incorrecta (como cuando se
selecciona una muestra sesgada, cuando se usa un instrumento de medición
defectuoso o cuando se copian los datos de forma incorrecta).

CARACTERIZACION DE LOS DATOS

Centro: valor promedio que indica la localización de la mitad del conjunto de los
datos (media, moda, mediana).
Variación: medida de la cantidad en que los valores de los datos varían entre si
(diferencia entre datos, resta).
Distribución: forma de la distribución de los datos (forma campana, uniforme o
sesgada).
Valores extremos: Valores muestrales que están muy alejados de la vasta
mayoría de los demás valores de la muestra.
Tiempo: Características cambiantes de los datos a través del tiempo.
MEDIDAS CENTRO
Media aritmética (muestra): conocida como promedio
• Suma de valores dividida por el número de valores
• Es afectada por valores extremos
• No siempre es conveniente sacar promedio con números tan altos.
Media poblacional (población): *********************
Mediana: Punto que divide a la población o muestra en dos partes iguales.
• Es el numero de en medio (de menor a mayor)
• No le afectan los valores extremos
Moda: es el valor que ocurre con más frecuencia
• No es afectada por números extremos.
• Usada para datos numéricos como categóricos.
• Puede que no haya moda o que vayan varias.

SU USO
• La media aritmética es generalmente usada, a menos que existan valores
extremos.
• La mediana es a menudo usada cuando hay valores extremos.
• La moda es usada cuando los datos son cualitativos, o cuantitativos.

CUARTILES
• Se divide en 4 partes iguales, al dividir la muestra o población
(25,50,75,100) %
• La mediana coincide con el cuartil dos
• FORMULA EXCEL =CUARTILINC ($_$_; número cuartil)

PERCENTILES
• Se divide en 100 partes
• FORMULA EXCEL =PERCENTILINC (__; porcentaje cuartil)
MEDIDAS DE DISPERSION
Preferible que sean números pequeños
Campana de gauss: representa la cantidad de datos, tiene el mismo centro, pero
diferente variación
Rango
• Diferencia entre lo máximo y mínimo de un conjunto de datos
• Ignora la forma en que los datos están distribuidos
• Sensible a valores extremos

Rango intercuartílico
FORMULA EXCEL RIC= Q3 – Q1
• Se calcula como la Diferencia entre cuartil 3 y 1
• Los problemas de valores extremos se pueden eliminar con el ric
• Elimina algunos valores altos y bajos
• Calcula el rango de los valores remanentes
• Si hay un dato de valor extremo que sale solo 1 vez, se puede eliminar, de
lo contrario no ya que sería un patrón.

Varianza muestral
• Promedio aprox. del cuadrado de las desviaciones de los valores con
respecto a su media (aritmética)

FORMULA EXCEL
Varianza muestral: =VAR.S(celdas)
Varianza poblacional: =VAR.P(celdas)

La varianza poblacional se calcula sobre N elementos (el todo)

La varianza muestral se calcula sobre n elementos (una parte del todo)

Entonces es más precisa la poblacional que la muestral, de hecho, la muestral


es una estimación de la poblacional. ¿Cuál es el problema? que la N puede ser
demasiado grande para utilizarse o bien simplemente se desconoce.
Desviación estándar
• Muestra la variación alrededor de la media
• Es la raíz cuadrada de la varianza

FORMULA EXCEL
Desviación poblacional =DESVEST.P(celdas)
Desviación muestral =DESVEST.M(celdas)

Si tengo la varianza y quiero sacar desviación ******


Si tengo desviación y quiero sacar la varianza: ocupo potencia elevando al
cuadrado =POTENCIA (celda) 2

Campana de gauss

Pequeña desviación estándar

Gran desviación estándar

Coeficiente de variación
• Mide la variación relativa y muestra a la media
• Es preferible medirlo en porcentaje
• Puede ser utilizada para comparar 2 o mas datos medidos en unidades
diferentes
Interpretación del coeficiente de variación
• Si C.V es MENOR a 10%: los datos son homogéneos. La media es
representativa
• Si C.V. MAYOR a 10%: Los datos son heterogéneos. La media no es
representativa.
Para elegir entre 2 o más distribuciones, es más conveniente la de menor
C.V. por ser más homogénea.
PRESENTACION DE DATOS
Datos categóricos: Son los Datos no numéricos y se representan por su
frecuencia a través de gráficos de barra o tablas de resumen
Tabla de resumen: Resumen los datos por categoría
Gráficos de barra y circulares: La altura de las barras o el tamaño del sector
circular muestran la frecuencia o porcentaje de cada categoría.

Forma de la distribución
PREGUNTA PRUEBA
Simetría
• La distribución de datos es simétrica, la parte izquierda del histograma es
casi espejo de la parte derecha
• Moda=media=mediana
Sesgo o asimetría
• Es sesgada si no es simétrica y se extiende mas hacia un lado que hacia el
otro
• Sesgada a la izquierda o derecha

ASIMETRIA POSITIVA O NEGATIVA


• Asimetría Negativa (sesgo a la izquierda)
sí tiene una cola más larga hacia la izquierda. La mediana está a la
izquierda de la moda, y la media está a la izquierda de la mediana.
• Asimetría Positiva (sesgo a la derecha)
sí tiene una cola más larga hacia la derecha. La mediana está a la derecha
de la moda, y la media está a la derecha de la mediana.
DIAGRAMA DE CAJA
describe varias características:
o Centro
o Dispersión
o Naturaleza y magnitud de cualquier desviación de la simetría
o Identificación de “puntos inusuales” = observaciones que están muy
lejos del cuerpo principal de los datos.

Significado de un diagrama de caja


• Bigotes y caja si o si están
• Máximo es el q3, bigote y El mínimo es el q1
• La mediana es el q2 _ ideal que este en la mitad, si esta mas abajo es un
sesgo
• El tamaño de los bigotes
• Caja alargada, las cosas no van bien
• Caja concentrada o chiquita, está bien
• Los valores inusuales no siempre salen
FORMAS DE UN DIAGRAMA DE CAJA

DIAGRAMA DE DISPERSION
• Se utiliza para saber qué relación hay entre una variable y la otra.
• Una variable es medida por eje vertical y la otra por el eje horizontal.

LA COVARIANZA MUESTRAL
▪ Mide el GRADO de relación lineal entre dos variables, que son llamados

Covarianza entre 2 variables

✓ COV si es mayor > 0: tienden a moverse en la misma dirección (hay


relación directamente proporcional) uno sube y el otro sube

✓ COV si es menor < 0: tienden a moverse en direcciones opuestas

✓ COV si es igual = a 0: no están relacionados entre si (indirectamente


proporcional) uno sube y la otra baja

FORMULA EXCEL =COVARIANZA.M (Matriz1; matriz 2) muestra 1, muestra 2


COEFICIENTE DE CORRELACION
▪ Mide el grado de relacional lineal entre dos variables
▪ No tiene unidades de medida
Su valor varía entre -1 y 1
▪ Si se acerca mas a -1, es más fuerte la relación lineal negativa
▪ Si se acerca a 1, es más fuerte la relación lineal positiva
▪ Si se acerca al 0, se debilita la relación lineal.

También podría gustarte