Está en la página 1de 17

ESTADÍSTICA MULTIVARIADA

(ANÁLISIS DE UNA VARIABLE)

Profesor: Pablo Méndez Villalobos

Facultad de Ciencias, UAEMéx.

Biotecnología, 2019-A

Profesor: Pablo Méndez Villalobos ESTADÍSTICA MULTIVARIADA (ANÁLISIS DE UNA VARIABLE)


Análisis de una variable

Gráficos
El gráfico de dispersión muestra cada valor de los datos.

La mayoría de las estadísticas caen en una de tres categorías:


1 Medidas de tendencia central: estadísticas que caracterizan el cen-
tro de los datos.
2 Medidas de dispersión: estadísticas que miden la dispersión de los
datos.
3 Medidas de forma: estadísticas que miden la forma de los datos con
respecto a una distribución normal.

Profesor: Pablo Méndez Villalobos ESTADÍSTICA MULTIVARIADA (ANÁLISIS DE UNA VARIABLE)


Medidas de tendencia central

Promedio o media artimética


Es el centro de masa de los datos, dado por:
Pn
xi
x̄ = i=1
n

Mediana
Es el valor de en medio cuando los datos se ordenan de menor a mayor.

Moda
Es el valor del dato que se presenta con mayor frecuencia (si lo hubiera).

Media Geométrica
Estima el centro de los datos. Se usa frecuentemente para datos que tienen
un sesgo positivo, ya que estará más cerca del pico de la distribución que
la media aritmética.

Profesor: Pablo Méndez Villalobos ESTADÍSTICA MULTIVARIADA (ANÁLISIS DE UNA VARIABLE)


Medidas de tendencia central

Media Recortada en 100α %


Es la media de la muestra después de remover una fracción α de los valores
de los datos más pequeños y la misma fracción de los mayores.

Media Winsorizada
Es una medida robusta que se obtiene calculando la media muestral después
de haber reemplazado con copias los valores de los datos que se eliminaron
en una media recortada.
Obs.: La media recortada y la media Winsorizada son menos afectadas por
valores extremos que la media aritmética.

Profesor: Pablo Méndez Villalobos ESTADÍSTICA MULTIVARIADA (ANÁLISIS DE UNA VARIABLE)


Medidas de dispersión

Varianza
Es una medida de la desviación cuadrada promedio alrededor de la media
muestral.

Desviación Estándar
Es la raíz cuadrada de la varianza muestral.

Coeficiente de Variación o desviación estándar relativa


Este mide la magnitud de la desviación estándar como un porcentaje de
la media muestral de acuerdo con
s
CV = 100 %

.

Profesor: Pablo Méndez Villalobos ESTADÍSTICA MULTIVARIADA (ANÁLISIS DE UNA VARIABLE)


Medidas de dispersión

Sigma Winsorizada en 100α %


Es una estimación Winsorizada de variabilidad alrededor de la media Win-
sorizada.

DAM
Es la desviación absoluta mediana.

Percentiles
Cuartil inferior: el 25 percentil.
Cuartil Superior: el 75 percentil.
Rango Intercuartílico: RIC=cuartil superior - cuartil inferior.

Profesor: Pablo Méndez Villalobos ESTADÍSTICA MULTIVARIADA (ANÁLISIS DE UNA VARIABLE)


Medidas de forma

Sesgo
Es una medida de asimetría.
Un valor cercano a 0 correspondería a una muestra de datos casi simétri-
ca. Un sesgo positivo indica una cola superior más larga que la inferior,
mientras que un sesgo negativo indica una cola inferior más larga.

Sesgo Estandarizado
Convierte la estadística de sesgo calculada anteriormente a un valor que
tiene aproximadamente una distribución normal estándar en muestras gran-
des.
Al nivel de significancia del 5 %, se podría declarar un sesgo significativo
si su valor cae fuera del intervalo (-2, +2).

Profesor: Pablo Méndez Villalobos ESTADÍSTICA MULTIVARIADA (ANÁLISIS DE UNA VARIABLE)


Medidas de forma

Curtosis
Es una medida de lo relativamente picudo o plano comparado con una
curva con forma de campana.
Un valor cercano a 0 corresponde a una distribución normal con forma
casi de campana. Una curtosis positiva indica una distribución que es más
picuda en el centro y tiene colas más largas que la normal. Una curtosis
negativa indica una distribución que es más aplanada que la normal con
colas más cortas.

Profesor: Pablo Méndez Villalobos ESTADÍSTICA MULTIVARIADA (ANÁLISIS DE UNA VARIABLE)


Gráfico de Caja y Bigotes

Construcción
Se dibuja una caja que se extienda desde el cuartil inferior de la mues-
tra hasta el cuartil superior. Este es el intervalo cubierto por el 50 %
central de los valores de los datos cuando se ordenan de menor a
mayor.
Se dibuja una línea vertical en la mediana (el valor de en medio).
Si se solicita, un signo de más se coloca en el lugar de la media
muestral.
Los bigotes se dibujan desde los extremos de la caja hasta los valores
mínimo y máximo de los datos, a menos que haya valores inusualmente
muy alejados de la caja (puntos extremos).

Cualquier punto a más de 3 veces el rango intercuartílico por arriba o


por debajo de la caja se les llama punto extremo lejano. Es importante
analizar si estos puntos llegan a ser datos atípicos.

Profesor: Pablo Méndez Villalobos ESTADÍSTICA MULTIVARIADA (ANÁLISIS DE UNA VARIABLE)


Gráfico de Probabilidad Normal

Muestra los datos de menor a mayor. Lo hace de manera que es posible


juzgar si los datos provienen o no de una distribución normal.
Si los datos provienen de una distribución normal, los puntos deberán caer
aproximadamente a lo largo de una línea recta.

Hay dos métodos para ajustar la línea


1. Usando la mediana y los cuartiles muestrales.
2. Ajustando una regresión por mínimos cuadrados de los cuantiles norma-
les de los valores de los datos ordenados.
El primer método es más robusto a desviaciones de la normalidad en las
colas de la distribución, ya que esencialmente se apoya solo en la mitad
central.
Valores aberrantes o colas largas tendrán una mayor influencia al usar el
método de mínimos cuadrados.

Profesor: Pablo Méndez Villalobos ESTADÍSTICA MULTIVARIADA (ANÁLISIS DE UNA VARIABLE)


Intervalos de confianza y prueba de hipótesis

Intervalos de confianza
Un intervalo de confianza indica un rango en el que puede estar el valor
de un parámetro poblacional con cierto nivel de seguridad o confianza.

Profesor: Pablo Méndez Villalobos ESTADÍSTICA MULTIVARIADA (ANÁLISIS DE UNA VARIABLE)


Intervalos de confianza y prueba de hipótesis

Intervalos de confianza
Un intervalo de confianza indica un rango en el que puede estar el valor
de un parámetro poblacional con cierto nivel de seguridad o confianza.
Una correcta interpretación es como sigue: si se obtuvieran 100 muestras
independientes de la misma población y para cada muestra se calculará el
intervalo de confianza para el mismo parámetro, entonces se espera que
95 de los 100 intervalos contengan el verdadero valor de dicho parámetro.

Profesor: Pablo Méndez Villalobos ESTADÍSTICA MULTIVARIADA (ANÁLISIS DE UNA VARIABLE)


Intervalos de confianza y prueba de hipótesis

Intervalos de confianza
Un intervalo de confianza indica un rango en el que puede estar el valor
de un parámetro poblacional con cierto nivel de seguridad o confianza.
Una correcta interpretación es como sigue: si se obtuvieran 100 muestras
independientes de la misma población y para cada muestra se calculará el
intervalo de confianza para el mismo parámetro, entonces se espera que
95 de los 100 intervalos contengan el verdadero valor de dicho parámetro.

Se considera por lo general tres tipos de intervalos de confianza:


Para la media.
Para la varianza o desviación estándar.
Para la proporción.

Profesor: Pablo Méndez Villalobos ESTADÍSTICA MULTIVARIADA (ANÁLISIS DE UNA VARIABLE)


Intervalos de confianza y prueba de hipótesis

Prueba de hipótesis
Una hipótesis de investigación es una proposición realizada por el inves-
tigador cuando éste especula acerca del resultado final de una investigación
o experimento.
Se usan para determinar si la muestra proviene de una distribución con una
media o desviación estándar particulares.

La manera de plantear una hipótesis estadística es:

H0 : µ = 0.05 (Hipótesis nula)

H1 : µ > 0.05 (Hipótesis alternativa)


La hipótesis nula es verdadera mientras no se demuestre lo contrario.

Profesor: Pablo Méndez Villalobos ESTADÍSTICA MULTIVARIADA (ANÁLISIS DE UNA VARIABLE)


Intervalos de confianza y prueba de hipótesis

Ejemplo
En un proceso de inyección de plástico, una característica de calidad del
producto es su grosor. Para evaluar esta característica de calidad, durante
una semana se hace un muestreo en una línea de calidad, y se obtienen 20
muestras de tamaño 7. De la muestra total se obtiene la media muestral,
X̄ =1.37 mm y la varianza S 2 =0.094.
a) ¿Cuál es la estimación puntual del grosor?
b) Encontrar un intervalo de confianza del 90 % para la media verdadera
del grosor.
c) Encontrar un intervalo de confianza del 98 % para la desviación verda-
dera del grosor.
d) Antes del estudio se suponía que µ =1.30. Dada la evidencia de los
datos, ¿tal supuesto es correcto?

Profesor: Pablo Méndez Villalobos ESTADÍSTICA MULTIVARIADA (ANÁLISIS DE UNA VARIABLE)


Intervalos de confianza y prueba de hipótesis

Ejemplo
Se quiere estimar la proporción p de artículos defectuosos en un lote de
3,000. Para ello, se toma una muestra aleatoria de 250 artículos y se en-
cuentra que de éstos, 35 son defectuosos.
a) Encontrar un estimador puntual de p.
b) Encontrar una estimación por intervalo de p con 99 % de confianza.

Profesor: Pablo Méndez Villalobos ESTADÍSTICA MULTIVARIADA (ANÁLISIS DE UNA VARIABLE)


Intervalos de confianza y prueba de hipótesis

Ejemplo
Un fabricante de dulces compra costales de azúcar. Según los vendedores,
los costales tienen un peso medio de 50.1 kg, con una varianza de σ 2 =0.5.
El comprador sospecha que el peso medio es menor, para ello se selecciona
de manera aleatoria tres bultos de cada uno de los siguientes 5 pedidos;
pesa los 15 bultos y obtiene que X = 49.4 kg. y S 2 = 1.2. A nivel de
significancia de 10 %, ¿podemos confirmar la sospecha del comprador?

Profesor: Pablo Méndez Villalobos ESTADÍSTICA MULTIVARIADA (ANÁLISIS DE UNA VARIABLE)

También podría gustarte