Está en la página 1de 50

TALLER VIRTUAL

ESTADÍSTICA
APLICADA AL
LABORATORIO
TALLER DE
Estadística Descriptiva
Ing. Andrés Mauricio Castillo
Contenido
• Generalidades de estadística descriptiva
• Variables
• Medidas de posición
• Medidas de dispersión
• Medidas de forma
• Covarianza
• Coeficiente de correlación
Los ejemplos de este taller
• Se van a desarrollar ejemplos de este taller en lenguaje R

• Los códigos se resaltaran con color de fuente azul

• La salida de los códigos con color de fuente de color


anaranjado
Generalidades de la estadística
descriptiva
Estadística:

Disciplina de la matemática, que se encarga de estudiar una determinada


población por medio de la recolección, recopilación e interpretación de datos.

La estadística se divide en dos grupos:

Estadística Descriptiva Estadística Inferencial


Generalidades de la estadística
descriptiva
Estadística Descriptiva Estadística Inferencial

Su objetivo es organizar y describir las Sirve para modelar patrones en los datos
características sobre un conjunto y extraer inferencias acerca de la
de datos con el propósito de facilitar población bajo estudio. Su objetivo es
su aplicación, generalmente con el obtener conclusiones útiles para lograr
apoyo de gráficas, tablas o medidas hacer deducciones acerca de la
numéricas. totalidad de todas las observaciones
hechas, basándose en la información
numérica.
Generalidades de la estadística
descriptiva
Estadística Descriptiva

Su objetivo es organizar y describir las


características sobre un conjunto
de datos con el propósito de facilitar
su aplicación, generalmente con el
apoyo de gráficas, tablas o medidas
numéricas.
Los datos de este histograma, pueden ser descritos
con ayuda de la estadística descriptiva
Generalidades de la estadística
descriptiva
Distribuciones

Una distribución de probabilidad es una función que describe la relación entre el resultado de un evento
y su frecuencia de ocurrencia. Existen varias distribuciones, aquí las mas comunes:
Contenido
• Generalidades de estadística descriptiva
• Variables
• Medidas de posición
• Medidas de dispersión
• Medidas de forma
• Covarianza
• Coeficiente de correlación
Variables - cualitativa
Las variables estadísticas, se pueden clasificar en:

Cualitativa o categórica: son las variables que toman como valores


cualidades o categorías.

Ejemplos:

Estado (Prendido, Apagado)


Sexo (hombre, mujer)
Nivel de educación (Básica, Secundaria, Profesional)
Variables - cualitativa
Ejemplo cualitativa:

En una encuesta a 10 personas se les pregunto


si tienen hijos o no

Ejemplo en R:

y <- factor(c("Y", "Y", "N", "N", "Y", "N", "Y", "Y", "Y", "N"))
y
plot(y)

Los datos producto de la encuesta


Variables - cuantitativa
Las variables estadísticas, según su medición se pueden clasificar en:

Cuantitativas o numérica: variables que toman valores numéricos de los


cuales hay dos tipos:

Discretos
Número de muestras (0, 1, 2,…).

Continuos
Temperatura de la disolución (19.5 ; 22.2 ; 21.4 ;…). Continua.
Variables - cuantitativa
Ejemplo cuantitativa:

100 datos ejemplo en R

datos=unlist(datos)
desvest=sd(datos)
promedio=mean(datos)
promedio
hist(datos, freq= F, breaks=9, col="lightblue",border="red")
curve(dnorm(x,promedio,desvest),add=T,col="orange" )
Medidas de posición
Para comenzar a describir este conjunto de datos existen las medidas de
posición que nos indican que tan uniforme es su distribución, entre las
principales medidas de posición se tienen:

• Media
• Mediana
• Moda
• Cuantiles
Medidas de posición
Media aritmética, promedio, o media. Es la
Media sumatoria del conjunto de valores divididos
por la cantidad n de valores.

Para el ejemplo en R tomamos el


conjunto datos de las secciones
anteriores:

promedio=mean(datos)

[1] 5.040915
Medidas de posición
La moda estadística de un conjunto de datos, es el número que
Moda presenta una mayor frecuencia absoluta dentro de la muestra. El
dato que mas se repite.

Primero se tienen que redondear los datos porque el algoritmo para hallar la moda buscara el mas común.
Dependiendo la cantidad se debe cambiar el numero de “digits”. En el ejemplo se usaron 2 dígitos.

datosT=round(datos,digits=2)
datosT
moda=mfv(datosT)
moda
Medidas de posición
La mediana ubica el centro de una
Mediana distribución de datos. 50% quedan a la
izquierda y 50% quedan a la derecha

mediana=median(datos)
mediana
[1] 5.017061

• Mediana
• Moda
• Promedio
Medidas de posición
Los cuantiles son puntos de probabilidad tomados a
• Cuantiles
intervalos regulares en una distribución.

cuantil=quantile(datos, probs=c(0.25, 0.50, 0.75))


cuantil
Medidas de posición
• Cuantiles

También se puede usar un boxplot o diagrama


de cajas y bigotes

boxplot(datos, horizontal = TRUE)


Contenido
• Generalidades de estadística descriptiva
• Variables
• Medidas de posición
• Medidas de dispersión
• Medidas de forma
• Covarianza
• Coeficiente de correlación
Medidas de dispersión
Para describir como se expande la distribución del conjunto de datos
también existen las medidas de dispersión en las que se encuentran:

• Rango
• Varianza
• Desviación estándar
• Coeficiente de variación
Medidas de dispersión
• Rango Esta medida indica los limites del conjunto de datos:

La salida es un vector rango que


rango=range(datos) indica el menor y el mayor valor:
rango
[1] 4.579228 5.627782 [1] 4.579228 5.627782

Vrango=rango[2]-rango[1] Para hallar el rango restamos el


Vrango menor del mayor:
[1] 1.048554
[1] 1.048554
Medidas de dispersión
• Rango Esta medida indica los limites del conjunto de datos:
Medidas de dispersión
• Varianza La varianza es una medida de dispersión o variabilidad,
indican la dispersión o separación de un conjunto de datos.
En este taller se trabajara con la formula muestral:
Medidas de dispersión
• Varianza Usando el conjunto “datos” vamos a calcular la varianza en
R

Varianza=var(datos)
Varianza

[1] 0.04761985
Medidas de dispersión
• Desviación La desviación estándar esta estrechamente relacionada con
estándar la varianza. También es una medida de dispersión o
variabilidad. Es la raíz de la varianza

Varianza Desviación estándar


Medidas de dispersión
• Desviación Usando el conjunto “datos” vamos a calcular la desviación
estándar estándar en R

DesviacionS1=sqrt(Varianza)
DesviacionS1
[1] 0.2182197

DesviacionS2=sd(datos)
DesviacionS2
[1] 0.2182197
Medidas de dispersión
• Desviación Dependiendo la distribución con la desviación estándar se
estándar puede saber la cantidad de datos que se tienen en
determinado intervalo.

DesviacionS1=sqrt(Varianza)
DesviacionS1 1 DS ~68%
[1] 0.2182197

DesviacionS2=sd(datos)
DesviacionS2
[1] 0.2182197
Medidas de dispersión
• Desviación Dependiendo la distribución con la desviación estándar se
estándar puede saber la cantidad de datos que se tienen en
determinado intervalo.

DesviacionS1=sqrt(Varianza)
DesviacionS1
[1] 0.2182197

DesviacionS2=sd(datos)
2 DS ~95%
DesviacionS2
[1] 0.2182197
Medidas de dispersión
• Coeficiente Se utiliza para relacionar conjuntos de datos
de variación pertenecientes a poblaciones distintas. Si se observa
la formula, este tiene en cuenta el valor de la media y
la desviación estándar.
Medidas de dispersión
• Coeficiente Se utiliza para relacionar conjuntos de datos
de variación pertenecientes a poblaciones distintas. Si se observa
la formula, este tiene en cuenta el valor de la media y
la desviación estándar.

CoefV=DesviacionS1/abs(promedio)
CoefV

[1] 0.04326904
Contenido
• Generalidades de estadística descriptiva
• Variables
• Medidas de posición
• Medidas de dispersión
• Medidas de forma
• Covarianza
• Coeficiente de correlación
Medidas de forma
• Simetría Este grupo de estadísticos que resulta importante para el análisis
• Curtosis estadístico de datos y variables. Este grupo describe la forma
general que asume la distribución de una variable.
• Normalidad
Medidas de forma
• Simetría La simetría, indica si una distribución gira entorno a un centro, o si
posee asimetría.

Coeficiente de asimetría de Fisher


Medidas de forma
• Simetría La simetría, indica si una distribución gira entorno a un centro, o si
posee asimetría.

Coeficiente de asimetría de Fisher para la distribución


mostrada

Skewness=skew(DistrAsimetrica)
Skewness
[1] -0.9772349

Nos indica que existe asimetría hacia la izquierda


Medidas de forma
• Simetría La simetría, indica si una distribución gira entorno a un centro, o si
posee asimetría.

Coeficiente de asimetría de Fisher para la distribución


mostrada

Skewness=skew(DistrAsimetricaD)
Skewness
[1] 0.9772349

Nos indica que existe asimetría hacia la derecha


Medidas de forma
• Curtosis La curtosis mide que tan pronunciada o aplanada está una curva o
distribución.

La formula de la curtosis es:


Medidas de forma
• Curtosis La curtosis mide que tan pronunciada o aplanada está una curva o
distribución. Para el ejemplo creamos 2 distribuciones en R
DistrPlana=rt(10000,50) DistrPunta=rt(10000,5)
DistrPlana DistrPunta
hist(DistrPlana, breaks=40, col="orange") hist(DistrPunta, breaks=40, col=“blue")
Medidas de forma
• Curtosis La curtosis mide que tan pronunciada o aplanada está una curva o
distribución. Evaluamos la curtosis en R

Kplana=kurtosi(DistrPlana) Kpunta=kurtosi(DistrPunta)
Kplana Kpunta
[1] 0.06566281 [1] 3.483026
Al evaluar la curtosis
en las distribuciones
de ejemplo se
observa la diferencia
entre la plana y la
apuntada.
Medidas de forma
• Normalidad Para evaluar la normalidad se tiene la prueba de Shapiro-Wilk

El test de Shapiro-Wilks plantea la hipótesis nula que una muestra proviene de una
distribución normal, a su vez se tiene una hipótesis alternativa que sostiene que la
distribución no es normal. Se toma también un nivel de significancia, por ejemplo 0.05,

Se tiene entonces que:

H0 hipótesis nula: La distribución es normal


H1 hipótesis alternativa: La distribución no es normal
Medidas de forma
• Normalidad Se desarrollara un ejemplo con la distribución del conjunto “datos”

¿El conjunto “datos” es normal? Tomando un valor de significancia de 0.05

shapiro.test(datos) H0 hipótesis nula: La distribución es normal


H1 hipótesis alternativa: La distribución no es normal
Shapiro-Wilk normality test
El valor de probabilidad (p=0.1644) es muy superior al nivel
data: datos elegido (0.05), por lo que no se rechaza la hipótesis nula.
W = 0.98119, p-value = 0.1644
H0 hipótesis nula: La distribución es normal
Contenido
• Generalidades de estadística descriptiva
• Variables
• Medidas de posición
• Medidas de dispersión
• Medidas de forma
• Covarianza
• Coeficiente de correlación
Covarianza
Es el valor que indica el grado de variación de las variables respecto a sus medias. Este
dato sirve para determinar si existe una dependencia entre ambas variables.

Si Cov > 0 hay dependencia directa (positiva).

Si Cov ~ 0 se interpreta como la no existencia de una relación lineal entre las dos variables.

Si Cov < 0 hay dependencia inversa o negativa


Covarianza
x=c(1,2,3,4,5,6,7) x=c(1,2,3,4,5,6,7) x=c(1,2,3,4,5,6,7)
y=c(1,0.8,0.6,0.4,0.2,0,-0.2) y=c(2,4,6,8,10,12,14) y=c(3,4,5,2,4,7,3)
Cvar=cov(x,y) Cvar=cov(x,y) Cvar=cov(x,y)
Cvar Cvar Cvar
[1] -0.9333333 [1] 9.333333 [1] 0.8333333
Contenido
• Generalidades de estadística descriptiva
• Variables
• Medidas de posición
• Medidas de dispersión
• Medidas de forma
• Covarianza
• Coeficiente de correlación
Coeficiente de correlación
• El coeficiente de correlación mide si existe una tendencia lineal entre dos
variables numéricas.
Coeficiente de correlación
• Ejemplos:

x=c(1,2,3,4,5,6,7)
y=c(1,0.8,0.6,0.4,0.2,0,-0.2)
CeC=cor(x,y)
CeC
plot(x,y, type = "o", main="Correlacion
negativa -1")

[1] -1
Coeficiente de correlación
• Ejemplos:

x=c(1,2,3,4,5,6,7)
y=c(2,4,6,8,10,12,14)
CeC=cor(x,y)
CeC
plot(x,y, type = "o", main="Correlacion
positiva 1")

[1] 1
Coeficiente de correlación
• Ejemplos:

x=c(1,2,3,4,5,6,7)
y=c(3,4,5,2,4,7,3)
CeC=cor(x,y)
CeC
plot(x,y, type = "o", main= "Correlacion
debil, 0.23")

[1] 0.2362278
TALLER VIRTUAL
ESTADÍSTICA
APLICADA AL
LABORTORIO

GRACIAS

También podría gustarte