Estadistica Descriptiva Con R

TALLER VIRTUAL
ESTADÍSTICA
APLICADA AL
LABORATORIO
TALLER DE
Estadística Descriptiva
Ing. Andrés Mauricio Castillo
Contenido
• Generalidades de estadística descriptiva
• Variables
• Medidas de posición
• Medidas de dispersión
• Medidas de forma
• Covarianza
• Coeficiente de correlación
Los ejemplos de este taller
• Se van a desarrollar ejemplos de este taller en lenguaje R
• Los códigos se resaltaran con color de fuente azul
• La salida de los códigos con color de fuente de color

anaranjado
Generalidades de la estadística
descriptiva
Estadística:
Disciplina de la matemática, que se encarga de estudiar una determinada

población por medio de la recolección, recopilación e interpretación de datos.
La estadística se divide en dos grupos:
Estadística Descriptiva Estadística Inferencial

descriptiva
Estadística Descriptiva Estadística Inferencial
Su objetivo es organizar y describir las Sirve para modelar patrones en los datos
características sobre un conjunto y extraer inferencias acerca de la
de datos con el propósito de facilitar población bajo estudio. Su objetivo es
su aplicación, generalmente con el obtener conclusiones útiles para lograr
apoyo de gráficas, tablas o medidas hacer deducciones acerca de la
numéricas. totalidad de todas las observaciones
hechas, basándose en la información
numérica.
descriptiva
Estadística Descriptiva
Su objetivo es organizar y describir las

características sobre un conjunto
de datos con el propósito de facilitar
su aplicación, generalmente con el
apoyo de gráficas, tablas o medidas
numéricas.
Los datos de este histograma, pueden ser descritos
con ayuda de la estadística descriptiva
descriptiva
Distribuciones
Una distribución de probabilidad es una función que describe la relación entre el resultado de un evento
y su frecuencia de ocurrencia. Existen varias distribuciones, aquí las mas comunes:
Contenido
• Variables
• Covarianza
Variables - cualitativa
Las variables estadísticas, se pueden clasificar en:
Cualitativa o categórica: son las variables que toman como valores

cualidades o categorías.
Ejemplos:
Estado (Prendido, Apagado)

Sexo (hombre, mujer)
Nivel de educación (Básica, Secundaria, Profesional)
Variables - cualitativa
Ejemplo cualitativa:
En una encuesta a 10 personas se les pregunto

si tienen hijos o no
Ejemplo en R:
y <- factor(c("Y", "Y", "N", "N", "Y", "N", "Y", "Y", "Y", "N"))
y
plot(y)
Los datos producto de la encuesta

Variables - cuantitativa
Las variables estadísticas, según su medición se pueden clasificar en:
Cuantitativas o numérica: variables que toman valores numéricos de los

cuales hay dos tipos:
Discretos
Número de muestras (0, 1, 2,…).
Continuos
Temperatura de la disolución (19.5 ; 22.2 ; 21.4 ;…). Continua.
Variables - cuantitativa
Ejemplo cuantitativa:
100 datos ejemplo en R
datos=unlist(datos)
desvest=sd(datos)
promedio=mean(datos)
promedio
hist(datos, freq= F, breaks=9, col="lightblue",border="red")
curve(dnorm(x,promedio,desvest),add=T,col="orange" )
Medidas de posición
Para comenzar a describir este conjunto de datos existen las medidas de
posición que nos indican que tan uniforme es su distribución, entre las
principales medidas de posición se tienen:
• Media
• Mediana
• Moda
• Cuantiles
Media aritmética, promedio, o media. Es la
Media sumatoria del conjunto de valores divididos
por la cantidad n de valores.
Para el ejemplo en R tomamos el

conjunto datos de las secciones
anteriores:
promedio=mean(datos)
[1] 5.040915
La moda estadística de un conjunto de datos, es el número que
Moda presenta una mayor frecuencia absoluta dentro de la muestra. El
dato que mas se repite.
Primero se tienen que redondear los datos porque el algoritmo para hallar la moda buscara el mas común.
Dependiendo la cantidad se debe cambiar el numero de “digits”. En el ejemplo se usaron 2 dígitos.
datosT=round(datos,digits=2)
datosT
moda=mfv(datosT)
moda
La mediana ubica el centro de una
Mediana distribución de datos. 50% quedan a la
izquierda y 50% quedan a la derecha
mediana=median(datos)
mediana
[1] 5.017061
• Mediana
• Moda
• Promedio
Los cuantiles son puntos de probabilidad tomados a
• Cuantiles
intervalos regulares en una distribución.
cuantil=quantile(datos, probs=c(0.25, 0.50, 0.75))

cuantil
• Cuantiles
También se puede usar un boxplot o diagrama

de cajas y bigotes
boxplot(datos, horizontal = TRUE)

Contenido
• Variables
• Covarianza
Medidas de dispersión
Para describir como se expande la distribución del conjunto de datos
también existen las medidas de dispersión en las que se encuentran:
• Rango
• Varianza
• Desviación estándar
• Coeficiente de variación
• Rango Esta medida indica los limites del conjunto de datos:
La salida es un vector rango que

rango=range(datos) indica el menor y el mayor valor:
rango
[1] 4.579228 5.627782 [1] 4.579228 5.627782
Vrango=rango[2]-rango[1] Para hallar el rango restamos el

Vrango menor del mayor:
[1] 1.048554
[1] 1.048554
• Rango Esta medida indica los limites del conjunto de datos:
• Varianza La varianza es una medida de dispersión o variabilidad,
indican la dispersión o separación de un conjunto de datos.
En este taller se trabajara con la formula muestral:
• Varianza Usando el conjunto “datos” vamos a calcular la varianza en
R
Varianza=var(datos)
Varianza
[1] 0.04761985
• Desviación La desviación estándar esta estrechamente relacionada con
estándar la varianza. También es una medida de dispersión o
variabilidad. Es la raíz de la varianza
Varianza Desviación estándar

• Desviación Usando el conjunto “datos” vamos a calcular la desviación
estándar estándar en R
DesviacionS1=sqrt(Varianza)
DesviacionS1
[1] 0.2182197
DesviacionS2=sd(datos)
DesviacionS2
[1] 0.2182197
• Desviación Dependiendo la distribución con la desviación estándar se
estándar puede saber la cantidad de datos que se tienen en
determinado intervalo.
DesviacionS1 1 DS ~68%
[1] 0.2182197
DesviacionS2
[1] 0.2182197
• Desviación Dependiendo la distribución con la desviación estándar se
estándar puede saber la cantidad de datos que se tienen en
determinado intervalo.
DesviacionS1
[1] 0.2182197
2 DS ~95%
DesviacionS2
[1] 0.2182197
• Coeficiente Se utiliza para relacionar conjuntos de datos
de variación pertenecientes a poblaciones distintas. Si se observa
la formula, este tiene en cuenta el valor de la media y
la desviación estándar.
• Coeficiente Se utiliza para relacionar conjuntos de datos
de variación pertenecientes a poblaciones distintas. Si se observa
la formula, este tiene en cuenta el valor de la media y
la desviación estándar.
CoefV=DesviacionS1/abs(promedio)
CoefV
[1] 0.04326904
Contenido
• Variables
• Covarianza
Medidas de forma
• Simetría Este grupo de estadísticos que resulta importante para el análisis
• Curtosis estadístico de datos y variables. Este grupo describe la forma
general que asume la distribución de una variable.
• Normalidad
Medidas de forma
• Simetría La simetría, indica si una distribución gira entorno a un centro, o si
posee asimetría.
Coeficiente de asimetría de Fisher

Medidas de forma
posee asimetría.
Coeficiente de asimetría de Fisher para la distribución

mostrada
Skewness=skew(DistrAsimetrica)
Skewness
[1] -0.9772349
Nos indica que existe asimetría hacia la izquierda

Medidas de forma
posee asimetría.
Coeficiente de asimetría de Fisher para la distribución

mostrada
Skewness=skew(DistrAsimetricaD)
Skewness
[1] 0.9772349
Nos indica que existe asimetría hacia la derecha

Medidas de forma
• Curtosis La curtosis mide que tan pronunciada o aplanada está una curva o
distribución.
La formula de la curtosis es:

Medidas de forma
distribución. Para el ejemplo creamos 2 distribuciones en R
DistrPlana=rt(10000,50) DistrPunta=rt(10000,5)
DistrPlana DistrPunta
hist(DistrPlana, breaks=40, col="orange") hist(DistrPunta, breaks=40, col=“blue")
Medidas de forma
distribución. Evaluamos la curtosis en R
Kplana=kurtosi(DistrPlana) Kpunta=kurtosi(DistrPunta)
Kplana Kpunta
[1] 0.06566281 [1] 3.483026
Al evaluar la curtosis
en las distribuciones
de ejemplo se
observa la diferencia
entre la plana y la
apuntada.
Medidas de forma
• Normalidad Para evaluar la normalidad se tiene la prueba de Shapiro-Wilk
El test de Shapiro-Wilks plantea la hipótesis nula que una muestra proviene de una
distribución normal, a su vez se tiene una hipótesis alternativa que sostiene que la
distribución no es normal. Se toma también un nivel de significancia, por ejemplo 0.05,
Se tiene entonces que:
H0 hipótesis nula: La distribución es normal

H1 hipótesis alternativa: La distribución no es normal
Medidas de forma
• Normalidad Se desarrollara un ejemplo con la distribución del conjunto “datos”
¿El conjunto “datos” es normal? Tomando un valor de significancia de 0.05
shapiro.test(datos) H0 hipótesis nula: La distribución es normal

H1 hipótesis alternativa: La distribución no es normal
Shapiro-Wilk normality test
El valor de probabilidad (p=0.1644) es muy superior al nivel
data: datos elegido (0.05), por lo que no se rechaza la hipótesis nula.
W = 0.98119, p-value = 0.1644
H0 hipótesis nula: La distribución es normal
Contenido
• Variables
• Covarianza
Covarianza
Es el valor que indica el grado de variación de las variables respecto a sus medias. Este
dato sirve para determinar si existe una dependencia entre ambas variables.
Si Cov > 0 hay dependencia directa (positiva).
Si Cov ~ 0 se interpreta como la no existencia de una relación lineal entre las dos variables.
Si Cov < 0 hay dependencia inversa o negativa

Covarianza
x=c(1,2,3,4,5,6,7) x=c(1,2,3,4,5,6,7) x=c(1,2,3,4,5,6,7)
y=c(1,0.8,0.6,0.4,0.2,0,-0.2) y=c(2,4,6,8,10,12,14) y=c(3,4,5,2,4,7,3)
Cvar=cov(x,y) Cvar=cov(x,y) Cvar=cov(x,y)
Cvar Cvar Cvar
[1] -0.9333333 [1] 9.333333 [1] 0.8333333
Contenido
• Variables
• Covarianza
Coeficiente de correlación
• El coeficiente de correlación mide si existe una tendencia lineal entre dos
variables numéricas.
• Ejemplos:
x=c(1,2,3,4,5,6,7)
y=c(1,0.8,0.6,0.4,0.2,0,-0.2)
CeC=cor(x,y)
CeC
plot(x,y, type = "o", main="Correlacion
negativa -1")
[1] -1
• Ejemplos:
x=c(1,2,3,4,5,6,7)
y=c(2,4,6,8,10,12,14)
CeC=cor(x,y)
CeC
plot(x,y, type = "o", main="Correlacion
positiva 1")
[1] 1
• Ejemplos:
x=c(1,2,3,4,5,6,7)
y=c(3,4,5,2,4,7,3)
CeC=cor(x,y)
CeC
plot(x,y, type = "o", main= "Correlacion
debil, 0.23")
[1] 0.2362278
TALLER VIRTUAL
ESTADÍSTICA
APLICADA AL
LABORTORIO
GRACIAS

Estadistica Descriptiva Con R

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Descriptiva Con R

Cargado por

Copyright:

Formatos disponibles

TALLER VIRTUAL

• Los códigos se resaltaran con color de fuente azul

• La salida de los códigos con color de fuente de color

Disciplina de la matemática, que se encarga de estudiar una determinada

La estadística se divide en dos grupos:

Estadística Descriptiva Estadística Inferencial

Su objetivo es organizar y describir las

Cualitativa o categórica: son las variables que toman como valores

Estado (Prendido, Apagado)

En una encuesta a 10 personas se les pregunto

Los datos producto de la encuesta

Cuantitativas o numérica: variables que toman valores numéricos de los

100 datos ejemplo en R

Para el ejemplo en R tomamos el

cuantil=quantile(datos, probs=c(0.25, 0.50, 0.75))

También se puede usar un boxplot o diagrama

boxplot(datos, horizontal = TRUE)

La salida es un vector rango que

Vrango=rango[2]-rango[1] Para hallar el rango restamos el

Varianza Desviación estándar

Coeficiente de asimetría de Fisher

Coeficiente de asimetría de Fisher para la distribución

Nos indica que existe asimetría hacia la izquierda

Coeficiente de asimetría de Fisher para la distribución

Nos indica que existe asimetría hacia la derecha

La formula de la curtosis es:

Se tiene entonces que:

H0 hipótesis nula: La distribución es normal

¿El conjunto “datos” es normal? Tomando un valor de significancia de 0.05

shapiro.test(datos) H0 hipótesis nula: La distribución es normal

Si Cov > 0 hay dependencia directa (positiva).

Si Cov < 0 hay dependencia inversa o negativa

También podría gustarte