Está en la página 1de 24

Informática

Estadística II
TECNICATURA UNIVERSITARIA EN ESTADÍSTICA
SERVICIO DEL DEPARTAMENTO DE INFORMÁTICA –
FAC. DE CS. EXACTAS – UNSA
DOCENTE: GONZALO ROMERO
Organización de la materia

Conceptos básicos
de R
Informes, código fuente y
exposición
Pruebas de Independencia y
Análisis de Correspondencias
Elementos de
Análisis de Clustering
Estadística en R
Componentes
Análisis Univariados de Principales Árboles de Decisiones
Datos en R Análisis Multivariado &Soporte de Maquina
de Datos Sync MCTD Vectorial
Regresiones
lineales Informes,
código fuente y
exposición
Herramientas: R Studio, InfoStat, Notebooks Python

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 202


El Entorno R
Lenguaje de programación con un enfoque al análisis estadístico (para
realizar procedimientos estadísticos)
Creado en 1993 por los profesores Robert Gentleman y Ross Ihaka de
Nueva Zelanda.
Lenguaje interpretado. Multiplataforma
Lenguaje vectorial: Podemos ejecutar una única instrucción sobre todos los
elementos de un vector a la vez.

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 3


Ámbito de aplicación
Campos de aprendizaje automático (machine learning)
minería de datos
investigación biomédica
Bioinformática
matemáticas financieras
Las industrias en general

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 4


El Entorno R: Plataforma RStudio

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 5


R: Paquetes y librerías
Existe una gran variedad de componentes
desarrollados por terceros: Se pueden usar
libremente
¿Cuál es el desafío?:
◦ Conocer las opciones y elegir la mejor para cada caso
particular
◦ Manejar los formatos de Entrada/Salida

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 6


Instalación de R
Se descarga desde CRAN: https://cran.r-project.org/
Podemos utilizar herramientas más avanzadas como
Rstudio :
https://www.rstudio.com/products/rstudio/download/

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 7


Data Sets
https://data.buenosaires.gob.ar
https://
data.buenosaires.gob.ar/dataset/bicicletas-publicas
https://www.kaggle.com/datasets
https://www.kaggle.com/c/bike-sharing-demand
https://archive.ics.uci.edu/ml/index.php

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 8


Algunos Comandos útiles
Asignación: El comando “<-” asigna en la variable de la
izquierda todo lo que resulte de la expresión de la derecha
◦ Ejemplo: var1 <- c(1,3,5)
Ayuda sobre comandos: help(comando)
Instalación de librerías externas: Comando
install.packages(“paquete”)
Asignación de valores ingresados por teclado: Función scan()
◦ Ejemplo: var2 <- scan()

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 9


Algunos Comandos útiles
Generación de secuencias y valores repetidos:
◦ Intervalo/Secuencia: 1:5 ó seq(1,6,by=0.5)
◦ Repeticiones: rep(1:4,c(1,4,5,2))

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 10


Estructuras de datos
Vectores: Arreglos de datos de un sólo tipo de datos
◦ Concatenación (comando c()):
◦ c(1,3,4,2)
◦ c("informática","matemática","física")
◦ c(T,T,F,T)

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 11


Estructuras de datos
Direccionamiento de elementos en vectores, matrices y arrays: Corchetes
[]
◦ Se indica la posición para cada dimensión separando por comas, dentro del
corchete
◦ vec1[2]: Elemento en la posición 2 del vector vec1
◦ mat1[1,4]: Celda de la fila 1 columna 4 de la matriz mat1
◦ arr1[3,2,5]: Celda con coordenadas 3,2,5 del array arr1
◦ mat1[,2]: Todos los elementos de la columna 2 (Todas las filas) en la matriz mat1
◦ arr1[,,2]: Matriz completa de la componente 2 de la tercera dimensión del array
arr1

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 12


Estructuras de datos
Matrices: Arreglos de dos dimensiones de un sólo
tipo de datos
◦ Comando: matrix(data, nrow, ncol, byrow=F)
◦ Para agregar filas o columnas se usa:
◦ rbind(matriz,nuevasFilas)
◦ cbind(matriz,nuevasColumnas)
◦ Dimensiones: dim(matriz)

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 13


Estructuras de datos
Matrices (Continuación)
◦ Nombres de las filas y columnas (para consultar o asignar):
dimnames(), colnames(),rownames(). Ejemplos:
◦ colnames(datos)<-c("edad","peso","altura")
◦ dimnames(datos)<-list(c("paco","pepe","kiko"),c("edad","peso","altura"))
◦ Funciones sobre los elementos de una matriz:
apply(matriz,dimension,funcion).
◦ apply(datos,2,mean): Calcular el promedio de cada columna en la matriz
datos

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 14


Algunos Comandos útiles
Obtener el tipo de dato de una variable: mode(x)
Atributos de un objeto: attributes(objeto)
Clase de un objeto: class(objeto)
“Castear” objeto: as.clase(x)
◦ Ejemplo: var3 <- as.factor(var2)
Trabajar con las variables de un set de datos: attach(x)
◦ Ejemplo: Si var4 tiene un atributo nombre, con attach(var4) solamente se
escribe nombre para acceder al mismo. Para terminar se usa detach(x).
“Truncar” valores decimales a enteros: trunc(x)

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 15


Estructuras de datos
Valores Faltantes (NA): Valores ausentes en un set de
datos
◦ Para determinar si un valor es NA se usa is.na()
◦ Toda operación que involucre un NA devolverá como
resultado NA
◦ Vector con NAs: x<-c(10,20,NA,42,57)
◦ Determinar si el elemento es NA: y<-is.na(x)
◦ Elementos que no son NA: z<-x[!is.na(x)]

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 16


Estructuras de datos
Operadores lógicos: <, <=, >, >=, = =, !=, &, |
◦ x<20 devolverá un vector indicando qué componentes de x son
menores que 20
◦ X!=20 devolverá un vector indicando qué componentes de x son
distintas de 20
◦ x<30|is.na(x) retornará los elementos de x que sean menores
que 30 o sean valores faltantes (NA)
◦ x[x<30&x>10] mostrará los elementos de x que estén entre 10 y
30

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 17


Estructuras de datos
Arrays: Arreglos de más de dos dimensiones. Similares
a las matrices en cuanto a sus operaciones. Ejemplo:
◦ x<-array(c(45,46,65,55,170,167,48,49,68,56,169,165),
c(2,3,2))
◦ dimnames(x)<-
list(c("hombres","mujeres"),c("edad","peso","altura"),
c("Salta","Jujuy"))
◦ x[,,"Salta"]

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 18


Estructuras de datos
Listas: Permiten contener datos de distintos tipos en
una sola estructura:
◦ familia<-
list(padre="Jorge",madre="Silvia",numero.hijos=3,
nombre.hijos=c("Juan","Pedro","Luisa"),edades.hijos=c(7,
5,3),ciudad="Metán")
◦ names(familia)
◦ familia$padre ó familia[[1]]

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 19


Estructuras de datos
Data frames: Matrices con datos de distintos tipos.
◦ Cada columna tiene un solo tipo de datos.
◦ Funcionan de manera similar a las matrices.
◦ datos<-matrix(c(20,65,174,22,70,180,19,68,170), nrow=3,byrow=T)
◦ provincia<-c("Salta","Jujuy","Tucumán")
◦ datos2<-data.frame(datos,provincia)

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 20


Estructuras de datos
Factores: Variables categóricas, con un conjunto
finito de valores posibles (niveles).
◦ Obtener un factor desde un vector:
◦ estudiantes.origen<-
c("Salta","Jujuy","Jujuy","Mendoza","Jujuy","Salta","Salta")
◦ factorOrigen<-as.factor(estudiantes.origen)
◦ Listar los niveles de un factor:
◦ levels(factorOrigen)

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 21


Estructuras de datos
◦ Factores: Calcular valores sobre los niveles :
◦ estudiantes.edad<-c(25,22,21,19,30,22,41)
◦ tapply(estudiantes.edad, factorOrigen, mean)
◦ length(factorOrigen[factorOrigen!="Salta"])
◦ Obtener un factor a partir de un vector de números
aleatorios:
◦ nse<-trunc(runif(10,1,4))
◦ nse1<-factor(nse,labels=c("Bajo","Medio","Alto"), levels=c(1,2,3))

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 22


Estructuras de datos
◦ Factores: Como construir un factor desde un arreglo de
números aleatorios:
◦ nse<-trunc(runif(10,1,4))
◦ nse1<-factor(nse,labels=c("Bajo","Medio","Alto"), levels=c(1,2,3))
◦ Factores ordenados: Ejemplo:
◦ nivelSocioEconomico<-c("Alto","Bajo", "Medio", "Medio","Medio","Bajo",
"Alto","","Alto","Medio")
◦ fnse<-ordered(nivelSocioEconomico,labels=c("Bajo","Medio","Alto"),
levels=c(1,2,3))

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 23


Estructuras de datos
◦ Factores desde vectores de números reales:
◦ Función cut: factorMPG<-cut(mtcars$mpg,breaks = 3,labels =
c("Bajo","Medio","Alto"))

INFORMÁTICA ESTADÍSTICA II – TUES – UNSA – 2022 24

También podría gustarte