Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Procesamiento estadístico
de datos con R
DDTIC_PL_2022
¿Qué veremos hoy?
1)Presentación
2)Repaso
3)Preguntas evaluación
4)Temas 1, 2 y 3
5)Ejercicios
6)Cierre
DDTIC_PL_2022
Objetivo general
DDTIC_PL_2022
¿Qué es R?
Irizarry, R. A. (2021). Introducción a la ciencia de datos . https://rafalab.github.io/dslibro/. Consultado en Mayo del 2022
DDTIC_PL_2022
Top 20 de lenguajes de programación
20%
18%
16%
14%
11.59%
12.74%
10.99%
12%
8.83%
10%
8%
Uso
6.39%
5.86%
6%
4%
2.12%
1.92%
1.87%
1.52%
1.42%
1.23%
1.11%
1.03%
1.03%
0.99%
0.98%
0.86%
2% 1.22%
0.82%
0%
t l ift l
ho
n C va ++ C
# ic ip ag
e L P ca R o ic
e-
C
Pe
r
Lu
a
ub
y
AB
t Ja C as cr SQ PH as Sw
G as L
Py lB aS gu lB ct
iv R
AT
a v la
n tP a e M
su Ja ec su bj
Vi bl
y bj Vi O
em i/O si
c
s ph s
As el C
la
D
Lenguaje
Elaboración propia con datos de TIOBE Index for May 2022 (https://www.tiobe.com/tiobe-index/)
DDTIC_PL_2022
¿Qué es RStudio?
DDTIC_PL_2022
¿Cómo funciona R?
*Un lenguaje orientado a objetos utiliza una técnica de programación orientada a objetos que une datos y funciones relacionados en un objeto y fomenta la reutilización de
estos objetos dentro del mismo y otros programas.
1) Paradis, E. (2003). R para Principiantes. Institut des Sciences de l'Evolution. Université Montpellier II.
https://cran.r-project.org/doc/contrib/rdebuts_es.pdf
DDTIC_PL_2022
¿Qué se puede hacer con R?
Aunque R está diseñado para análisis estadístico, con el paso del tiempo los
usuarios de este lenguaje han creado extensiones a R, llamadas paquetes, que han
ampliado su funcionalidad. En la actualidad es posible realizar en R minería de
textos, procesamiento de imagen, visualizaciones interactivas de datos y
procesamiento de Big Data, entre muchas otras cosas.
*Un lenguaje orientado a objetos utiliza una técnica de programación orientada a objetos que une datos y funciones relacionados en un objeto y fomenta la reutilización de
estos objetos dentro del mismo y otros programas.
1) Calvo, D. (2018) Definición de Rstudio. https://www.diegocalvo.es/definicion-de-rstudio/
2) RStudio https://es.wikipedia.org/wiki/RStudio
DDTIC_PL_2022
Constantes y variables
A = ¶ * r2
Mendoza, V. J. B. (2020) R para principiantes. https://bookdown.org/jboscomendoza/r-principiantes4/
DDTIC_PL_2022
Asignación de valores
*La función rnorm(1) genera un dato al azar muestrado de una distribuci ́on normal con media 0 y varianza 1.
DDTIC_PL_2022
Tipo de datos
Tipo de dato Descripción Definición
Numeric Números decimales numero <- 1.0
Integer Números enteros int <- 1
Character Cadenas de texto str <- "un texto"
Complex Números complejos comp <- 3+2i
Logical Verdadero (TRUE) o falso (FALSE). Es a menudo el resultado de a <- 1; b <- 2; a < b
operaciones lógicas.
Factor Este no es estrictamente un tipo de dato, pero vale la pena Aplique as.factor() a
describirlo aquí. Una variable factor es una variable categórica. un vector de
Los vectores de caracteres a menudo se almacenan como caracteres.
factores para explotar funciones para tratar datos categóricos.
Por ejemplo, en análisis de regresión.
DDTIC_PL_2022
Vectores
DDTIC_PL_2022
Operadores aritméticos
Operador Descripción
+ Suma
- Resta
* Multiplicación
/ División
^ó ** Exponente
%% Módulo 5%%2 = 1
%/% División entera 5%/%2 = 2
Bravo L. P. & Salgado C. F. (2019) Introducción a R y SIG. https://bookdown.org/chescosalgado/intro_r/
DDTIC_PL_2022
Operadores de comparación
Operador Descripción
< Menor que
<= Menor o igual que
> Mayor que
>= Mayor o igual que
== Exactamente igual que
!= No es igual que
DDTIC_PL_2022
Operadores lógicos
Operador Descripción
| O
& Y
isTRUE(x) Verifica que x es verdad
DDTIC_PL_2022
Tipo de objeto
Objeto Tipos Vario Descripción
s
tipos
vector numérico, caracter, complejo o lógico No Es una variable en el significado
comunmente asumido.
factor numérico o caracter No Un factor es una variable categórica.
arreglo numérico, caracter, complejo o lógico No Un arreglo es una tabla de dimensión k
matriz numérico, caracter, complejo o lógico No Una matriz es un caso particular de un
arreglo donde k = 2.
data.frame numérico, caracter, complejo o lógico Si Es una tabla compuesta de uno o más
vectores y/o factores de la misma
longitud pero que pueden ser de
diferentes tipos.
ts numérico, caracter, complejo o lógico Si Es una serie temporal y como tal
contiene atributos adicionales tales como
frecuencia y fechas.
Bravo L. P. & Salgado C. F. (2019) Introducción a R y SIG. https://bookdown.org/chescosalgado/intro_r/
lista numérico, caracter, complejo, lógico Si Puede contener cualquier tipo de objeto
incluyendo otras listas
DDTIC_PL_2022
Funciones
Una función es un bloque de código que solo se ejecuta
cuando se le llama.
Puede pasar datos, conocidos como parámetros, a una
función.
Una función puede devolver datos como resultado.
DDTIC_PL_2022
Funciones
#Sintaxis
NombreFuncion <- function(arg1, arg2, ... ) {
# Código
}
DDTIC_PL_2022
Funciones ejemplo
#Función que resuelve ecuaciones cuadráticas
DDTIC_PL_2022
Estructuras de control: ejemplo
#Crear una función que determine el área de un círculo, debe
evaluar si el radio es menor de cero e imprimir el mensaje
"No se puede calcular el área"
DDTIC_PL_2022
Estructuras de control: condicionales
DDTIC_PL_2022
Estructuras de control: if anidado
if (Condición) { # La condición debe devolver TRUE o FALSE
# Código
} else {
# Código
if(Condición 2) { # La condición debe devolver TRUE o
FALSE
# Código
} else {
# Más código
}
Bravo L. P. & Salgado C. F. (2019) Introducción a R y SIG. https://bookdown.org/chescosalgado/intro_r/
}
DDTIC_PL_2022
Ejemplo función ifelse
En el juego entre Fuerza Regia y Halcones de la Liga Nacional de
Basquetbol Profesional femenil jugado el 22 may 2022, 16:00 – en el
deportivo Nuevo León Unido se obtuvieron los siguientes resultados por
jugadora: Numero
1
Nombre
ALEXIS JONES *
MIN
35:00
PTS
7
Tiros Convertidos
3
Tiros Intentados
13
2 ALONDRA QUINTERO 0 0 0 0
5 ANGELICA MOLINA 0 0 0 0
6 GEMA ROA 0 0 0 0
DDTIC_PL_2022
Ejemplo función ifelse
Importe los datos de Fuerza Regia y agregue una columna al DataFrame
con el nombre “Rating” en el que se clasifique a cada jugadora como
“Buena” si ha anotado 16 puntos o más, como “Media” si anotó entre 15 y
10 puntos, y mala con anotaciones de 9 o menos puntos.
Adicionalmente genere la columna Porcentaje_ TI
(Tiros.Convertidos/Tiros.Intentados) con formato 20.51.
.
DDTIC_PL_2022
Función ifelse
ifelse (Condición (prueba lógica), 'Resultado si es verdad',
'Resultado si es falso')
DDTIC_PL_2022
Ejemplo función ifelse
Importe los datos de Fuerza Regia y agrege una columna al DataFrame
con el nombre “Rating” en el que se clasifique a cada jugadora como
“Buena” si ha anotado 16 puntos o más, como “Media” si anotó entre 15 y
10 puntos, y mala con anotaciones de 9 o menos puntos.
FuerzaRegia$Porcentaje_TI <-
round((FuerzaRegia$Tiros.Convertidos/FuerzaRegia$Tiros.Intentados)*100,2)
DDTIC_PL_2022
Estructuras de control: ejemplo
#Importar Base “CalcularIMCSex.csv”
#Calcular el IMC de acuerdo con la fórmula:
#IMC = Peso (kg) / altura (m)²
#Crear el Vector ‘Clasificacion’ usando la función elseif() y clasificar a las
personas de acuerdo si IMC y a la Clasificación del IMSS
#Bajo de Peso <= 18.4
#Normal 18.5 a 24.9
#Sobrepeso 25 a 29.9
#Obesidad >30
Bravo L. P. & Salgado C. F. (2019) Introducción a R y SIG. https://bookdown.org/chescosalgado/intro_r/
DDTIC_PL_2022
DataFrame
Los data frames son estructuras de datos de dos dimensiones (rectangulares) que
pueden contener datos de diferentes tipos, por lo tanto, son heterogéneas. Esta
estructura de datos es la más usada para realizar análisis de datos y seguro te
resultará familiar si has trabajado con otros paquetes estadísticos.
Los data frames son una versión más flexible de una matriz. Mientras que en una
matriz todas las celdas deben contener datos del mismo tipo, los renglones de un
data frame admiten datos de distintos tipos, pero sus columnas conservan la
restricción de contener datos de un sólo tipo.
DDTIC_PL_2022
DataFrame
DDTIC_PL_2022
DataFrame
mi_ejemplo <- data.frame(
"Id" = 1:8,
"Entrenado" = c("Sí","No","No","Sí","No","No","Sí","Sí"),
"t_reaccion" = c(170,250,265,150,190,185,135,130),
"edad" = c(25,27,28,27,26,25,23,24)
)
DDTIC_PL_2022
DataFrame
# Podemos usar dim() en un data frame
dim(mi_ejemplo)
DDTIC_PL_2022
Matriz a DataFrame
#Creamos una matriz
matriz <- matrix(1:12, ncol = 4)
DDTIC_PL_2022
Operaciones con un data frame
Si hacemos una operación aritmética a un data frame, este
se vectorizará.
mi_ejemplo * 2
DDTIC_PL_2022
Operaciones con un data frame
#Una sola columna
summary(mi_ejemplo$t_reaccion)
#Dos columnas
summary(mi_ejemplo[c('t_reaccion','edad')])
DDTIC_PL_2022
Usando datos de un BoxPlot
#Hago un BoxPlot
boxplot(mi_ejemplo$t_reaccion)
#Llamo a Resumen
Resumen
DDTIC_PL_2022
BoxPlot
El gráfico de caja (“box-plot” en inglés) es una forma
de presentación estadística destinada,
fundamentalmente, a resaltar aspectos de la
distribución de las observaciones en una o más series
de datos cuantitativos. Reemplaza, en consecuencia,
al histograma y a la curva de distribución de
frecuencias sobre los que tiene ventajas en cuanto a
la información que brinda y a la apreciación global que
surge de la lectura.
Fue ideado por John Tukey, de la Universidad de
Princeton (U.S.A.) en 1977 y los detalles que siguen
corresponden a la descripción dada por este autor.
DDTIC_PL_2022
BoxPlot
El gráfico de caja (“box-plot” en inglés) es una forma
de presentación estadística destinada,
fundamentalmente, a resaltar aspectos de la
distribución de las observaciones en una o más series
de datos cuantitativos. Reemplaza, en consecuencia,
al histograma y a la curva de distribución de
frecuencias sobre los que tiene ventajas en cuanto a
la información que brinda y a la apreciación global que
surge de la lectura.
Fue ideado por John Tukey, de la Universidad de
Princeton (U.S.A.) en 1977 y los detalles que siguen
corresponden a la descripción dada por este autor.
DDTIC_PL_2022
Estadística descriptiva
Estadística Descriptiva: es la encargada de la organización, condensación,
presentación de los datos en tablas y gráficos y del cálculo de medidas
numéricas que permitan estudiar los aspectos más importantes de los datos.
DDTIC_PL_2022
Estadística descriptiva
Grisales (2019) Estadística descriptiva y probabilidad. Ecoe Ediciones. e-ISBN: 978-958-771-826-3. pp. 23.
DDTIC_PL_2022
Contacto
DDTIC_PL_2022