Está en la página 1de 31

Programa de actualización 2022

Procesamiento estadístico
de datos con R

M. en C. José Félix Paisano Morales

DDTIC_PL_2022
¿Qué veremos hoy?
1)Presentación
2)Objetivo del curso
3)Criterios de evaluación
4)¿Qué es R y RStudio?
5)Temas 1 y 2
6)Ejercicios
7)Cierre

DDTIC_PL_2022
Datos generales del curso

Curso teórico-práctico.
• Puntualidad
• Forma de trabajo.
• Registro de asistencia en cada sesión.
• Cuestionarios de opinión: intermedia y final.

DDTIC_PL_2022
Contenido del curso

DDTIC_PL_2022
Objetivo general

El participante utilizará el lenguaje de programación R para realizar


procedimientos de estadística descriptiva y presentar gráficos con la
información obtenida.

DDTIC_PL_2022
¿Qué es R?

R es un lenguaje de programación creado por estadísticos como un ambiente


interactivo para el análisis de datos. La interactividad es una característica
indispensable en la ciencia porque la capacidad de explorar rápidamente los datos es
necesario para el éxito en este campo.
En R se puede guardar el trabajo como una secuencia de comandos (script), que se
pueden ejecutar fácilmente en cualquier momento. Los scripts sirven como un registro
del análisis realizado lo que facilita el trabajo reproducible. R tiene gran ventaja
cuando se trata del análisis de datos y, específicamente, de la visualización de datos.

Irizarry, R. A. (2021). Introducción a la ciencia de datos . https://rafalab.github.io/dslibro/. Consultado en Mayo del 2022

DDTIC_PL_2022
Alguna ventajas de R

1)R es gratuito y de código abierto.


2)Se ejecuta en todas las plataformas principales: Windows, Mac Os, UNIX/Linux.
3)Los scripts y los objetos de datos se pueden compartir sin problemas entre
plataformas.
4)Existe una comunidad grande, creciente y activa de usuarios de R y, como
resultado, hay numerosos recursos para aprender y hacer preguntas7
5)Es fácil contribuir complementos (add-ons en inglés) que les permiten a los
desarrolladores compartir implementaciones de software de nuevas metodologías de
ciencia de datos.

Irizarry, R. A. (2021). Introducción a la ciencia de datos . https://rafalab.github.io/dslibro/. Consultado en Mayo del 2022

DDTIC_PL_2022
Top 20 de lenguajes de programación
20%

18%

16%

14%

11.59%
12.74%

10.99%
12%

8.83%
10%

8%
Uso

6.39%

5.86%
6%

4%

2.12%

1.92%

1.87%

1.52%

1.42%

1.23%

1.11%

1.03%

1.03%

0.99%

0.98%

0.86%
2% 1.22%
0.82%

0%
n t al ift r l a
ho
C va ++ C
# ic ip ag
e L P R o ic
e-
C
Pe Lu ub
y
AB
t Ja C as cr SQ PH as
c
Sw
G as L
Py lB aS gu lB ct
iv R
AT
a v la
n tP a e
su Ja ec su bj M
Vi bl
y bj Vi O
em i/O si
c
s ph s
As el C
la
D

Lenguaje

Elaboración propia con datos de TIOBE Index for May 2022 (https://www.tiobe.com/tiobe-index/)

DDTIC_PL_2022
¿Qué es RStudio?

RStudio es un entorno de desarrollo integrado (IDE) para el lenguaje de programación


R, dedicado a la computación estadística y gráficos. Es uno de los entornos más
populares para crear aplicaciones en el lenguaje de programación R.
Este entorno de desarrollo tiene una versión versión gratuita, open source y
multiplataforma de escritorio para disponer de un entorno integrado de desarrollo, y
que facilita tanto la tarea de uso interactivo de R como la programación de scripts en
R.

1) Calvo, D. (2018) Definición de Rstudio. https://www.diegocalvo.es/definicion-de-rstudio/


2) RStudio https://es.wikipedia.org/wiki/RStudio

DDTIC_PL_2022
¿Cómo funciona R?

R es un lenguaje Orientado a Objetos*, R es un lenguaje interpretado, lo cual significa


que los comandos escritos en el teclado son ejecutados directamente sin necesidad
de construir ejecutables.

*Un lenguaje orientado a objetos utiliza una técnica de programación orientada a objetos que une datos y funciones relacionados en un objeto y fomenta la reutilización de
estos objetos dentro del mismo y otros programas.
1) Paradis, E. (2003). R para Principiantes. Institut des Sciences de l'Evolution. Université Montpellier II.
https://cran.r-project.org/doc/contrib/rdebuts_es.pdf

DDTIC_PL_2022
¿Qué se puede hacer con R?

Aunque R está diseñado para análisis estadístico, con el paso del tiempo los
usuarios de este lenguaje han creado extensiones a R, llamadas paquetes, que han
ampliado su funcionalidad. En la actualidad es posible realizar en R minería de
textos, procesamiento de imagen, visualizaciones interactivas de datos y
procesamiento de Big Data, entre muchas otras cosas.

1) Calvo, D. (2018) Definición de Rstudio. https://www.diegocalvo.es/definicion-de-rstudio/


2) RStudio https://es.wikipedia.org/wiki/RStudio

DDTIC_PL_2022
¿Quién usa R?
Compañía Quién lo usa Cómo lo usa No. Empleados
Accenture R programming application developer, Applications software development, statistical 674,000
data scientist, full stack developer analysis, exploratory data analysis
Amazon Senior data scientist, research scientist II, Statistical analysis, exploratory data analysis, 1,298,000
transportation analyst machine learning
Cognizant Data engineer, data scientist, data analyst Exploratory data analysis, statistical analysis 289,500
Deloitte Consulting Data visualization developer, data Machine learning, exploratory data analysis 345,000
scientist, backend developer
Google Data scientist, cloud AI engineer, Exploratory data analysis, machine learning 135,301
analytical consultant
HCL Technologies Technical lead, data scientist Machine learning 169,000
Infosys Data science consultant, data science Machine learning, exploratory data analysis 260,000
Meta Platforms Data science manager, people data Statistical analysis, exploratory data analysis 58,604
solutions analyst, data Scientist
Novartis Senior principal real-world evidence Exploratory data analysis, machine learning, 105,794
(RWE) research analyst, senior data statistical analysis
scientist, exploratory data analyst
Snapdeal Product analyst, data scientist Machine learning, statistical analysis 3,661
Mangindin, G. (2022) Who Uses R? Companies That Use R and What R Is Used For. https://careerkarma.com/blog/who-uses-r/

DDTIC_PL_2022
Trabajo con R

DDTIC_PL_2022
Constantes y variables

Como se usa en lenguaje matemático, una constante es un objeto cuyo valor no


podemos cambiar, en contraste, una variable es un objeto que puede cambiar de
valor.

En la fórmula del área de un círculo, identifique a la(s) variable(s) y la(s) contante(s):

A = ¶ * r2
Mendoza, V. J. B. (2020) R para principiantes. https://bookdown.org/jboscomendoza/r-principiantes4/

DDTIC_PL_2022
Variables

Cuando genere variables procura hacerlo con nombres claros o que sean
transparentes para tí.

Mendoza, V. J. B. (2020) R para principiantes. https://bookdown.org/jboscomendoza/r-principiantes4/

DDTIC_PL_2022
Asignación de valores

Asignación de valores A -> 5


que se guardan el 5 <- A
memoria
a -> 5
z <- 2+4
n <- 3 + rnorm(1)*
Asignación de valores 12+25^3
que no se guardan el
memoria

*La función rnorm(1) genera un dato al azar muestrado de una distribuci ́on normal con media 0 y varianza 1.

Paradis, E. (2003) R para principiantes. https://cran.microsoft.com/snapshot/2016-10-29/doc/contrib/rdebuts_es.pdf

DDTIC_PL_2022
Variables

Cuando generes variables procura hacerlo con nombres claros o que sean
transparentes para tí.

Mendoza, V. J. B. (2020) R para principiantes. https://bookdown.org/jboscomendoza/r-principiantes4/

DDTIC_PL_2022
Tipo de datos
Tipo de dato Descripción Definición
Numeric Números decimales numero <- 1.0
Integer Números enteros int <- 1
Character Cadenas de texto str <- "un texto"
Complex Números complejos comp <- 3+2i
Logical Verdadero (TRUE) o falso (FALSE). Es a menudo el resultado de a <- 1; b <- 2; a < b
operaciones lógicas.
Factor Este no es estrictamente un tipo de dato, pero vale la pena Aplique as.factor() a
describirlo aquí. Una variable factor es una variable categórica. un vector de
Los vectores de caracteres a menudo se almacenan como caracteres.
factores para explotar funciones para tratar datos categóricos.
Por ejemplo, en análisis de regresión.

Bravo L. P. & Salgado C. F. (2019) Introducción a R y SIG. https://bookdown.org/chescosalgado/intro_r/

DDTIC_PL_2022
Vectores

Un vector representa una secuencia ordenada (arreglo o matriz) de


elementos (datos) del mismo tipo. Es posible construir vectores de tipo
numérico y caracteres. Para nuestros propósitos, los vectores podrán ser
considerados como variables.
v1 <- c(1,2,3)
v2 <- c('a','b','c')
v3 <- c('na','eso','asa')
v4 <- c(v2,v3)
Bravo L. P. & Salgado C. F. (2019) Introducción a R y SIG. https://bookdown.org/chescosalgado/intro_r/

DDTIC_PL_2022
Operadores aritméticos

Operador Descripción
+ Suma
- Resta
* Multiplicación
/ División
^ó ** Exponente
%% Módulo 5%%2 = 1
%/% División entera 5%/%2 = 2
Bravo L. P. & Salgado C. F. (2019) Introducción a R y SIG. https://bookdown.org/chescosalgado/intro_r/

DDTIC_PL_2022
Operadores de comparación

Operador Descripción
< Menor que
<= Menor o igual que
> Mayor que
>= Mayor o igual que
== Exactamente igual que
!= No es igual que

Bravo L. P. & Salgado C. F. (2019) Introducción a R y SIG. https://bookdown.org/chescosalgado/intro_r/

DDTIC_PL_2022
Operadores lógicos

Operador Descripción
| O
& Y
isTRUE(x) Verifica que x es verdad

Bravo L. P. & Salgado C. F. (2019) Introducción a R y SIG. https://bookdown.org/chescosalgado/intro_r/

DDTIC_PL_2022
Tipo de objeto
Objeto Tipos Vario Descripción
s
tipos
vector numérico, caracter, complejo o lógico No Es una variable en el significado
comunmente asumido.
factor numérico o caracter No Un factor es una variable categórica.
arreglo numérico, caracter, complejo o lógico No Un arreglo es una tabla de dimensión k
matriz numérico, caracter, complejo o lógico No Una matriz es un caso particular de un
arreglo donde k = 2.
data.frame numérico, caracter, complejo o lógico Si Es una tabla compuesta de uno o más
vectores y/o factores de la misma
longitud pero que pueden ser de
diferentes tipos.
ts numérico, caracter, complejo o lógico Si Es una serie temporal y como tal
contiene atributos adicionales tales como
frecuencia y fechas.
Bravo L. P. & Salgado C. F. (2019) Introducción a R y SIG. https://bookdown.org/chescosalgado/intro_r/
lista numérico, caracter, complejo, lógico Si Puede contener cualquier tipo de objeto
incluyendo otras listas

DDTIC_PL_2022
Ejercicios

Bravo L. P. & Salgado C. F. (2019) Introducción a R y SIG. https://bookdown.org/chescosalgado/intro_r/

DDTIC_PL_2022
Estructuras de control: condicionales

if (Condición) { # La condición debe devolver TRUE o FALSE


# Ejecuta un código
} else {
# Ejecuta otro código
}

Bravo L. P. & Salgado C. F. (2019) Introducción a R y SIG. https://bookdown.org/chescosalgado/intro_r/

DDTIC_PL_2022
Estructuras de control: if anidado
if (Condición) { # La condición debe devolver TRUE o FALSE
# Código
} else {
# Código
if(Condición 2) { # La condición debe devolver TRUE o
FALSE
# Código
} else {
# Más código
}
Bravo L. P. & Salgado C. F. (2019) Introducción a R y SIG. https://bookdown.org/chescosalgado/intro_r/
}

DDTIC_PL_2022
Estructuras de control: ejemplo
#Crear una función que determine el área de un círculo, debe
evaluar si el radio es menor de cero e imprimir el mensaje
"No se puede calcular el área"

Bravo L. P. & Salgado C. F. (2019) Introducción a R y SIG. https://bookdown.org/chescosalgado/intro_r/

DDTIC_PL_2022
Estructuras de control: ejemplo
#Importar Base “CalcularIMCSex.csv”
#Calcular el IMC de acuerdo con la fórmula:
#IMC = Peso (kg) / altura (m)²
#Crear el Vector ‘Clasificacion’ usando la función ifelse () y clasificar a
las personas de acuerdo si IMC y a la Clasificación del IMSS
#Bajo de Peso <= 18.4
#Normal 18.5 a 24.9
#Sobrepeso 25 a 29.9
#Obesidad >30
Bravo L. P. & Salgado C. F. (2019) Introducción a R y SIG. https://bookdown.org/chescosalgado/intro_r/

DDTIC_PL_2022
Estructuras de control: ejemplo
#Crear el vector ‘Sexo’ usando la función ifelse () y clasificar
a las personas de acuerdo a su sex0
#0 = Hombre
#1 = Mujer

Bravo L. P. & Salgado C. F. (2019) Introducción a R y SIG. https://bookdown.org/chescosalgado/intro_r/

DDTIC_PL_2022
Estructuras de control: ejemplo
#Crear un DataFrame con nombre ‘Datos’ con los usando los
vectores ‘Clasificacion’ y ‘Sexo’

Bravo L. P. & Salgado C. F. (2019) Introducción a R y SIG. https://bookdown.org/chescosalgado/intro_r/

DDTIC_PL_2022
Contacto

M. en C. José Félix Paisano Morales


josflix2@gmail.com

DDTIC_PL_2022

También podría gustarte