Está en la página 1de 21

04/04/2019

ESTADÍSTICA BÁSICA CON R Y


R STUDIO: TALLER PRÁCTICO
Diana Montes Grajales, PhD.
Contacto: dmontesg@unicartagena.edu.co

COLABORADORES PARTICIPANTES

PREGRADO 63%

POSGRADO 33%
KATERIN FUENTES, MSc.

ASISTENTES DE
INVESTIGACIÓN

DOCENTES 3,7%

JUAN CARLOS VALDELAMAR, PhD(C)

1
04/04/2019

“La web es un ciberuniverso”

Joseph Sifakis, 67th lindau nobel


laureate meeting

OBJETIVO DEL CURSO

2
04/04/2019

ESTADÍSTICA
La estadística es una ciencia matemática que se ocupa
de la recopilación, análisis, interpretación o explicación
y presentación de datos.

(Watkins, 2016)

PRINCIPALES TIPOS DE ESTADÍSTICA

RECOLECCIÓN
INFERENCIAS

DESCRIPCIÓN PREDICCIONES
DESCRIPTIVA INFERENCIAL
CONTRASTE DE HIPÓTESIS
VISUALIZACIÓN
GENERACIÓN DE MODELOS
RESUMEN

3
04/04/2019

DEFINICIONES

Población, N=60
Muestra, n=6

Variables

Ej. Altura, masa, género.

TIPOS DE VARIABLES

Ej. Masa y altura.


Continuos
Numéricos
Discretos Ej. Número de hijos.

Datos
Ordinales Ej. Satisfacción,
intensidad del dolor.
Categóricos
Nominales Ej. Color de ojos.

4
04/04/2019

TRIVIAS
El país de origen es una variable:

a) Numérica continua.
b) Numérica discreta.
c) Categórica ordinal.
d) Categórica nominal.

La edad del vino en años es una variable:

a) Numérica continua.
b) Numérica discreta.
c) Categórica ordinal.
d) Categórica nominal.

(Heymann &. Noble, 1987)

TRIVIAS

El grupo de edad de los pacientes


-pediátricos, adultos y ancianos-
corresponde a una variable:

a) Numérica continua.
b) Numérica discreta.
c) Categórica ordinal.
d) Categórica nominal.

(Rodriguez-Pinto et al., 2016)

5
04/04/2019

TIPOS DE VARIABLES
CANTIDAD DE AGUA

LONGITUD DE LA PLANTA
VARIABLE
INDEPENDIENTE/
EXPLICATIVA (x)

2 mL 5 mL

LONGITUD DE LA PLANTA CANTIDAD DE AGUA

CONDICIONES CONTROLADAS
VARIABLE
DEPENDIENTE/ ESPECIE DE LAS PLANTAS
RESPUESTA (y) TIPO DE SUSTRATO
FOTOPERIODOS
TAMAÑO DEL RECIPIENTE
2 cm 5 cm EDAD DE LAS PLANTAS

TRIVIAS
Selección múltiple

1. La concentración de bromuro es:

a) Variable independiente.
b) Variable dependiente.
c) Variable explicativa.
d) Variable respuesta.

Eje X

12

6
04/04/2019

TIPOS DE ESTUDIOS

ESTUDIO OBSERVACIONAL ESTUDIO EXPERIMENTAL

n=20
n=20
PERSONAS QUE NO
SE EJERCITAN PERSONAS QUE NO
SE EJERCITAN

n=20
n=20
PERSONAS QUE SE
EJERCITAN PERSONAS QUE SE
EJERCITAN

VARIABLE RESPUESTA: ÍNDICE DE MASA CORPORAL

TIPOS DE ESTUDIOS

ESTUDIO OBSERVACIONAL ESTUDIO EXPERIMENTAL

n=20
n=20
PERSONAS QUE NO
SE EJERCITAN PERSONAS QUE NO
SE EJERCITAN
NO pueden SI pueden determinar
determinar causalidad causalidad
n=20
n=20
PERSONAS QUE SE
EJERCITAN PERSONAS QUE SE
EJERCITAN

VARIABLE RESPUESTA: ÍNDICE DE MASA CORPORAL

7
04/04/2019

TRIVIAS

¿Qué tipo de estudio es este? ¿Podemos establecer causalidad?

A. Observacional C. Si
B. Experimental D. No

LA ECONOMÍA Y LOS PREMIOS NOBEL: ¿LA


CAUSA DETRÁS DE LA LECHE Y EL CHOCOLATE?

16

8
04/04/2019

PARADOJA DE SIMPSON
Es una paradoja en la cual una tendencia que aparece en varios grupos de datos desaparece cuando
estos grupos se combinan y en su lugar aparece la tendencia contraria para los datos agregados.

CONSUMO DE ALCOHOL
PROBABILIDAD DE
RECUPERACIÓN

LUIS
JULIO
VÍCTOR
TONALLI
CLAIRE

DOSIS IQ

FORMAS DE ORGANIZAR LOS DATOS

TABLAS: LISTAS:

AMANDA
NOMBRES EDAD CONSUMO MENSUAL ($)
ANA

Amanda 20 15000 MELISA


ANDRÉS
Ana 21 25000
JUAN
Melisa 20 15000

Andrés 19 42000

Juan 20 5000

18

9
04/04/2019

MEDIDAS ESTADÍSTICAS
MEDIDAS DE MEDIDAS DE MEDIDAS DE MEDIDAS DE
CENTRALIZACIÓN DISPERSIÓN LOCALIZACIÓN SIMETRÍA

Media Coeficiente de
Rango Cuartiles
aritmética asimetría

Media Coeficiente de
Varianza Deciles
geométrica curtosis

Media Desviación
Percentiles
armónica estándar

Error estándar
Moda
de la media

Coeficiente de
Mediana
variación

19

MEDIDAS DE Son valores numéricos que localizan, de alguna manera, el


CENTRALIZACIÓN centro de un conjunto de datos.
Media
aritmética

Media
geométrica MODA

Media
armónica
MEDIANA
Moda

Σx 6+3+8+6+4
= 5.4
Mediana x= =
MEDIA n 5

10
04/04/2019

MEDIDAS DE Las medidas de dispersión nos informan sobre cuánto se


DISPERSIÓN alejan del centro los valores de la distribución.

Rango Max-Mín

Varianza s2 = Σ(x – x)2


n-1
Desviación
estándar s  s2
Error estándar 𝑠
𝑆𝐸 =
de la media 𝑛

Coeficiente de
variación

MEDIDAS DE Las medidas de localización dividen la distribución en partes


LOCALIZACIÓN iguales, sirven para clasificar a un individuo o elemento dentro
de una determinada población o muestra.
Cuartiles

Deciles

Percentiles

11
04/04/2019

MEDIDAS DE Los indicadores de SIMETRÍA/ ASIMETRÍA deberán informarnos


SIMETRÍA de si los valores de la distribución se disponen simétricamente
alrededor de la media, o bien si se decantan en mayor medida
Coeficiente de
asimetría
hacia la derecha (a simetría a derechas, o positiva) o hacia la
izquierda (a simetría a izquierdas, o negativa), sin necesidad de
Coeficiente de representar gráficamente la distribución de frecuencias.
curtosis

COEFICIENTE DE CURTOSIS COEFICIENTE DE ASIMETRÍA

Leptocúrtica Mesocúrtica Platicúrtica


g2 > 0 g2 = 0 g2 > 0

REPRESENTACIÓN DE LOS DATOS

24

12
04/04/2019

TIPOS DE VISUALIZACIÓN
PARA ENTENDER LOS DATOS.
Exploratoria

Visualización
PARA COMPARTIR LOS RESULTADOS
Explicativa
(Agregar énfasis y remover distracciones)

A. B.

(Lai et al., 2015)


25

¿QUÉ NOS PERMITE HACER LA ESTADÍSTICA?

3. Inferencia: hacer
1. Diseño: Planificación y predicciones y generalizar
2. Descripción: Resumir y
realización de estudios de los fenómenos
explorar datos.
investigación. representados por los
datos.

GENERACIÓN DE LA IDEA TOMA DE DECISIONES

26

13
04/04/2019

INTRODUCCIÓN A R Y R STUDIO

27

¿POR QUÉ USAR R?


Es uno de los lenguajes de
programación más usado en ciencia Código abierto y gratuito
* Comunidad de ayuda

Se pueden descargar Corrección de errores


paquetes y librerías que
extienden su funcionalidad

Automatización y trabajo con


Gráficos excelentes
grandes volúmenes de datos
* Rapidez
* Trabajo con varios
conjuntos de datos a la vez.
Análisis estadísticos avanzados

UNIX, Windows y MacOS

28

14
04/04/2019

Bioconductor proporciona herramientas para el


análisis y la comprensión de datos genómicos
de alto rendimiento. Bioconductor usa el
lenguaje de programación estadística R, y es
de código abierto y desarrollo abierto.

29

R y R STUDIO

RStudio es un entorno de desarrollo integrado para el lenguaje de programación R, dedicado


a la computación estadística y gráficos.

30

15
04/04/2019

INSTALACIÓN DE R
https://www.r-project.org/

31

INSTALACIÓN DE R STUDIO
https://www.rstudio.com/products/rstudio/download/

32

16
04/04/2019

INSTRUCCIONES DE USO Menú de


Herramientas

Espacio de trabajo e
Editor de código historial

Archivos y gráficos

Consola de R

33

OPERADORES EN R
ARÍTMETICOS RELACIONALES LÓGICOS ASIGNACIÓN
Adición + Menor que < No ! =

Substracción - Mayor que > Y& <-

Multiplicación * Menor o igual que <= Identidad && ->

División / Mayor o igual que >= O| <<-

Potencia ^ Igual == || ->>

Móduo %% Diferente de != xor

Divisón de enteros
%/%

Para imprimir un valor se usa print().

34

17
04/04/2019

TIPOS DE VARIABLES

TIPOS DE
DESCRIPCIÓN EJEMPLOS
VARIABLES

Numerics Valores decimales 5.6

Integers Enteros 5 (5L)

Logicals Lógicos True/False

Characters Texto “Diana”

Para identificar esto en R se usa class()

35

¡VAMOS A R!
Configurar el directorio de trabajo.
Guardar la sesión activa.
Guardar el script.
Aprender a escribir comentarios.
Aprender a correr el código desde la consola.
Aprender a pasar del historial al script.
Escribir el código y comentarios.
Revisar la clase de datos.
Asignar variables y usar operadores.
Pedir ayuda.
Guardar.

18
04/04/2019

FUNCIONES

Es un pedazo de código escrito que lleva a cabo una tarea


específica.

función()

y = f(x)
¡Casi todo en R se hace a través de funciones!
EN R: y ~ x

FORMAS DE ORGANIZAR LOS DATOS EN R

VARIABLES:
X <-1 Existen diferentes operadores de
asignación como: =, <-, ->
LISTAS:

VECTORES (los elementos deben ser del mismo tipo). En R se usa c()
LISTAS (pueden tener elementos de diferentes tipos).
En R se usa list()
TABLAS:
En R se usa matrix()
MATRICES (tienen filas y columnas)
DATAFRAMES (se usa para almacenar tablas) En R se usa data.frame()

Para pegar listas como si fueran las


columnas de un vector se usa cbin()

38

19
04/04/2019

IMPORTAR LOS DATOS DESDE UNA TABLA DE EXCEL

1 2 3

Nombre <- read.csv(“archivo.csv”, header=TRUE, sep=“;”, check.names=FALSE)

39

SEGMENTAR UN DATA FRAME (TABLA)


nombre_dataframe
SEGMENTAR:
CONSUMO
NOMBRES EDAD [FILA, COLUMNA]
MENSUAL ($)
POR COLUMNAS:
Amanda 20 15000 nombre_dataframe[, 2]
nombre_dataframe[, “EDAD”]
Ana 21 25000 nombre_dataframe$EDAD
Melisa 20 15000 POR FILAS:
nombre_dataframe[1,]
Andrés 19 42000

Juan 20 5000 nombre_dataframe[1:3,]

POR CELDAS:
nombre_dataframe[1,2]

20
04/04/2019

¡VAMOS A R!
Ingresar datos en R
Organizar los datos en listas, tablas,
vectores y data frames.
Cargar una tabla desde Excel.
Obtener subsecciones de los datos.

Repaso: Hacer operaciones con estas


nuevas formas de organizar los datos

21

También podría gustarte