¡Te damos la bienvenida a Scribd!

Saltar el carrusel

Sesión 3

Cargado por

Jaime Zárate Terán

0% encontró este documento útil (0 votos)

6 vistas13 páginas

Título original

c1s3

Derechos de autor

Formatos disponibles

PDF, TXT o lea en línea desde Scribd

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Denunciar este documento

Copyright:

Formatos disponibles

Descargue como PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

0% encontró este documento útil (0 votos)

6 vistas13 páginas

Sesión 3

Cargado por

Jaime Zárate Terán

Copyright:

Formatos disponibles

Descargue como PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

Saltar a página

Está en la página 1de 13

Buscar dentro del documento

Sesión 3

Tidy Data

• La idea es organizar los datos de forma que:

• Cada atributo (variable) sea una columna

• Cada ejemplo (observación) sea una fila.

• Es un enfoque desarrollado por Hadley Wickham [Chief

Scientist en Rstudio] que facilita el desarrollo de modelos.
Tidy Data
Problemas comunes en la estructuración de datos:

• Los encabezados de las columnas son valores y no nombres

de variables.

• Se guardan varias variables en una sola columna.

• Las variables se almacenan en filas y columnas.

• En una misma tabla se guardan distintos tipos de unidades de

observación.

• Una unidad de observación se guarda en varias tablas.

Tidy Data
Tidy

Untidy
Tidy Data
Tidy
Preparación de los datos
Preparación de los datos

• En los proyectos la mayor parte del tiempo (>80% del mismo)

se gasta en limpiar y preparar los datos de una forma
adecuada para el análisis.

• El preprocesamiento y la limpieza de datos son tareas

importantes que normalmente se deben llevar a cabo para que
el conjunto de datos se pueda usar de forma eficaz para el
aprendizaje automático.
Preparación de los datos

• Los datos sin procesar son a menudo ruidosos no confiables y

es posible que les falten valores.

• El uso de estos datos para el modelado puede producir

resultados engañosos.
¿Por qué preprocesar y limpiar datos?

• Se recopilan datos del mundo real de varios orígenes y

procesos y pueden contener irregularidades o datos dañados
que comprometen la calidad del conjunto de datos.
• Los problemas de calidad de datos más habituales que surgen
son:
• Incompletos: en los datos no hay atributos o contienen
valores que faltan.
• Ruidosos: los datos contienen registros erróneos o valores
atípicos.
• Incoherentes: los datos contienen discrepancias o registros
en conflicto.
¿Cuáles son algunas de las tareas principales
de preprocesamiento de datos?

• Limpieza de datos: rellene los valores que faltan, detecte y

quite los valores atípicos y los datos con ruido.

• Transformación de datos: normalice datos para reducir el ruido

y las dimensiones.Reducción de datos: atributos o registros de
datos de ejemplo para un control de datos más sencillo.
¿Cuáles son algunas de las tareas principales
de preprocesamiento de datos?

• Discretización de datos: convierta atributos continuos en

atributos de categorías para facilitar su uso con determinados
métodos de aprendizaje automático.

• Limpieza de texto: quite caracteres incrustados que puedan

ocasionar errores en la alineación de los datos, por ejemplo,
pestañas incrustadas en un archivo de datos separado por
tabulaciones, nuevas líneas incrustadas que pueden dividirse
en registros, etc.
¿Cómo tratar los valores que faltan?

• Para tratar los valores que faltan, es mejor identificar el motivo

por el que faltan los valores para controlar mejor el problema.

• Los métodos de control de valores que faltan típicos son:

• Eliminación: quite los registros con los valores que faltan

• Sustitución ficticia: reemplace los valores que faltan por un

valor ficticio; por ejemplo, desconocido para categorías o 0
para valores numéricos.
¿Cómo tratar los valores que faltan?

• Los métodos de control de valores que faltan típicos son:

• Sustitución media: si los datos que faltan son numéricos,

reemplace los valores que faltan por la media.

• Sustitución frecuente: si los datos que faltan son de

categoría, cambie los valores que faltan por el elemento
más frecuente.

• Sustitución de regresión: utilice el método de regresión

para reemplazar los valores que faltan por valores con
regresión.

También podría gustarte

Tablas dinámicas y Gráficas para Excel: Una guía visual paso a paso
De Everand
Tablas dinámicas y Gráficas para Excel: Una guía visual paso a paso
Bolakale Aremu
Aún no hay calificaciones
Bases de Datos MySQL
De Everand
Bases de Datos MySQL
Ángel Arias
Calificación: 1 de 5 estrellas
1/5 (1)
Clase I PROCESAMIENTO DE DATOS (Modo de Compatibilidad)
Documento49 páginas
Clase I PROCESAMIENTO DE DATOS (Modo de Compatibilidad)
Cesar Enexis Rodriguez
Aún no hay calificaciones
Data Mining and Data Warehouse
Documento28 páginas
Data Mining and Data Warehouse
Fabian Flores
Aún no hay calificaciones
Fases Del KDD Resumen
Documento3 páginas
Fases Del KDD Resumen
Sara Martel
Aún no hay calificaciones
Clase Semana 2
Documento38 páginas
Clase Semana 2
JULIO ARMANDO LANDAZURI CASTRO
Aún no hay calificaciones
Analytics 1 - Sesión 11
Documento68 páginas
Analytics 1 - Sesión 11
daniel heros zamudio
Aún no hay calificaciones
Estructura y Organizacion de Datos Unidad I
Documento25 páginas
Estructura y Organizacion de Datos Unidad I
Marco De Alba Gonzalez
100% (3)
Clase 4. Selección, Limpieza y Transformación PDF
Documento50 páginas
Clase 4. Selección, Limpieza y Transformación PDF
diego peña
Aún no hay calificaciones
Base de Datos y Cómo Planificarlo
Documento8 páginas
Base de Datos y Cómo Planificarlo
billgb.120
Aún no hay calificaciones
Clase 03
Documento19 páginas
Clase 03
Kevin Padilla
Aún no hay calificaciones
Capacitación R Studio
Documento29 páginas
Capacitación R Studio
Ibarra Sil
Aún no hay calificaciones
Clase 6
Documento8 páginas
Clase 6
mariana palacios hinestroza
Aún no hay calificaciones
Practica
Documento27 páginas
Practica
Ulquiorra
Aún no hay calificaciones
1.1 2 - Concepto - BD
Documento7 páginas
1.1 2 - Concepto - BD
Daniel Sarabia
Aún no hay calificaciones
Capacitacion Base de Datos (ORACLE)
Documento56 páginas
Capacitacion Base de Datos (ORACLE)
Jorge Garcia
Aún no hay calificaciones
Javier Serrano Control 2
Documento5 páginas
Javier Serrano Control 2
Javier Andres Serrano Leiva
Aún no hay calificaciones
Curso Base de Datos Nivel I
Documento42 páginas
Curso Base de Datos Nivel I
cristian pacheco
Aún no hay calificaciones
Grupo42 Trabajo Colaborativo
Documento13 páginas
Grupo42 Trabajo Colaborativo
hector
Aún no hay calificaciones
Análisis Exploratorio de Datos
Documento26 páginas
Análisis Exploratorio de Datos
Caucottignacio Caucott
Aún no hay calificaciones
Repaso Examen
Documento4 páginas
Repaso Examen
Frank Mejia
Aún no hay calificaciones
Análisis de Datos
Documento27 páginas
Análisis de Datos
amintareyes571
Aún no hay calificaciones
Base de Datos 7 8 9 2008 V2012 I
Documento41 páginas
Base de Datos 7 8 9 2008 V2012 I
anon_909789786
Aún no hay calificaciones
0 C KDD
Documento47 páginas
0 C KDD
JOEL ERICK GUTIERREZ PUMA
Aún no hay calificaciones
Duplicar Una Tabla Mysql
Documento1 página
Duplicar Una Tabla Mysql
erica suarez
Aún no hay calificaciones
Práctica 9 - Access - Tablas y Consultas
Documento26 páginas
Práctica 9 - Access - Tablas y Consultas
Jaime Barrios Melgar
Aún no hay calificaciones
Base de Datos 1
Documento49 páginas
Base de Datos 1
Angelica Albornoz Oxte
Aún no hay calificaciones
Sesion 5 y 6
Documento56 páginas
Sesion 5 y 6
joaquin
Aún no hay calificaciones
Clase 3 Data Warehouse
Documento30 páginas
Clase 3 Data Warehouse
PalaloFPV
Aún no hay calificaciones
TAREAnn2n09n03n2023 3364065ead37f0b
Documento16 páginas
TAREAnn2n09n03n2023 3364065ead37f0b
Teresaa Jsth
Aún no hay calificaciones
1 IntroducciónPreparacióndeDatos PDF
Documento100 páginas
1 IntroducciónPreparacióndeDatos PDF
Edwin Mathius
Aún no hay calificaciones
Estandarización de Datos
Documento37 páginas
Estandarización de Datos
Ibiza Leal
Aún no hay calificaciones
STATA 16 Sesion 1
Documento30 páginas
STATA 16 Sesion 1
DOCTORADO EN CIENCIAS SOCIALES FACES
Aún no hay calificaciones
Clase 01 AED Tipos de Datos y Búsquedas
Documento18 páginas
Clase 01 AED Tipos de Datos y Búsquedas
Julio Rosales
Aún no hay calificaciones
Parte 2 Clase 20 - en Foco - Selección de Mejora de Modelos
Documento7 páginas
Parte 2 Clase 20 - en Foco - Selección de Mejora de Modelos
Paul Vásquez
Aún no hay calificaciones
Tema 2. - Arquitectura para El Almacenamiento de Datos, Data Warehouse
Documento12 páginas
Tema 2. - Arquitectura para El Almacenamiento de Datos, Data Warehouse
Alexis
Aún no hay calificaciones
Investigación Base de Datos 3 de Octubre
Documento4 páginas
Investigación Base de Datos 3 de Octubre
Gerardo Pacay
Aún no hay calificaciones
2.6 Diseño-De-Bases-De-Datos
Documento16 páginas
2.6 Diseño-De-Bases-De-Datos
Julieth Reyes
Aún no hay calificaciones
Visión General Del Almacenamiento de Datos
Documento32 páginas
Visión General Del Almacenamiento de Datos
Carlos Nuñez
Aún no hay calificaciones
Manual de Excel 2019 Intermedio
Documento202 páginas
Manual de Excel 2019 Intermedio
Frank Valdivia Martinez
Aún no hay calificaciones
Clase 07 - Laboratorio II 2023
Documento76 páginas
Clase 07 - Laboratorio II 2023
Myriam Noemi del Valle Ruiz
Aún no hay calificaciones
Clase 1.conceptos - de - Bases - de - Datos
Documento47 páginas
Clase 1.conceptos - de - Bases - de - Datos
Kimberly Leandro
Aún no hay calificaciones
3 IntroMR
Documento25 páginas
3 IntroMR
Paola Zeas
Aún no hay calificaciones
Limpieza de Datos
Documento5 páginas
Limpieza de Datos
Javier Cortes
Aún no hay calificaciones
Como Hacer Un Diccionario de Datos
Documento10 páginas
Como Hacer Un Diccionario de Datos
Diana Gonzalez
Aún no hay calificaciones
Arboles de Decisiones
Documento42 páginas
Arboles de Decisiones
M1lw4r
Aún no hay calificaciones
Unidad I. Fundamentos de Bases de Datos
Documento21 páginas
Unidad I. Fundamentos de Bases de Datos
Ana Ramírez Hernández
Aún no hay calificaciones
ETL y Gestion de Datos Con R
Documento44 páginas
ETL y Gestion de Datos Con R
Trinidad Cruz
Aún no hay calificaciones
Fundamental 4
Documento15 páginas
Fundamental 4
Itayetzi Ordoñez
Aún no hay calificaciones
Guia de Almacen Parcial
Documento5 páginas
Guia de Almacen Parcial
itzel
Aún no hay calificaciones
Act - Integ - U3 Analisis Datos
Documento4 páginas
Act - Integ - U3 Analisis Datos
David Navarro
Aún no hay calificaciones
Power Bi
Documento17 páginas
Power Bi
Andrea Santos
Aún no hay calificaciones
Sesion 5 - Fundamentos de Inteligencia de Negocios
Documento44 páginas
Sesion 5 - Fundamentos de Inteligencia de Negocios
Jared Enoc Pizarro Villarroel
Aún no hay calificaciones
Me 1
Documento33 páginas
Me 1
Franco Calderón Delgado
Aún no hay calificaciones
Administrador Base de Datos
Documento30 páginas
Administrador Base de Datos
angel Paredes
Aún no hay calificaciones
Modelo Entidad Relacion 2
Documento42 páginas
Modelo Entidad Relacion 2
Alexander Saravia
Aún no hay calificaciones
Cuestionario de Sistemas Gestores de Base de Datos
Documento6 páginas
Cuestionario de Sistemas Gestores de Base de Datos
Ibeth de la Cruz
Aún no hay calificaciones
Tablas dinámicas y Gráficas para Excel
De Everand
Tablas dinámicas y Gráficas para Excel
A. J. Wright
Aún no hay calificaciones
Fundamentos de Programación y Bases de Datos: 2ª Edición
De Everand
Fundamentos de Programación y Bases de Datos: 2ª Edición
Ángel Arias
Aún no hay calificaciones
Curso de Introducción a la Administración de Bases de Datos
De Everand
Curso de Introducción a la Administración de Bases de Datos
Miguel Ángel Benítez
Calificación: 3 de 5 estrellas
3/5 (1)
Sesión 2
Documento21 páginas
Sesión 2
Jaime Zárate Terán
Aún no hay calificaciones
Desarrollo de Modelos Predictivos: Email: Web
Documento2 páginas
Desarrollo de Modelos Predictivos: Email: Web
Jaime Zárate Terán
Aún no hay calificaciones
Desarrollo de Modelos Predictivos: Email: Web
Documento20 páginas
Desarrollo de Modelos Predictivos: Email: Web
Jaime Zárate Terán
Aún no hay calificaciones
Sesión 2
Documento21 páginas
Sesión 2
Jaime Zárate Terán
Aún no hay calificaciones
Desarrollo de Modelos Predictivos: Email: Web
Documento20 páginas
Desarrollo de Modelos Predictivos: Email: Web
Jaime Zárate Terán
Aún no hay calificaciones
Sesión 3
Documento13 páginas
Sesión 3
Jaime Zárate Terán
Aún no hay calificaciones
Desarrollo de Modelos Predictivos: Email: Web
Documento2 páginas
Desarrollo de Modelos Predictivos: Email: Web
Jaime Zárate Terán
Aún no hay calificaciones
Desarrollo de Modelos Predictivos: Email: Web
Documento20 páginas
Desarrollo de Modelos Predictivos: Email: Web
Jaime Zárate Terán
Aún no hay calificaciones
Sesión 2
Documento21 páginas
Sesión 2
Jaime Zárate Terán
Aún no hay calificaciones
Procedimiento Con Drones 2022
Documento5 páginas
Procedimiento Con Drones 2022
Jaime Zárate Terán
Aún no hay calificaciones
Procedimiento Con Drones 2022
Documento5 páginas
Procedimiento Con Drones 2022
Jaime Zárate Terán
Aún no hay calificaciones
CN - Grado8 Export
Documento8 páginas
CN - Grado8 Export
Julián Arias Henao
Aún no hay calificaciones
Examen Trimestral Sexto Grado BLOQUE1 2021 2022
Documento22 páginas
Examen Trimestral Sexto Grado BLOQUE1 2021 2022
Jhonatan Ramirez
50% (2)
La Primera y Segunda Revolución Industrial y Su Relacion Con Diversos Aspectos
Documento8 páginas
La Primera y Segunda Revolución Industrial y Su Relacion Con Diversos Aspectos
Gabriel CB
Aún no hay calificaciones
GM Qué Problema Con Mi Nombre
Documento13 páginas
GM Qué Problema Con Mi Nombre
Angela Salazar Poveda
Aún no hay calificaciones
Bioelementos Inorganicos PDF
Documento19 páginas
Bioelementos Inorganicos PDF
MYCHELL MORELO TEHERAN
Aún no hay calificaciones
35 Conjuntos IV
Documento6 páginas
35 Conjuntos IV
Jack Rivera
Aún no hay calificaciones
Cuestionario Del Tour Virtual de Acuaponía
Documento2 páginas
Cuestionario Del Tour Virtual de Acuaponía
Alejandro Navas
Aún no hay calificaciones
Ed-S-02 01-01
Documento7 páginas
Ed-S-02 01-01
Andres Cortez
Aún no hay calificaciones
Actividad Eje 4 RESIDUOS
Documento17 páginas
Actividad Eje 4 RESIDUOS
stefany paredes alzate
Aún no hay calificaciones
Plan de Contingencia Por Feridado Del 10 de Agosto de 2021
Documento6 páginas
Plan de Contingencia Por Feridado Del 10 de Agosto de 2021
Fernanda Arias
Aún no hay calificaciones
Workshopsp Module1
Documento6 páginas
Workshopsp Module1
Jenn
Aún no hay calificaciones
Etica y Valores G11 - Guia 2
Documento7 páginas
Etica y Valores G11 - Guia 2
marisol
Aún no hay calificaciones
Directiva Sucamec
Documento4 páginas
Directiva Sucamec
Ruben Hinojosa Mamani
Aún no hay calificaciones
Vigaa S
Documento7 páginas
Vigaa S
Oscar Pimentel
Aún no hay calificaciones
Problemas Del Conocimiento Histórico
Documento1 página
Problemas Del Conocimiento Histórico
Jasón Correa
Aún no hay calificaciones
Matriz-RACI (Confecciones Igosa)
Documento3 páginas
Matriz-RACI (Confecciones Igosa)
Miguel Alberto
Aún no hay calificaciones
Mapa Conceptual Normas
Documento1 página
Mapa Conceptual Normas
natalia
100% (1)
U-1-Introduccion Intervencion Psicoeducativa - I - Visita
Documento11 páginas
U-1-Introduccion Intervencion Psicoeducativa - I - Visita
marvin
Aún no hay calificaciones
Objeto
Documento20 páginas
Objeto
AleMartínez
100% (7)
Secuencia: Cuaderno para Leer Y Escribir en Tercero Texto Narrativo
Documento4 páginas
Secuencia: Cuaderno para Leer Y Escribir en Tercero Texto Narrativo
Luciana Gomez
Aún no hay calificaciones
Capítulo 47 Fisiología Guyton y Hall 14 Ed.
Documento9 páginas
Capítulo 47 Fisiología Guyton y Hall 14 Ed.
Manuela Menendez
Aún no hay calificaciones
Guia Pra Crear El Customer Journey Map de Su Negocio
Documento17 páginas
Guia Pra Crear El Customer Journey Map de Su Negocio
ANDREA QUISPE PEYTY
Aún no hay calificaciones
Informe de Entrevista Cultura Maya
Documento8 páginas
Informe de Entrevista Cultura Maya
Fátima Garduza
Aún no hay calificaciones
1° Grado - Mayo 03
Documento30 páginas
1° Grado - Mayo 03
nadia chavez mamani
Aún no hay calificaciones
Arte Verdad y Moral
Documento2 páginas
Arte Verdad y Moral
Herminia Calisaya
Aún no hay calificaciones
Recension El Hombre Doliente
Documento19 páginas
Recension El Hombre Doliente
crista776
100% (1)
Guia de Trabajo N°1 Grado 10° PDF
Documento10 páginas
Guia de Trabajo N°1 Grado 10° PDF
Camila Pajaro
Aún no hay calificaciones
TESIS - Eduardo Jesus Gutierrez Mendez TURNITIN PDF
Documento126 páginas
TESIS - Eduardo Jesus Gutierrez Mendez TURNITIN PDF
leonardo ninanya yupanqui
Aún no hay calificaciones
IE II-EJE 1 Temas 1 y 2
Documento9 páginas
IE II-EJE 1 Temas 1 y 2
Danisa Maldonado
Aún no hay calificaciones
GR8-1202 ES Instruction Manuals
Documento52 páginas
GR8-1202 ES Instruction Manuals
biospwr
Aún no hay calificaciones