Está en la página 1de 9

Temario

Modulo 2

1. Introducción al análisis de datos


2. Descripción
3. Limpieza de datos
4. Estadística descriptiva
5. Software

Modulo 3

1. Herramientas predictivas
2. Regresión
3. Clasificación
4. Tabla de contingencia
Contenido

1. Uso básico de ciencia de datos 2. Metodologías para el análisis de datos

1.1. Introducción al análisis de datos 2.1. Introducción al análisis predictivo


1.1.1.Metodología de un proyecto 2.1.1.Herramientas predictivas
1.1.2.Tipos de variables 2.1.2.Relación entre la ciencia de datos
y el aprendizaje automático
1.2. Descripción
1.2.1.Descripción del problema 2.2. Regresión
1.2.2.Descripción de la base de datos 2.2.1.Descripción del problema
1.2.3.Descripción de las variables 2.2.2.Tipos de regresión
2.2.3.Multicolinealidad
1.3. Limpieza de datos 2.2.4.Análisis de varianza
1.3.1.Eliminación y filtro 2.2.5.Métricas para evaluar el
1.3.2.Inconsistencias desempeño de un modelo
1.3.3.Imputación 2.2.6.Supuestos del error
1.3.4.Codificación 2.2.7.Transformaciones Box Cox
2.2.8.Validación del modelo
1.4. Estadística descriptiva
1.4.1.Medidas estadísticas 2.3. Clasificación
1.4.2.Visualización 2.3.1.Descripción del problema
1.4.3.Transformación de variables 2.3.2.Regresión logística

1.5. Software 2.4. Tabla de contingencia


1.5.1.Excel 2.4.1.Descripción del problema
1.5.2.Power Query 2.4.2.Prueba chi cuadrada
1.5.3.Power Pivot
1.Uso básico de la ciencia de datos
1.1. Introducción al análisis de datos
La ciencia de datos es el estudio de datos con el fin de extraer
información significativa para empresas. Es un enfoque
multidisciplinario que combina principios y prácticas del campo
de las matemáticas, la estadística, la inteligencia artificial y la
ingeniería de computación para analizar grandes cantidades de
datos. Este análisis permite que los científicos de datos
planteen y respondan a preguntas como “qué pasó”, “por qué
pasó”, “qué pasará” y “qué se puede hacer con los resultados”.

El término ciencia de datos apareció por primera vez en los años


60 como nombre alternativo de la estadística. A finales de los
90, los profesionales de la computación formalizaron el término.
Una propuesta de definición la consideraba un campo
independiente con tres aspectos: diseño, recopilación y análisis
de datos. Todavía tuvo que pasar otra década para que el
término se utilizara fuera del ámbito académico.

La ciencia de datos es importante porque combina


herramientas, métodos y tecnología para generar significado a
partir de los datos. Las organizaciones modernas están
inundadas de datos; hay una proliferación de dispositivos que
pueden recopilar y almacenar información de manera
automática. Los sistemas en línea y los portales de pago
capturan más datos en los campos del comercio electrónico, la
medicina, las finanzas y cualquier otro aspecto de la vida
humana.

La ciencia de datos se utiliza para estudiar los datos de cuatro


maneras principales:

1. Análisis descriptivo. Examina los datos para obtener


información sobre lo que ha ocurrido u ocurre en el entorno
de datos.
2. Análisis de diagnóstico. es estudio detallado de datos para
entender por qué ha ocurrido algo.

3. Análisis predictivo. utiliza los datos históricos para hacer


previsiones precisas sobre los patrones de datos que pueden
producirse en el futuro.

4. Análisis prescriptivo. sugiere una respuesta óptima para


diferentes resultados. Puede analizar las posibles
implicaciones de las diferentes alternativas y recomendar el
mejor curso de acción.

Información extraída de: https://aws.amazon.com/es/what-is/data-science/

1.1.1. Metodología de un proyecto


Para llevar a cabo un proyecto de análisis de datos se aplica
la siguiente metodología:

1.1.2. Tipos de variables


Para llevar a cabo un estudio que involucre el análisis de
datos es necesario almacenar los datos en una tabla de filas
por columnas (base de datos), de manera que:
• Cada columna representa una variable, factor o criterio
evaluado
• Cada fila/renglón/registro representa una medición y puede
contener muchas columnas, por ejemplo, las respuestas de
una persona en una encuesta.

De esta manera se puede decir que una variable es una


característica o cualidad que posee cada muestra del estudio
y se clasifican de acuerdo con el siguiente diagrama:

Tipo de
variable

Cuantitativa Cualitativa
(Numérica) (Categórica)

Continua Discreta Ordinal Nominal

1.2. Descripción
El primer paso en un reporte de análisis de datos es describir de
manera clara y precisa en que consiste el problema, esto incluye
el contexto o situación del tipo de proceso y el objetivo del
estudio. Así mismo, se debe proporcionar una descripción de la
base de datos, especificando principalmente su dimensión. Por
último, se debe especificar una descripción de cada variable con
la información correspondiente.

1.2.1. Descripción del problema


En el desarrollo de un proyecto de análisis de datos es
importante comenzar la descripción especificando el
contexto donde se lleva a cabo tema, por ejemplo, si se está
realizando una práctica empresarial, es necesario hacer una
descripción de la empresa, su objeto social, e incluso la sede
en donde se realizará el proyecto. Por otra parte, si se trata
de un trabajo de tipo investigativo, se puede comenzar
realizando una delimitación del tema. Cuando el proyecto lo
amerite, también se deben realizar otro tipo de
delimitaciones como, por ejemplo, de tipo geográfico (¿En
qué zona, región, municipio, localidad?), temporal (¿En qué
meses, años?), de población, etc.

Además, se debe describir el objetivo general para la


empresa o institución, este objetivo debe ser real y medible.

1.2.2. Descripción de la base de datos


Del mismo modo en que se describe el problema, se debe
describir el origen de los datos, por ejemplo, si la base de
datos fue proporcionada por el personal de algún
departamento de una determinada institución o si fue
extraída de alguna página web, etc. También es importante
especificar la cantidad de filas y columnas que tiene.

1.2.3. Descripción de las variables


Para cada variable de la base de datos, se debe describir:

 Nombre de la variable
 Tipo de variable: (cuantitativa / cualitativa)
 Valores: posibles valores que puede tomar la variable
 Cantidad de datos faltantes
1.3. Limpieza de datos
Es posible que una base de datos sin procesar contenga
numerosos errores, los cuales pueden afectar en las
conclusiones de los análisis aplicados. La limpieza de datos es
un proceso esencial para preparar los datos y de esta manera,
obtener resultados de mejor calidad.

1.3.1. Eliminación y filtro


Entre las practicas más comunes dentro de la eliminación y filtro de datos se
encuentran:

 Eliminación de filas en blanco


 Eliminación de filas duplicadas
 Eliminación de columnas irrelevantes
 Eliminación de columnas con un solo valor
 Filtro de valores específicos de una columna

1.3.2. Inconsistencias
Entre las practicas más comunes dentro de las inconsistencias de una variable
cuantitativa se encuentran:

 Detección y eliminación de valores atípicos

Entre las practicas más comunes dentro de las inconsistencias de una variable
cualitativa se encuentran:

 Corrección de texto (Gpe / Guadalupe)


 Correción de formato de fecha (dd-mm-aaaa / mm-dd-aaaa)
 Creación de columna condicional

1.3.3. Imputación
La imputación de datos es la sustitución de datos faltantes mediante algún valor
Entre las practicas más comunes dentro de la imputación de una variable
cuantitativa se encuentran:

 Sustitución por una medida estadística general


 Sustitución por una medida estadística por grupos.
* Una de las medidas más utilizadas es la media

Entre las practicas más comunes dentro de la imputación de una variable


cualitativa se encuentran:

 Sustitución por una medida estadística general


 Sustitución por una medida estadística por grupos.
* Una de las medidas más utilizadas es la mediana

1.3.4. Codificación
Codificar datos es asignar números a las modalidades observadas o registradas de
las variables que constituyen la base de datos, así como asignar código (valor
numérico) a los valores faltantes (aquellos que no han sido registrados u
observados). Ejemplo: Si la base de datos incluye la variable Sexo, hay que asignar
un número a las mujeres y otro a los hombres. Si se trata de variables cuantitativas,
hay que definir el número de decimales que van a ser registrados.

También podría gustarte