Está en la página 1de 7

GUÍA DE SUPERVISIÓN

Nombre del curso: Analista de datos


Resultado esperado
El analista de datos es la persona capaz de obtener información valiosa de un conjunto de datos a los que a simple vista no se les encuentra
un valor. Los datos pueden ser variados; desde tablas o bases de datos hasta un artículo en un periódico o una opinión en una entrevista en
video. La labor del analista de datos es identificar las necesidades del cliente y definir un método de análisis que obtenga información valiosa
de cómo cubrirlas. Para hacer esto adquiriera los datos necesarios y los limpia para encontrar relaciones entre ellos o para describir
comportamientos pasados e incluso futuros mediante métodos intuitivos, heurísticos y estadísticos.

El analista de datos también comunica la información valiosa que obtuvo para que se toman mejores decisiones, que pueden ser para
intereses personales o de grandes organizaciones. Las áreas de aplicación para un análisis son muy amplias, algunos ejemplos son: mejorar las
ventas en una empresa, optimizar la producción entre varias líneas de productos, evaluar la imagen de una organización, incluso saber
cuándo es el mejor momento para iniciar un negocio o cuándo invertir, entre un sinfín de otras aplicaciones.
Qué observar para determinar el nivel de
Competencia Indicadores de desempeño Temas
dominio:

Determina las etapas del proceso de trabajo de


un analista de datos, al incluir las siguientes
acciones: definir una necesidad, tomar los datos
disponibles, transformar en conocimiento,
*Proceso de trabajo evaluar las conclusiones y tomar decisiones.
Conoce el proceso de trabajo de un
*Etapas de un análisis de Explica las etapas del análisis de datos, al incluir
analista de datos en todo momento,
datos la definición del problema, división, solución y
para aplicarlo al momento de comenzar
*Confidencialidad de la selección de la mejor opción.
un proyecto.
información Menciona las recomendaciones para garantizar
la confidencialidad de la información al incluir
resguardar bien las contraseñas, generar
alfanuméricamente, cuidar el uso del correo
electrónico, entre otras.
Enlista los métodos de análisis escribiendo la
comparación, Bayes, Regresión lineal y
optimización.
Explica las etapas del proceso de trabajo Identifica los tipos de variables mencionando las
de un analista de datos, mencionando cualitativas como estado civil, dirección y las
*Obtención de los datos
que debe definir una necesidad, tomar cuantitativas como las medidas con números.
necesarios para el
los datos disponibles, transformarlos en Selecciona la fuente de datos dependiendo del
análisis
conocimiento, evaluar las conclusiones lugar donde se encuentren como tablas
y tomar decisiones. dinámicas o bases de datos relacionales. Muy
ambiguo, podrían salir más rúbricas con esta
información, mostrando un resultado claro y
especìfico.
Determina que un cuestionamiento es causal si
se pregunta por los efectos de algun fenomeno.
Obtiene datos para el análisis mediante Comprueba las teorías o suposiciones de cierto
encuestas en grupos controlados para aspecto del negocio con al menos 50 respuestas
*Creación de encuestas
ejecutar el análisis previamente a las preguntas causales con el fin de identificar
observacionales
definido, cuando el método de análisis variables cuantitativas.
así lo requiera. Evita las variables de confusión dividiendo los
grupos afectados por la encuesta por localidad o
área con el fin de mostrar diferentes resultados.
Exporta los datos de una hoja de cálculo a
formato CSV dando clic en la opción "csv
delimitado por comas" cuando se guarda el
Obtiene datos para el análisis mediante
archivo.
procesos en hojas de cálculo cuando la
*Manejo de datos en Utiliza el formato txt cuando se requiere que el
información se presente en ese
hojas de cálculo archivo no tenga ningún tipo de delimitación
formato, para ejecutar el análisis
dando clic en la opción de "Texto plano"
previamente definido
previamente definido.
Descarga software que sea compatible con el
editor de hojas de cálculo dando clic en
"Herramientas de análisis".
Realiza una consulta en SQL dentro del sistema
gestor de base de datos para obtener la
información correspondiente.
Extrae la información de la base de datos dando
clic en tareas y en exportar datos seleccionando
Adquiere datos archivo .csv.
importantes de
Obtiene la información de la base de datos
diferentes fuentes
dando clic en tareas y en exportar datos
según sea requerido
seleccionando archivo .txt.
para realizar el método
Determina los dos tipos de caracteres de la
de análisis
sintaxis de expresiones regulares al establecer
previamente definido
los meta caracteres como operadores que
toman un significado diferente al habitual y las
*Manejo de datos en una literales que son los caracteres de la búsqueda.
Obtiene datos para el análisis mediante
base de datos relacional Enlista los meta caracteres escribiendo punto,
búsquedas en base de datos
*Uso de expresiones suma, asterisco, interrogación, llaves y coma.
relacionales cuando la información se
regulares Utiliza las llaves dentro de una expresión regular
presente en ese formato, para ejecutar
*Programación de para denotar el número de veces que puede
el análisis previamente definido.
expresiones regulares aparecer un carácter en la búsqueda por
ejemplo: am{2,4}a
Identifica los requerimientos para hacer la
búsqueda de expresiones regulares
mencionando, el archivo a explorar y la librería
"re" de Python.
Utiliza el método findall para guardar en un
arreglo todas las cadenas de caracteres que
coincidan con la expresión regular con
re.findall(expresión regular)
Aplica el método len para obtener el número de
elementos que coinciden con la expresión
regular al escribir la función
"len("expresionregular")".
Menciona los problemas que puede tener un
archivo CSV como espacios en blanco, espacios
ausentes, inconsistencias de datos.
Menciona las reglas para limpiar datos como
realizar un respaldo, evitar las comas para
ingresar datos, ver formatos de campos
numéricos o alfanuméricos y exclusión de datos.
Incluye en la limpieza de datos archivos en csv o
xls como los principales para agregar en una
hoja de cálculo.
Ejecuta el software de limpieza de datos dando
*Software para la doble clic sobre el icono en el escritorio de la
Realiza la limpieza de los datos limpieza de datos PC.
obtenidos con software dedicado para *Limpieza de datos Crea un nuevo proyecto de limpieza de datos
que la información pueda ingresar al estructurados dando clic en "new project", seleccionando el
análisis de manera eficiente. *Limpieza de datos no tipo de archivo que se va a limpiar.
estructurados Elimina los registros repetidos seleccionando la
fila donde se encuentran y dando clic en delete.
Identifica los datos a eliminar como los registros
que tengan información basura, registros
repetidos y registros vacíos.
Elimina varios registros basura de una vez,
marcando con una estrella los registros que se
requieren y eliminando todos los demás con
"facet by star".
Borra registros en blanco seleccionando "facet
blank", y eliminando los que empaten en blanco
con "remove all matching rows".
Menciona las características de los modelos
como explícitos donde cada modelo tiene
propiedades bien definidas, verificables donde
el resultado puede ser comprobado, repetibles
donde los pasos al ejecutarlos varias veces
tendrán poco variación.
Construye diagramas de información
escribiendo la pregunta a responder y las
variables que se relación en ella con el fin de
agruparlas en tres tipos, las que ya se tienen, las
que se pueden obtener y las que no se
obtendrán.
Define la complejidad del modelo entre simple y
complicada dependiendo del número de
variables que relacionadas entre sí dan
respuesta a la pregunta.
*Diagramas y modelos
Aplica el método de comparación Identifica los dos tipos de variables como
*Construcción de
cuando esté método sea el definido tangible donde es medible algún aspecto e
modelos matemáticos
previamente para encontrar patrones intangible donde no se puede medir algo.
*Método de
en los datos según el histórico. Utiliza los símbolos mayor que, igual y menor
comparación
que para delimitar las variables a valores
concretos o rangos de acción.
Genera expresiones algebraicas identificando las
variables y si estas están delimitadas o no y los
verbos que unen a las variables con su valor
inicial.
Aplica el método de comparación cuando las
variables encontradas son del mismo tipo como
sumas y promedios.
Agrega gráficos que dependen de los datos en la
hoja de cálculo dando clic derecho sobre la tabla
y seleccionando el gráfico deseado.
Utiliza una gráfica de barras con los datos
recabados en una hoja de cálculo
seleccionandolos y dando clic en "gráfico de
barras 2D"
Define la relación lineal entre dos variables
como el aumento o disminución proporcional de
un valor que depende de otro.
Identifica los datos en algún problema a los que
puedes cambiar como cantidades y los que no
puedes cambiar como productos etc.
Convierte a lenguaje algebraico las datos que no
puedes controlar como restricciones o
constantes que deben cumplirse en todo
momento.
Utiliza el solver del editor de hojas de cálculo
dando clic en una serie de datos en dos
columnas para encontrar la solución óptima.
Define dependiendo del problema las columnas
necesarias con datos cuantitativos en la hoja de
cálculo como pueden ser total de unidades,
*Método de materiales, ganancias etc.
optimización
Agrega restricciones dentro de la hoja de cálculo
*Cálculos de
al ejecutar el solver de tal forma que utilizando
Aplica el método de optimización optimización con hoja de
el nombre de la columna, símbolos y variables
cuando este método sea el definido cálculo
numéricas.
previamente para encontrar los valores *Cálculos de
Utiliza el software de análisis estadístico "R"
idóneos de ciertas variables según sus optimización con
aplicando la ejecución de programación
delimitaciones. software
funcional para la resolución de problemas de
*Cálculos de
optimización.
optimización en lenguaje
optimización en lenguaje
de programación Programa en R la ecuación de ganancia de
cualquier negocio utilizando los
productos-servicios y el precio de venta de los
mismos.
Genera las restricciones en el software R
utilizando las literales y variables del proceso de
negocio junto con los símbolos condicionales
para establecer rangos de ganancia.
Instala las bibliotecas de Python necesarias para
ejecutar los métodos de optimización con la
instrucción "from pulp import *"
Declara las constante y variables en su estado
inicial colocando un nombre he igualandose a
un valor determinado.
Ejecuta la función GLPK y solve escribiendo
problema.solve(GLPK(msg=0)); para obtener el
valor óptimo de las variables.
Identifica la finalidad de un gráfico de dispersión
mencionando que es usado para describir qué
es lo que pasa alrededor de un set de datos para
probar una hipótesis.
Determina el momento de aplicar el método
gráfico de dispersión cuando se requiere
sintetizar datos, comparar diversos set de datos
y observar relaciones entre los datos.
Elige las dos variables a tomar en cuenta en el
gráfico de dispersión colocándolas en los ejes x
y y de la gráfica.
Obtiene el archivo .csv para manipularlo en el
IDE de R con el comando read.csv("dirección del
*Análisis mediante un
archivo", header = T).
gráfico de dispersión
Aplica el método gráfico de dispersión Asigna un nuevo formato a los campos tipo
*Elaboración de gráficos
cuando este método sea el definido fecha con el comando data.csv[,"Dates"] <-
de dispersión con
previamente para encontrar relaciones as.Date(data.csv[,"Dates"], "%Y-%m-%d").
software
entre los datos cuando sus datos sean Gráfica la dispersión de las variables
*Elaboración de gráficos
lineales. seleccionadas con el comando
de dispersión en lenguaje
de programación plot(columna1,columna2).
Agrega al proyecto de Python la biblioteca
Pandas con el siguiente comando "import
pandas as pd".
Guarda en diferentes variables los datos que se
utilizaran haciendo referencia a las columnas de
las tablas por ejemplo: datos1 =
tabla1[['Ganancias',
'TiempoEnSitio', 'PaginasVistas',
'RegresoVisitas']].
Gráfica la dispersión de las variables
seleccionadas con el comando
ax1.scatter(datos1.TiempoEnSitio,
datos1.Ganancias).
Determina cuándo aplicar el método de
diagnóstico, al encontrar variables cualitativas
en la información.
Encuentra patrones, Realiza una lista de las hipótesis sólo utilizando
Aplica el método de diagnóstico cuando
tendencias y/o las tres más probables descargandolas con el
se quiera comprobar una hipótesis para
relaciones entre los *Método de diagnóstico método de falsificación.
predecir un evento según los datos
datos según se Sigue el procedimiento de falsificación
históricos.
requiera mediante enlistando la información, colocando
métodos intuitivos, encabezados, evaluando la posibilidad de
heurísticos y ocurrencia, eliminado información poco
estadísticos para coherente y eligiendo la teoría más fuerte.
p
obtener modelos que Define los cinco elementos del análisis de Bayes
describan su mencionando, la probabilidad de que suceda
comportamiento una hipótesis, la probabilidad de que no lo haga,
la probabilidad de que se presente un suceso
Aplica el método de la regla de Bayes dado que la hipótesis sea cierta y la
cuando se quieren encontrar las probabilidad de que se presente un suceso dado
*Análisis por regla de
probabilidades de que ocurra un evento que la hipótesis sea falsa.
Bayes
en análisis repetitivos según vayan Utiliza la nomenclatura ideada por el análisis de
surgiendo los datos. Bayes como P(H), P(-H), P(E|H) y P(E|-H).
Obtiene el resultado de la probabilidad real que
tiene cierta variable de evolucionar en el tiempo
definiendo el árbol de probabilidad con sus
ramificaciones a las hipótesis contempladas.
Define la probabilidad subjetiva como la medida
de que tan posible es que ocurra un evento
basándose en la experiencia.
Aplica la herramienta seleccionando un grupo
de personas con experiencia en el objetivo de la
hipótesis que se piensa probar.
Obtiene el promedio de los valores sugeridos
por cada persona utilizando un gráfico de
dispersión.
Aplica probabilidades subjetivas cuando
*Probabilidades Identifica los dos tipos de estadísticas
se quiere conocer el comportamiento
subjetivas mencionando la descriptiva que se encarga de
de datos para describir o predecir un
*Herramientas reunir, ordenar y describir
evento según las expresiones verbales
estadísticas información a partir de los datos existentes y la
de los involucrados en el análisis.
estadística inferencial, que obtiene conclusiones
a partir de una parcialidad de los datos.
Enlista todas las medias de tendencia central, al
incluir la aritmética, ponderada,
geométrica, armónica, mediana y moda.
Obtiene la varianza con el promedio y
restándole a cada dato elevando el resultado al
cuadrado para después dividirlo entre el
número de valores.
Define los métodos heurísticos como el análisis
intermedio entre la optimización y los métodos
por intuición.
Aplica en método heurístico cuando no se
tienen los suficientes datos para realizar la
optimización contando solo con la experiencia y
algunas variables.
Logra un pensamiento causa - efecto
encontrando un objetivo, definiendo variables
Aplica el principio de los métodos de relación, generando ramificaciones entre las
heurísticos cuando no se tienen todos variables con el fin de lograr varios caminos de
*Métodos heurísticos
los datos necesarios para obtener un acción.
*Elaboración de árboles
modelo matemático, con el fin de Utiliza los árboles de decisión reflejando la
de decisión
obtener un modelo mental si no se causa y el efecto de acciones con el fin de
tienen todos los datos requeridos. analizar lo que se puede originar a partir de una
decisión, trazando con líneas los efectos a sus
posibles causas.
Obtienen las variables identificando los eventos
que componen el problema, priorizando los
indispensables para determinar los agentes que
interactúan en el.
Dibuja la longitud de las ramificaciones
dependiendo el nivel de profundidad que se
desea en el análisis.
Define a un histograma como un gráfico que
utiliza las barras donde el eje x se formarán
grupos de datos, y en
el eje Y se registran las ocurrencias o frecuencia.
Entiende la distribución en forma de campana
llamándola distribución normal o gaussiana.
Concatena histogramas por grupos generando
un histograma total de la problemática a atacar
donde cada barra hace referencia a otro
histograma.
Identifica los cálculos estadísticos mencionando
el promedio, las probabilidades subjetivas y los
histogramas.
Agrega en vectores los valores de los que se
*Análisis por histogramas
quiere obtener el promedio utilizando el
Aplica el método gráfico de histogramas *Cálculos estadísticos
comando C <- c(num1,num2,num3)
cuando éste fue definido previamente, con software
Utiliza las probabilidades subjetivas de cierto
para tomar decisiones según los sucesos *Cálculos estadísticos en
problema imprimiendo en pantalla con el
pasados. lenguaje de
siguiente comando plot(x, y, xlim = C(0,100),
programación
ylim = C(0,10), col = “blue”)
Calcula la desviación estándar de cierta gráfica
dentro del software de R con el siguiente
comando "d <- sd(x)"
Agrega al proyecto de Python las librerías de
Pandas, Matplotlib y numpy con el siguiente
comando "import pandas as pd"
Utiliza los métodos mean, std, median, var a un
set de datos con los siguientes comandos z <-
nombredelmetodo(set de datos)"
Utiliza el método hist de la biblioteca plt a un
set de datos con el comando
"plt.hist(setdedatos)" para graficar un
histograma.
Identifica las correlaciones mencionando que
directa es cuando la variable aumenta y la otra
también e inversa cuando una variable aumenta
y otra disminuye.
Asigna un grado de correlación fuerte del -1 al 1
utilizando los rangos como -1 a -0.6 correlación
inversa fuerte, 0.6 a 1 correlación directa fuerte.
Asigna un grado de correlación débil del -1 al 1
utilizando los rangos como -0.5 a 0 correlación
*Análisis por regresión inversa débil, 0 a 0.5 correlación directa débil.
Aplica el método de regresión lineal lineal Utiliza la ecuación general de la línea recta
cuando éste fue definido previamente *Regresión lineal con escribiendo y = mx + b para una correlación
para obtener un modelo que prediga software lineal.
eventos futuros según los datos *Regresión lineal en Obtienen el grado de correlación entre las
históricos. lenguaje de columnas de un set de datos en el software R
programación con el comando "cor(setdedatos)"
Toma las columnas del set de datos que tengan
mayor correlación ya sea inversa o directa
seleccionando las que se acerquen más a -1 o 1.
Calcula la relación lineal de las columnas
elegidas con el comando lm(col1, col2)
Instala pip en el proyecto de Python ejecutando
el comando de "Python get-pip.py"
Utiliza la regresión lineal en Python ejecutado el
comando de "data_model = sm.OLS(y,x2).fit()"
Define la interpolación escribiendo que solo se
puede realizar dentro de un set de datos
conocidos.
Aplica el método de extrapolación Explica la extrapolación mencionando que es la
*Ajustes al modelo de
cuando se usa el método de regresión inferencia de datos que se basan en los datos
distribución lineal
lineal para delimitar un modelo. conocidos.
Define la distribución residual como las
dispersión de datos entre mas grande la
distribución más dispersos están los datos.
Identifica la línea de tendencia como la
extrapolación de la línea recta resultado del
análisis de regresión lineal.
Evalúa los modelos Encuentra la distribución residual según Calcula el error cuadrático medio en el software
obtenidos mediante su fórmula matemática cuando se usan *Ajustes al modelo con de R con el comando de "e <-
pruebas cuando es gráficas de dispersión para definir un software summary(model)$sigma" de una regresión
posible para definir sus rango de error en el modelo obtenido. lineal.
errores y limitaciones Grafica el error cuadrático medio utilizando el
comando de "abline(b + e, m)" y "abline(b - e,
m)".
Agrega las librerías al proyecto de Python como
Numpy, matplotlib, statsmodels, pandas y math
con el comando de "import nombrelibreria as
Define el error cuadrático medio np"
*Ajustes al modelo en
cuando se quiere segmentar un gráfico Calcula el error cuadrático medio Python con el
lenguaje de
de dispersión para obtener modelos comando de "err = desvStd * math.sqrt(1 -
programación
más precisos según los requerimientos. cCor*cCor)" de una regresión lineal.
Grafica el error cuadrático medio utilizando el
comando de "plt.plot(points, m*points + (b +
err))" y "plt.plot(points, m*points + (b - err))".
Utiliza el framework de JavaScript importando la
librería en el archivo HTML de la página web.
Elabora gráficas online con ayuda de un
Entiende el lenguaje de notación JSON que
lenguaje orientado a objetos y un
marcando variables numéricas, strings y
sistema de etiquetado cuando sea *Despliegue de gráficos
arreglos de datos para la correcta graficación de
requerido, para mostrar los resultados en una página web
estos.
del análisis o mostrar resultados en
Ordena la información del JSON de tal forma
tiempo real.
que primero vaya el título, subtítulo, datos a
graficar, opciones del gráfico y color.
Evalúa los resultados que te haya arrojado
Presenta los resultados cualquiera de los métodos concluyendo en una
del análisis ante los toma de decisión o sugerencia para la mejora
dirigentes de una del problema en cuestión.
organización con Elabora reportes basados en la Explica la metodología que utilizaste paso a
*Conclusiones de un
reportes, tablas y metodología y los resultados para paso ante los líderes o socios del negocio para
análisis
resúmenes que comunicar las conclusiones del análisis. que entiendan los modelos resultado.
incluyen gráficas offline Comunica sus conclusiones siendo conciso y
y online según las directo, con palabras bien cuidadas y mostrando
buenas prácticas de gráficos contundentes que muestren mucho
visualización de datos conocimiento en una sola vista.
para comunicar los Prepara la presentación definiendo el objetivo
resultados del análisis de la misma tomando en cuenta si las personas
tienen algún conocimiento del tema o si debe
puntualizar en algún tema en general.
Elabora presentaciones ejecutivas
Divide la presentación en introducción para
cuando sean requeridas para comunicar *Elaboración de
captar la atención, desarrollo en la explicación
las conclusiones de su análisis según la presentaciones
de los temas y la conclusión para retomar los
metodología empleada y los resultados ejecutivas
resultados del análisis.
obtenidos.
Termina la presentación con una ronda de
preguntas, respondiendo de manera clara y
concisa con el fin de que todos comprendan el
análisis realizado.

También podría gustarte