Unidad 2 - Analítica - V1

UNIDAD 2.
Aplicaciones de la Analítica de Datos en la Dirección de Proyectos
Justificación
Una vez hemos logrado el enfoque Data-Driven en la unidad anterior, y hemos comprendido el
impacto de los datos en el entorno actual de los proyectos y las empresas, surge la necesidad de
profundizar en las aplicaciones, técnicas y herramientas que el decisor o líder puede utilizar en el
marco de sus necesidades para: optimizar sus recursos, tomar mejores decisiones y hacer un uso real
y tangible de la analítica de datos, es por esto que en esta unidad buscaremos profundizar en los
conceptos y las herramientas aplicadas que le permitan al participante encontrar recursos prácticos
y útiles para hacer de estas técnicas elementos de diferenciación mejorando la gobernabilidad de las
empresas y los proyectos.
Objetivo de Aprendizaje
Al finalizar la unidad, usted estará en capacidad de identificar los tipos de analítica de datos que
existen, el alcance y aplicación de cada una de estas perspectivas al marco de los proyectos y
empresas, así también los conceptos estadísticos generales y el impacto y rol de las tecnologías en
este ámbito, de igual forma buscaremos apropiar al participante con las mejores prácticas para la
consecución, obtención y gerenciamiento de datos.
Ruta de Aprendizaje
La ruta de aprendizaje de la presente unidad inicia entendiendo los tipos de datos qué existen;
enseguida se abordarán los conceptos y buenas prácticas para un gobierno adecuado de datos. Luego
se desarrolla el concepto de Analítica de Datos, su importancia, impacto y las acciones que un líder
tiene para llevar su organización a un estado deseado de gestión basada en datos. De forma
consecuente, exploraremos los tipos de analítica: descriptiva, predictiva y prescriptiva,
profundizando en sus alcances, definiciones y usos. Finaliza la unidad con la adopción de varias
habilidades digitales en la gestión de la analítica para el desarrollo de proyectos.
Como complementos de esta guía, encontrarán a lo largo del texto los enlaces que los llevarán a
ampliar los temas que se están tratando. Es importante que durante la lectura se vayan consultando
dado que están dispuestos por todo el escrito para reforzar o apoyar cada tópico desarrollado. No
deben confundirse con algunas frases o términos resaltados que aparecen en otro color y en negrilla
y sin subrayar.
Adicionalmente, en esta unidad encontrarán dos tipos de actividades que se denominan Actividades
de Aprendizaje y Actividades de Evaluación. Es importante que estas sean desarrolladas en su
totalidad por ustedes, puesto que contribuyen a su aprendizaje y formación.
Las Actividades de Aprendizaje fomentan su aprehensión del contenido. Estas puedes ser individuales
o colaborativas (grupales) por lo que invitan a la socialización de experiencias y a la discusión. Este
1
tipo de actividad tendrá realimentación sobre su ejecución por parte del tutor, pero no es
calificable/evaluable, es decir, no aporta una valoración numérica (nota). Las Actividades de
Evaluación también contribuyen a su proceso de aprendizaje, al tiempo que otorga una calificación
cuyos criterios se encuentran descritos en una rúbrica (matriz de evaluación).
Datos y Tipos de Datos
La analítica es una disciplina, una herramienta, que nace en la disposición y uso de datos para la toma
de decisiones. Siendo rigurosos con este concepto, es prácticamente nulo lo que podríamos realizar
sin datos. Por tal motivo, es imprescindible desarrollar competencias para entender
conceptualmente los tipos de datos qué se pueden encontrar o generar, diferencias entre ellos,
plantear qué tipo de datos requerimos y el uso de las tipologías de datos.
A pesar de que, puede parecer muy teórico, cuando el decisor de negocio desconoce los conceptos
asociados a los tipos de datos, puede encontrar algunas restricciones en el uso de ciertas tecnologías
y herramientas de visualización cómo lo son Power Bi o Tableau o también en lenguajes de
programación como lo es Python (se ampliaran más adelante en esta unidad). Así mismo, podría
limitar su entendimiento de conceptos más generales como el desarrollo de hipótesis o supuestos en
el campo del análisis predictivo. Por tales motivos, a continuación generaremos un esquema general
conceptual de ¿qué es un dato? ¿cuáles son los tipos de datos con los que nos podremos encontrar?
y sus principales características.
Un dato es la representación de una variable que puede ser cuantitativa o cualitativa que indica un
valor que se le asigna a las cosas y se representa a través de una secuencia de símbolos, números o
letras. Los datos describen hechos empíricos. Para examinarlos deben ser organizados o tabulados,
ya que un dato por sí mismo no puede demostrar demasiado sino que se debe evaluar el conjunto
para examinar los resultados (Editorial Etecé, 2020). Una variable es una característica de los
elementos u objetos que se estudian. Y los datos son los valores que se obtienen para cada variable.
Al conjunto de las mediciones obtenidas para un determinado elemento u objeto se le llama
observación. La estadística es la rama de la matemática que analiza datos obtenidos de diferentes
muestras representativas para conocer un fenómeno. Existen dos tipos de datos que se analizan en
la estadística, que deben ser procesados y enmarcados dentro de un contexto para generar
información (Editorial Etecé, 2020):
Datos cualitativos: Datos que responden a la pregunta ¿cuál? o ¿cuáles? y se representan con letras.
Comprenden etiquetas o nominaciones que identifican un atributo del objeto que se estudia. No
permiten realizar operaciones aritméticas. Por ejemplo: nombre, género.
Datos cuantitativos: Datos que están referidos a los números, requieren valores numéricos. Permiten
generar estadísticos numéricos: media, promedio, coeficiente de variación, etc. Por ejemplo: precio,
altura, edad.
Según Microsoft (2022) otras definiciones de los principales tipos de datos son las siguientes:
2
Número entero: Números que no tienen posiciones decimales. Los números enteros pueden ser
números positivos o negativos.
Número decimal: Los números reales son números que pueden tener posiciones decimales.
Texto: Una cadena de datos de caracteres. Pueden ser cadenas, números o fechas representados en
un formato de texto.
Fecha y Hora (calendario): Fechas y horas en una representación de fecha y hora aceptada.
Geografía: Hace referencia a datos d que incluyen longitud y latitud de alguna ubicación especifica.
El entendimiento de la tipología de datos permite al decisor comprender qué tipo de información

está utilizando o debe utilizar para un posterior análisis.
Buenas Prácticas para el Gobierno y la Administración de Datos
Para decidir con datos debemos recopilarlos correctamente, es el primer paso. A través de técnicas
de limpieza, perfilado de datos, integridad, completitud, conformidad, consistencia, precisión y
unicidad. Debemos contar además con herramientas estadísticas y de visualización, puesto que son
las herramientas necesarias para el tratamiento, integración y disposición de información en tiempo
real, lo que facilita en todo momento el cálculo de indicadores y la toma de decisiones a todos los
niveles de la organización. Además debemos contar con las mejores prácticas posibles al momento
de capturar la información a través de diferentes medios y canales, puesto que la calidad en la captura
y generación de la información incidirá categóricamente en el tiempo y la veracidad que implica la
obtención de la información clave para la aplicabilidad de la analítica de datos. Por tal motivo, a
continuación desarrollaremos 4 grandes ideas para mejorar la forma en que podemos acceder a la
información requerida, deberán trabajarse de manera integral, estratégica y conjunta con todos los
grupos de interés que dependan de proyectos de analítica de datos.
Idea # 1 – Elimine el uso del papel físico
La pandemia Covid – 19 generó en las

organizaciones una mejora del uso de papel
físico. El papel físico genera una condición
que va en detrimento de la captura de
información de calidad, agregando tiempos
y movimientos al uso de datos, puesto que
en la gran mayoría de situaciones implica
una digitación, que puede conllevar a
costos adicionales, tiempos y errores
humanos. Para que podemos obtener mejores datos, debemos erradicar el uso del papel físico y
propender por la utilización de tecnologías que capturen la información en momento que esta se
origina. El papel no permitirá registros y datos transversales, democratizados y generará una
3
reducción en la velocidad de información clave. Esto se convertirá en una actividad excluyente en el
caso que exista una condición legal para el uso de los papeles físicos.
Idea # 2 – Evite los silos funcionales
Los grandes exponentes de la

administración han desarrollado el
concepto de silos funcionales, para
expresar la dinámica común qué existe
entre las diferentes áreas de negocio y su
poca cohesión (haciendo un paralelo con
los silos de la agroindustria, dónde los
granos no se mezclan entre ellos), esto
implica que el desarrollo de una cultura de
datos y el uso apropiado de la analítica de datos estará sujeto a la integración de esos silos, debido a
que se trabaja en forma de áreas, dónde cada área tendrá y manejará sus propios datos,
sus propios indicadores, siendo improductivos, generando silos de datos, muchas veces impidiendo
lograr esa única verdad de negocio. Una estrategia muy común que puede implementarse es un área
centralizada para garantizar el gobierno de datos, quién se encargará del gobierno y el
gerenciamiento de los datos del proyecto o de la empresa, veamos a continuación las ventajas y
desventajas de esta idea.
Ventajas de la centralización de datos (Data Peers, 2021)
✓ Mayor organización: cuando toda la información de la empresa está ubicada en un

determinado punto, toda la actividad empresarial está más organizada. Es fundamental que
cada vez que llegue una nueva información ésta sea categorizada y organizada, facilitando
su consulta en el futuro. De este modo, el riesgo de pérdidas de datos es muy reducido.
✓ Mayor integración entre departamentos: la comunicación interna es esencial para el buen
funcionamiento de una empresa. Todos los sectores dependen de otros departamentos y es
necesario que exista una colaboración entre ellos. Todo está interconectado, por lo que hay
que establecer reglas para mejorar la comunicación. La centralización de datos permite la
unificación de la comunicación, lo que resulta en una mejor relación entre todos los sectores
de la empresa.
✓ Mayor conocimiento sobre los clientes: tener a su disposición todos los datos de los clientes
y el respeto histórico de compras es muy importante para percibir la relación que cada cliente
tiene con la empresa. Los datos recogidos se transforman en informaciones importantes para
una toma de decisión consciente y para trazar de forma inequívoca el perfil de cada cliente.
Con toda esta información disponible, es más fácil por ejemplo, lanzar campañas de
marketing y de ventas que resulten atractivas.
✓ Seguridad en las decisiones: cuando la información está sujeta a reglas de catalogación, los
datos se vuelven más fiables y los responsables de la toma de decisiones se sienten más
seguros a la hora de tomar decisiones. Si la información se encuentra dispersada por diversos
sistemas de datos, es muy probable que alguna información se pierda y complique las
4
decisiones tomadas, ya sea por datos errados o por información obsoleta. Cuando la
información está concentrada en un solo lugar, la información es más creíble y es más seguro
decidir por el éxito de la empresa.
Desventajas de no tener los datos centralizados
✓ Que cada departamento disponga de unos datos concretos y estos no estén compartidos con
las otras áreas de la empresa puede terminar convirtiéndose en un problema. Es un poco lo
que pasa cuando el equipo de marketing y el de ventas no trabajan de manera alineada o los
equipos de compras y producción, entre otras sinergias necesarias.
✓ Podría pasar que una determinada área incremente mucho su potencial, pero que por el
contrario, las demás áreas no siguieran el ritmo. De poco sirve que sepamos cómo vender, si
no tenemos la capacidad de producir lo que vendemos, o para financiar las inversiones
necesarias, o para formar a nuestros empleados.
✓ Si no disponemos de una estrategia conjunta, de todos los departamentos, un fallo en alguno
de ellos puede poner en riesgo a la empresa entera. Por tanto, tendremos una mayor
vulnerabilidad ante ciberataques y ante cualquier problema de protección de datos.
✓ También puede suponer problemas si contamos con un sistema de incentivos. Algunos
departamentos pueden reservarse información para su propio departamento afectando
directamente a los incentivos del tuyo.
✓ Problemas de ineficiencia. Si no hay coordinación dentro de la empresa, no sabremos si
alguno de los procesos es redundante o no.
✓ Perdemos la perspectiva. El hecho de centrarse mucho en determinadas áreas concretas
puede hacer que no tengamos suficientemente en cuenta el efecto que pueden tener
nuestras decisiones sobre el conjunto global de nuestra organización.
Idea # 3 – Implementación tecnológica
La tecnología juega un papel

determinante en el uso de la analítica de
datos, puesto que es la infraestructura a
través de la cual los datos se capturan,
se almacenan, se limpian y se disponen
para un posterior análisis. De las
principales barreras que las
organizaciones tienen, se encuentra el
hecho, de tener una estrategia pobre de
implementación y renovación tecnológica o no tenerla, lo que conlleva a situaciones tales como:
mucho uso de papel físico, Excel “dependencia”, uso de tecnologías obsoletas, viejas y lentas, data
silo, e islas tecnológicas. Este último elemento, cada vez más observado en las diferentes empresas,
significa el hecho de tener muchas tecnologías instaladas en la organización, pero muchas veces no
se encuentran integradas, están desalineadas generando problemas de articulación y traslado de
5
datos, centralización de datos, entre otras problemáticas técnicas. Por último, aún se observan
organizaciones que conviven con tecnologías mal implementadas o capacitadas, todo esto agregando
insumos para dificultades en el uso de datos para una mejor toma de decisiones.
Idea # 4 – Complejidad Organizacional
Por último se ha identificado que la

complejidad de las organizaciones afecta
el análisis de datos. Cuando en las
empresas se tienen muchos datos,
muchas referencias, muchos empaques,
indicadores, muchos procesos, muchos
pasos, etc. se genera un ecosistema el
cual limita el uso de los datos. Se ha
observado que la cantidad de
problemáticas que generar complejidad
en la organización, afecta directamente la calidad de los datos, aumenta la probabilidad de tener
lagos de datos, afecta la necesidad de mayores inversiones en tecnologías de almacenamiento,
genera mayores tiempos administrativos en la limpieza de datos, genera entornos de mayor dificultad
para transformar datos no estructurados en datos estructurados, entre otra gran cantidad de
problemas.
Hagamos las preguntas adecuadas: ciclo virtuoso del análisis de datos
El ciclo virtuoso del análisis de datos se entiende cómo el ciclo que el decisor debe desarrollar para
generarle valor agregado a los datos que obtiene al ejecutar sus procesos: vender sus productos,
obtener información de clientes, planificar un proyecto, ejecutar una compra, etc. Los datos son
registros digitales (en algunas circunstancias aún siguen siendo registros físicos), nada más. La forma
en que le generamos a los datos (o registros) un mayor campo de acción, una mayor utilidad, es a
través de un ciclo, llamado el ciclo virtuoso de la analítica, que se detalla a continuación:
Ciclo Virtuoso de la Analítica
¿Qué
¿Cuál es mi
¿Cuál es mi ¿Qué datos análisis le
respuesta o
pregunta? necesito? realizo a
conclusión?
esos datos?
Fuente: Desarrollo Propio del Autor
6
En primer lugar, debemos empezar con una pregunta (o preguntas), por ejemplo: ¿Cuál es de la edad
promedio de mis clientes? o ¿mis empleados en su mayoría son mujeres u hombres? o preguntas
más profundas y de mayores dimensiones ¿De qué depende qué un cliente compre mi producto?
¿De qué depende qué un proyecto sea exitoso en tiempo y costo? ¿Tendremos una próxima recesión
mundial? ¿Por qué una persona enferma de cáncer y cuáles fueron sus condiciones de vida que al
parecer generaron su enfermedad, existe algún patrón? las preguntas realizadas deben estar
asociadas a los intereses propios del decisor, al momento actual de la empresa, del negocio o de la
economía o de lo que se quiere investigar, en todo caso, las preguntas realizadas es el punto de
partida para comprender la utilidad de la analítica de datos. Siempre existe el interrogante, ¿cómo
puedo empezar a utilizar los datos y la analítica?, la respuesta es: empieza por una pregunta.
Para generar mayor ilustración, a continuación compartimos algunas preguntas típicas, qué una
empresa puede formular:
¿Qué factores favorecen la venta de este producto?
¿Cuánto contribuye, en porcentaje, cada familia de productos a la venta total?
¿Cómo ha cambiado dicho porcentaje desde el año pasado?
¿Cuáles son los productos que más vendimos ayer?
¿Cuánto vamos a vender el próximo trimestre?
¿Cuál es el estado de salud de mi empresa o proyecto?
¿Cómo se ha comportado el grado de satisfacción de mis clientes en los últimos años?
En segundo lugar, debemos identificar los datos o registros que se requieren para responder a la
pregunta, es el segundo paso del ciclo ¿qué datos necesito?; dependiendo de la profundidad, alcance
o complejidad alguna información será fácil de obtener, otra por el contrario, será más difícil; de igual
forma, algunos datos a requerir pudieran estar disponibles para su uso, otros por el contrario,
tendrán que obtenerse a través de fuentes directas o indirectas lo que supone en muchos casos
tiempo e inversiones. Así mismo, la información requerida para algunas preguntas es muy intuitiva
de identificar, por ejemplo, si queremos responder al interrogante ¿Cuál es de la edad promedio de
mis clientes?, será tan sencillo cómo buscar en la base de datos de clientes y realizar una extracción
de la edad, y realizar el cálculo del promedio (cuidado: esto parece sencillo, pero debemos garantizar
al menos la información básica de nuestros clientes cómo la edad, en algunos casos es información
que NO está disponible y debe obtenerse). Por el contrario, frente a preguntas tales cómo ¿cuánto
venderé el próximo trimestre? O ¿tendremos una próxima recesión mundial?, la información que se
requiere, dependerá de muchos factores: del conocimiento que el decisor tenga de ese fenómeno o
de esa variable a estudiar (ventas de ese producto o servicio o de recesiones mundiales), del acceso
que se tenga a información científica o indexada, o a fuentes de información estructuradas y abiertas,
7
o datos que tal vez infieran las variables o los datos que influyen en preguntas de ese estilo; en todo
caso, el decisor siempre tendrá la posibilidad de crear simulaciones, pruebas, ensayos, etc.; hasta que
su respuesta genere la mejor confiabilidad posible. No obstante, es importante reforzar en este
momento, que el acceso a la información que se va a requerir puede significar un momento de verdad
en el uso del análisis de datos, no es un tema menor, ni siquiera sencillo, es tal vez dónde mayores
esfuerzos se deben colocar asegurando la mejor y mayor información posible.
“Cuando los datos se utilizan para lograr una respuesta a un interrogante, se convierten en
información útil, antes de eso solo son registros”
A continuación, el decisor o su equipo de análisis de datos, utilizará diversas técnicas asociadas a las
disciplinas de las matemáticas y la estadística para hacer uso de esos datos y responder a la pregunta
inicial, aquí llegamos al tercer paso del ciclo virtuoso ¿Qué análisis le realizo a esos datos?, la
integralidad del conocimiento técnico permitirá al decisor definir y seleccionar aquella técnica o
técnicas que mejor se adapten para solucionar las preguntas propuestas. Partimos de la condición
que todos los datos requeridos (punto anterior) ya se encuentran disponibles. Es habitual que una
aplicación o solución incluya varios conceptos, inclusive en algunos casos, se requerirá de cierta
profundidad en el conocimiento para llegar a una respuesta o solución, en este caso se hacen dos
recomendaciones: 1) profundizar en el conocimiento de las técnicas asociadas al análisis numérico,
o 2) contratar un equipo especializado. Aquí es importante que rompamos un paradigma tradicional
sobre este momento de verdad. Los líderes de negocio que quieren profundizar en el uso de la
analítica de datos deben ser conscientes que se trata de una disciplina que enmarca y emerge de las
tradicionales técnicas de análisis de datos (conceptos que nacen en las matemáticas, la estadística y
el análisis cuantitativo), no se trata cómo piensan algunos, de una aplicación puramente tecnológica,
o peor aún, de algo “milagroso”.
Por último y para terminar el ciclo debemos llegar a las respuestas o conclusiones que permitan dar
solución a los interrogantes inicialmente planteados. Estas respuestas deberán cumplir con las
mejores condiciones de calidad, de validez estadística, de pruebas de hipótesis, de confiabilidad,
entre otras; pero también deberán estar relacionadas con la realidad del negocio o del proyecto, una
de las grandes criticas (o deficiencias) que se le atribuye a la analítica de datos y a las personas que
trabajan en ella, es su habitual desconexión en el negocio o el desconocimiento de la características
del fenómeno o proceso en estudio, es muy importante mantener una relación adecuada entre el
uso de los datos y su aplicabilidad a través del conocimiento y la experiencia del decisor, son dos
elementos que siendo tratados de manera independiente generan menos valor, qué si fueran
tratados de manera conjunta. De las situaciones lamentables que pueden generarse, está el hecho
qué un proyecto de análisis de datos, que ha consumido tiempo y esfuerzo, no responda a la pregunta
adecuada por no estar contextualizado a la situación empresarial o social por desconocimiento o
desalineación de las personas o de los grupos de interés, es decir, obtener comentarios tipo “esa
8
solución aquí no aplica por que la norma no lo permite”, “esa información no aplica a nuestro modelo
de negocio”, entre otros.
Tipos de Analítica de Datos
Saber interpretar los datos es un gran desafío para todas las empresas. Existen 3 tipos de análisis que
pueden hacerse para llevar a cabo esta tarea de manera efectiva. El ambiente competitivo de los
últimos años se ha caracterizado por la utilización de estrategias para entrar en la ola de la
transformación digital. Esto ha hecho que las empresas tomen medidas para no reducirse a nichos
de mercado muy pequeños o incluso enfrentar la desaparición de su organización. En este contexto,
hay un elemento clave que guía el éxito o el fracaso de la implementación de estas estrategias: la
toma de decisiones basada en el análisis de los datos en contexto. A continuación veremos los 3 tipos
de análisis de datos que emplean las organizaciones para guiar la toma de decisiones informadas.
Análisis descriptivo, predictivo y prescriptivo (Mesa, 2021).
Fuente: El Arte de Medir (2022)
Analítica Descriptiva
El análisis descriptivo se utiliza cuando la organización tiene un gran conjunto de datos sobre eventos
pasados o sucesos históricos. Para que estos datos sean útiles, deben simplificarse y resumirse con
el fin de que sean entendibles para la audiencia a la que se quieren comunicar. Normalmente el
análisis descriptivo parte de un gran conjunto de datos que a simple vista no ofrecen mucha
9
información, pero que, al utilizar aplicaciones de software para su tratamiento (limpieza,
ordenamiento, transformación, visualización), permiten expresar de una forma comprensible lo que
ha venido pasando en las organizaciones. Con esta información se toman acciones que se adapten a
los objetivos de la empresa. Un ejemplo de ello es toda la información de compras que recolecta una
cadena de supermercados por día. Si solo se observan los cientos de miles o millones de registros
que se producen diariamente, se dificulta saber cómo ha operado el negocio respecto a ciertos
atributos. Por eso es importante utilizar herramientas de análisis descriptivo. Con ellas podremos
saber, por ejemplo, el top de los productos que mejor se han vendido, en qué áreas geográficas se
han vendido mejor ciertos artículos o si las campañas de mercadeo fueron exitosas en comparación
con otras anteriores. Y, con esos datos, la organización puede planear más efectivamente sus
inventarios. Otro ejemplo sería el otorgamiento de crédito de consumo, un proceso de negocio que
es automatizado. Con el análisis descriptivo de datos podríamos saber cuántas solicitudes ha
procesado la plataforma, cuántas de estas solicitudes han resultado en un desembolso, cuántas
fueron rechazadas por cada tipo de causa, cuál es el tiempo promedio que ha durado cada actividad
del proceso o cuántas han sobrepasado el tiempo estipulado para completarlas. De este modo la
organización puede medir cómo ha estado operando el proceso y así desplegar acciones de mejora
que le ayuden a cumplir sus objetivos. El análisis descriptivo de datos es el tipo de análisis que está
presente en la gran mayoría de organizaciones y por el que normalmente se comienza. En este tipo
de análisis es común observar tableros de control, gráficas de barras, gráficas de pasteles, infografías
entre otros (Mesa, 2021).
Las ventajas del análisis descriptivo son (QuestionPro, 2022) :
- El decisor tiene un alto grado de objetividad y neutralidad.

- Se considera expansivo en comparación con otros métodos cuantitativos y ofrece un amplio
panorama de un fenómeno.
- Es el mejor método para la recolección de datos que describen las relaciones y exhiben el
mundo real.
- El conocimiento del análisis descriptivo ayuda a la comprensión de un tema y a interpretar
los resultados de modelos estadísticos más complejos a modelos simples.
- Este tipo de estudio da al decisor la flexibilidad de utilizar tanto datos cuantitativos como
datos cualitativos para descubrir las características de la población.
Las desventajas del análisis descriptivo son:
- La confidencialidad y la falta de veracidad de los encuestados es una de las principales

deficiencias del análisis descriptivo (puede caerse en problemas de sesgos de decisión –
unidad 1).
- Si el decisor escoge sólo la información que apoya su pregunta e ignora la parte de los datos
que no encajan, puede conducir a sesgos y errores en las decisiones.
- Es difícil generalizar sobre la base de un solo caso y sacar conclusiones generales.
- Para que se dé mayor utilidad debe acompañarse de un programa de visualización de datos.
10
Lecturas recomendadas complementarias:
https://rockcontent.com/es/blog/visualizacion-de-datos/
https://datavisualization.ch/showcases/
https://realestatemarket.com.mx/mercado-inmobiliario/23259-beneficios-de-los-datos-abiertos
https://www.sas.com/es_co/insights/big-data/data-visualization.html
Dentro del análisis descriptivo, además de las estrategias y herramientas de visualización

previamente comentadas (unidad 1), es usual utilizar la estadística descriptiva y realizar análisis
numéricos básicos para “describir” patrones, fenómenos y comportamientos de los datos. De igual
forma es natural que el uso y análisis de indicadores de gestión en un proyecto o empresa, se
contextualice como una de grandes formas en que el decisor puede utilizar el análisis descriptivo.
No obstante, no solo el uso de estadísticas descriptivas básicas puede apoyar el uso de la analítica
descriptiva, sino que también nos podemos apoyar de otras teorías numéricas, ampliamente
conocidas, para encontrar respuestas a preguntas (recordar ciclo virtuoso de la analítica) en dónde
se busque “describir” algún fenómeno, proceso de negocio o actividad. Por ejemplo a continuación
vamos a hacer uso de una de estas teorías para ejemplificar lo aquí mencionado.
En 1906, el economista italiano Vilfredo Pareto creó una fórmula matemática para describir la
distribución desigual de la riqueza en su país, observando que el 20% de las personas poseían el 80%
de la riqueza. Ya en los años 40 el Dr. Joseph M. Juran atribuyó la regla del 80/20 a Pareto, llamándola
"Ley de Pareto". Como resultado, la observación del Dr. Juran sobre el principio de que "20% de algo
siempre es responsable del 80% de los resultados se conoció como Ley de Pareto o "Regla del 80/20“:
Significa que el 20% de algo es esencial y el 80% es trivial.
Veamos con un ejemplo práctico cómo describir esta distribución:
11
Veamos el ejercicio arriba planteado. Estos datos corresponden al histórico de compras de un
proyecto. Para simplificar el ejercicio, se han colocado las referencias de manera genérica: A, B, C…
etc. Supongamos por ejemplo que hacen referencia a elementos de fabricación, de construcción,
dotación o cualquier otro elemento que haya sugerido una compra. Así mismo, se han colocado los
datos de la cantidad utilizada de cada referencia y su costo unitario de compra. A partir de estos
datos, surge la pregunta ¿cuál es el 20% de las referencias que concentra el 80% de gasto del
proyecto?
12
Lo primero que realizamos es multiplicar las cantidades que se consumieron o gastaron o compraron
(aunque también se puede hacer en un enfoque de planeación de gastos, es decir estas cantidades
serían las cantidades que se planifican comprar o gastar). Se puede observar en la columna D la
multiplicación de la columna C y la columna B (cantidades x costos unitarios). Luego se despliega para
todos los datos la misma operación. Por último se totaliza la cantidad comprada en valores
monetarios como se observa en la siguiente imagen:
13
A continuación, se calcula el porcentaje del total, dividendo el precio total de compra entre el total
comprado (valores de la columna D entre el total).
De manera tal que ahora podemos en la pestaña datos ordenar los valores a partir del siguiente
criterio:
Ordenar por -> % del total
Ordenar según -> valores de celda
Orden -> mayor a menor
14
Los datos deben quedar ordenados de la forma en que se observa a continuación:
15
Ahora realizamos el porcentaje acumulado, qué se desarrolla vinculando el primer resultado de la
anterior columna y luego iremos sumando los valores (el que traigo más el nuevo porcentaje que me
aparece), para concluir en una acumulación de las frecuencias relativas y llegar el 100%.
16
Por último, realizamos una gráfica de líneas (entre la primera y la última columna de los datos) y
analizamos cómo la distribución de Pareto que buscábamos se describe. El 20% de los insumos
comprados, concentra el 80% del valor gastado, dónde podemos comprobar que muy pocos
elementos concentran mucho impacto. Este mismo análisis descriptivo se puede utilizar en otros
aspectos por ejemplo: identificar el 10% de clientes que concentran el 80% de ventas, comprobar
17
que en un proyecto 20% de las actividades generan el 80% del costo y el tiempo o que en una
organización 20% de los empleados gana el 80% de la nómina y así sucesivamente.
Analítica Predictiva
En este espacio hablaremos sobre la analítica predictiva. La analítica predictiva también es llamada
Machine Learning. Comencemos con lo que parece una pregunta realmente sencilla: “¿Qué hace a
alguien feliz en el trabajo?”. Tal vez estés pensando: “Bueno, todo se reduce al salario”. Mientras más
dinero le des a alguien, más feliz estará. Pero entonces, ¿qué tanto salario es el nivel ideal? En
Colombia, por ejemplo, un buen salario es de 8.000.000 de pesos colombianos (supongamos). Podrías
pensar que cualquier salario mayor de 8.000.000 de pesos colombianos no marca demasiada
diferencia. Luego obtienes una curva identificando que a mayor salario el crecimiento progresivo de
la felicidad es una relación probable. No es una clara relación lineal: ¿más dinero significa más
felicidad?. Después de determinado punto, el dinero extra no marca demasiada diferencia en
realidad. Y, entonces, alguien puede preguntar: “¿Y qué hay de un académico o un enfermero?”.
Estas son personas que realizan su trabajo no necesariamente por dinero. Así, es probable que para
esas personas en particular, el dinero no marque tanta diferencia. Por tanto, no se trata solo de que
más dinero significa más felicidad. Hay también una interacción con el individuo que está ganándose
el dinero. Algunas de estas personas sienten que están haciendo algo valioso más allá del dinero. Y
entonces dices: “Bueno, ¿y qué hay del lugar donde vive la gente?”. Tal vez alguien estará más feliz
trabajando cerca del mar, porque es un lugar lindo y soleado, que otra persona. Pero, entonces,
sabemos que algunos prefieren el calor, mientras que otros prefieren el frío. Lo que parece ser una
relación muy sencilla, “más dinero” o “mientras más caluroso, mejor”, se vuelve de pronto
complicada, y depende de la persona. Depende de lo que le importe. Las relaciones no son lineales.
Todas estas cosas interactúan juntas y hacen que una pregunta muy sencilla (“¿un nuevo empleado
estará feliz de trabajar para mí?”) se vuelve de pronto una pregunta sumamente complicada para
fines de predicción. De eso se trata la analítica predictiva. De eso se trata el machine Learning o
también llamado aprendizaje automático.
Se trata de tomar muchísimos datos e intentar hacer una predicción a partir de una relación, lo más
confiable posible. Especialmente en situaciones donde todos estos datos están interactuando juntos,
las relaciones no son lineales y no está claro qué lleva exactamente a qué. Lo único que hace es tomar
muchísimos datos y hacer una predicción con la mayor exactitud posible. No intenta entender la
predicción. No intenta responder por qué podemos predecir este resultado o cómo funciona
realmente. Lo único que hace es tomar muchos datos, meterlos en esta caja negra llena de
algoritmos, predecir y relacionar con la mayor exactitud posible. Pero resulta que esta capacidad para
hacer predicciones es una característica increíble porque puede usarse en diversas situaciones.
Un ejemplo que puede ayudar a entender con mayor claridad este tema, puede ser la necesidad de
un banco, sobre la inquietud si alguien pagará su préstamo; esa podría ser un área. Pero incluso en
otras áreas, como “¿de qué es esta foto?” o “qué objeto está en una foto?”, hay detrás mucho
18
machine learning, que dice: “Bien, a partir de todos los datos, a partir de todos los pixeles, a partir de
la brillantez en los colores de cada pixel, puedes tomar todos esos millones de datos y predecir que
se trata de la foto de un caballo o se trata de la foto de una cabra”. Otro ejemplo es el de los chatbots.
Tal vez pienses que esto se reduce a hablar con un chatbot que emplea mucha inteligencia artificial
sofisticada para que el bot trate de entender qué está diciendo alguien o cómo responder a su
pregunta. En realidad, gran parte de lo que está haciendo el chatbot tras bambalinas es predecir
literalmente la siguiente palabra a mostrarse en la pantalla. Está escribiendo una frase, palabra por
palabra. “Mi nombre es…” Y entonces, la respuesta más probable después de eso es David. En algún
momento has comenzado a escribir un aprendizaje de texto en un teléfono y, después, elegiste la
respuesta sugerida para completar tu mensaje. En esencia, eso es lo que un chatbot está haciendo:
predecir palabra por palabra.
Algunos especialistas en estadística no tienen muchos afectos al machine learning porque, dicen, su
profesión consiste en probar hipótesis. “Pensamos que X está relacionada con Y. Probemos eso”. Se
trata de extraer el mayor número posible de diminutos trozos de información a partir de los datos
para hacer nuestra predicción. Esto significa que la máquina está prediciendo que determinada
persona no pagará el préstamo. ¿Y sabes por qué esto es así? ¿Es por la cantidad de ingresos que se
pueden obtener? ¿Por la cantidad de créditos pendientes? Las respuestas a todas estas cosas se
mezclan, dando como resultado una predicción muy buena y acertada. Pero puede resultar difícil
entender exactamente por qué se ha hecho así. Eso tiene sentido para los expertos en machine
learning porque a veces, una regla muy compleja solo se aplica a un grupo o un nicho. A nadie más.
Y la capacidad para reflejar esa regla compleja en su ecuación les permite predecir qué ocurrirá
después en forma tal que, si tomas un modelo más sencillo para probar una hipótesis, este no captura
las complicaciones del mundo real.
En una investigación, por ejemplo, una de las cosas que se observó fue a quiénes les gustaban varias
bandas. Una de esas bandas eran los Beatles. Uno de los psicólogos, que estaba viendo la
personalidad de las personas a las que les gustaban los Beatles, observó que quienes tienen menos
de 26 años tienden a una mayor preferencia por los Beatles. Tienden a ser bastante extrovertidos.
Pero las personas mayores de 26 años a quienes también les gustan los Beatles no tienden a ser
extrovertidos. Por lo tanto, no hay relación. Frente a este hecho puedes pensar que esto tiene que
ver con que la música de los Beatles es popular para la generación más vieja. Esto no es algo que
necesariamente se reproduzca a diario en las principales estaciones de radio o plataformas de
streaming populares. Eventualmente, solo pudo pasar que la gente más extrovertida estuvo
investigando más a fondo para encontrar estas piezas musicales clásicas.
Cuando desarrollas un modelo de machine learning, no puedes entender de inmediato cómo se

obtienen exactamente las relaciones y las predicciones, lo que significa que a veces debes
experimentar con tu propio modelo para descubrir cómo funciona. La única forma de descubrir por
qué tu modelo de machine learning ha predicho la respuesta a la pregunta de si pagarás un crédito
es probando muchísimos datos distintos. Imagina: “¿Qué diría el modelo si yo ganara anualmente
10.000.000 de pesos colombianos adicionales? ¿Qué diría el modelo si viviera en un sitio diferente?”.
Terminas experimentando en tu propio modelo, de manera similar a experimentar en el mundo real,
19
para tratar de descubrir cómo funciona esto en realidad. El machine learning ha resultado tan eficaz
que algunos aseguran: “Bien, esto debería ser el final de la teoría”. Ya no necesitamos a la teoría. No
necesitamos desarrollar científicamente muchas teorías para decir: “He aquí lo que va a ocurrir”. Y
es que los datos nos dan una mejor predicción, aun cuando no los entendamos en función de lo que
indica la teoría.
Entonces, ¿Qué están haciendo los expertos en machine learning en el día a día? Una forma de
concebir lo que están haciendo es ver cuando compiten entre sí. Y un ejemplo de eso fue el precio
de Netflix (Universidad de Cambridge, 2017). En 2006, Netflix anunció al mundo que cualquiera que
pudiera mejorar en 10% su algoritmo de recomendaciones de películas se ganaría un millón de
dólares. En esencia, Netflix dedujo que si estos expertos podían hacer mejores recomendaciones, si
podían hacer recomendaciones 10% más precisas, esto tendría un valor superior a un millón de
dólares. Entonces, Netflix puso algunos datos a su disposición. Y dijo: “Quien nos traiga un algoritmo,
obtiene un millón de dólares”. La forma como funcionó la competencia es que Netflix liberó datos de
entrenamiento al público con base en 100 millones de calificaciones de 17,000 películas hechas por
casi medio millón de personas. Cada calificación va de una a cinco estrellas. Y, básicamente, la
pregunta es: considerando que los usuarios han calificado las distintas películas que vieron en Netflix,
¿se puede predecir cómo van a calificar la siguiente película que se exhiba? Si se exhibe, digamos,
“Misión imposible”, ¿qué calificación le darían? Y, en consecuencia, Netflix puede decir: “Si la
calificación que predijeron es sumamente alta, recomendemos esta película a este usuario porque,
cuando la vea, muy probablemente la disfrutará”. Es importante mencionar que Netflix conserva
también un conjunto de pruebas relativas a 1.4 millones de calificaciones que no se liberan al público.
Y lo que hacen es que, cuando envías un nuevo algoritmo, Netflix compara la capacidad de tu
algoritmo para predecir las calificaciones en ese conjunto de pruebas de los usuarios. Y eso te indica
lo siguiente: “En vista de que hemos conservado algunos datos, ¿qué tan preciso es el algoritmo con
estos nuevos datos, con esto que ese algoritmo no ha visto antes?, finalmente, Netflix conservó otro
conjunto de pruebas, con 1.4 millones de calificaciones adicionales. Y lo conservó para determinar a
los ganadores del premio. Al término de la competencia había un conjunto final de datos que se
conservó en completo secreto y nunca se usó. Y esto se emplea para determinar qué persona ha
mejorado el algoritmo en 10%. He aquí lo que ocurrió. La competencia inició el 2 de octubre de 2006.
Seis días después, un equipo ya había vencido los resultados de los algoritmos de Netflix. En los
primeros meses había varios equipos. Cabe resaltar a un equipo de la Universidad de Toronto,
encabezado por el profesor Geoffrey Hinton, conocido como uno de los padres de las técnicas
modernas de las redes neuronales. Había también otro equipo, llamado BellKor, que pronto
sobresalió: después del primer año, obtuvo el premio por sus progresos, venciendo al algoritmo de
Netflix en aproximadamente 8.5%. Por ser líder después del primer año, BellKor ganó un premio de
50,000 dólares. Al año siguiente, este equipo se unió con otro, BigChaos, conformado por científicos
austriacos, y juntos crearon un nuevo equipo llamado BellKor y BigChaos. Después del segundo año,
el siguiente premio de 50,000 dólares por los avances se fue a este equipo mezclado. En el tercer
año, cada equipo superó en más de 9% al algoritmo de Netflix. Y cada año había que subir al menos
1%. Este tercer año tenía que ser el último. Lo que ocurrió fue que el 26 de junio, el equipo conjunto
de BellKor se unió también con otro equipo llamado Pragmatic Theory para formar un nuevo equipo,
20
Pragmatic Chaos de BellKor, el cual superó en 10.05% al conjunto de pruebas. Este segundo conjunto
de datos se guardó, porque el equipo rebasó el límite de 10%, con lo que se activó una cuenta
regresiva. Los equipos tenían 30 días para enviar sus algoritmos finales, y después de ese lapso, el
equipo con el mejor algoritmo ganaría un millón de dólares. El 27 de julio, otro equipo llamado
Ensemble desarrolló una mejora que resultó 10.09% superior al conjunto de pruebas. Y desde
entonces hasta la fecha límite, ambos equipos siguieron enviando nuevos algoritmos. El equipo
ganador sería aquel con los mejores resultados en este conjunto final. En septiembre, Netflix anunció
que el equipo ganador era Pragmatic Chaos de BellKor, que se hizo acreedor a un millón de dólares.
Pero resultó que ambos equipos tuvieron un desempeño idéntico en este conjunto secreto final. Sin
embargo, el equipo de BellKor envió su algoritmo 20 minutos antes que el otro equipo. Venció por
solo 20 minutos de diferencia después de una competencia de tres años. Eso es esencialmente lo que
están haciendo los equipos. Están compitiendo unos contra otros para tratar de predecir los datos
secretos con la mayor precisión posible. No obtienen premio alguno si su algoritmo es muy elegante
o si funciona más rápidamente. La clave es: ¿predice los datos con la mayor precisión posible? Y, a
veces, la mejor manera de predecir los datos es reuniendo muchísimos algoritmos diferentes.
Fuente: Premio Netflix (Netflix, 2006)
Estos equipos juntos tenían algoritmos diferentes, de manera que, al reunir múltiples algoritmos y al
obtener un promedio de las distintas predicciones de cada algoritmo, se vio que era mejor estar
juntos que tomar un solo algoritmo. En esencia, con un algoritmo lo suficientemente complicado y
con los datos necesarios, es posible predecir cualquier cosa. Imagina que tengo a 1,000 personas,
pero también tengo 1,000 puntos de datos. Puedo decir: “Bien, si el punto de datos es como esto y
el punto de datos es como aquello, entonces los resultados de esta persona son como los de la otra.
Y si construyo una cadena lo suficientemente larga de oraciones condicionales (“si… entonces”),
siempre puedo predecir para todos en mi conjunto de datos absolutamente cualquier cosa que estoy
21
tratando de predecir. Básicamente estás construyendo a la perfección un algoritmo adecuado para
el conjunto de datos que estás desarrollando, pero es improbable que sirva para un nuevo conjunto
de datos. La pregunta clave para el machine learning es siempre ¿qué tan certeramente puedes
predecir datos que nunca has visto?
No se trata de profundizar demasiado en las matemáticas, sino de intuir cómo funcionan. Un aspecto
clave que se aplica para todos estos algoritmos es que, con el machine learning, la construcción del
modelo es normalmente lenta en un inicio. Pero, una vez que lo has construido, hacer una predicción
resulta rápido. Cuando escuchas que Google, Facebook o Amazon echan a andar su machine learning
con grupos de computadoras, eso indica que están entrenando el modelo. Cuando están
construyendo su modelo, eso indica que, a partir de estos puntos de datos se hará determinada
predicción. Es un proceso largo que incluye muchas pruebas y muchas matemáticas para que esto
funcione, y las computadoras requieren mucho tiempo para echarlo a andar. Una vez con el modelo
construido, esto correrá prácticamente en cualquier parte. Facebook tiene un algoritmo que
reconoce que hay en una foto, y una forma en que han puesto esto en práctica es mediante un
teléfono móvil. Y luego se lee en voz alta qué está viendo la cámara. Lo anterior resulta útil para los
ciegos que recorren un centro comercial, mientras que, anteriormente, ir de compras era muy difícil
para ellos, porque no pueden ver qué hay dentro de las latas y tampoco pueden tocar las cosas. Pero
es posible que el teléfono les diga: “Estás viendo plátanos” o “estás viendo frijoles” y,
consecuentemente, eso les facilita el recorrido. Es importante mencionar que el entrenamiento no
tiene lugar en el teléfono móvil, dado que correrlo tomaría una eternidad, pero un modelo que se ha
creado se representa después en un teléfono móvil donde se echa a andar muy rápidamente, casi de
inmediato.
Hablemos ahora sobre la regresión. Comencemos con el caso más sencillo, con la regresión lineal
simple. Esto consiste esencialmente en tomar un predictor, una variable independiente y una variable
de resultado o variable dependiente. Y hay que predecir la variable de resultado a partir de la variable
predictora con la mayor precisión posible. En la práctica, esto termina siendo bastante similar a una
correlación. Si tu finalidad es predecir si alguien pagará su tarjeta de crédito con base en sus ingresos,
puedes recurrir a una línea sencilla que indica que, mientras más ingresos tenga alguien, mayor será
la probabilidad de que pague su tarjeta de crédito. Esto nos lleva después a la siguiente etapa, que
es la regresión múltiple. De hecho, si estás tratando de predecir con exactitud si alguien pagará su
tarjeta de crédito, esto no se basa solamente en su ingreso. Probablemente se basa en su lugar de
residencia, en el monto del crédito que adeuda, ya sea que en el pasado haya reembolsado o no el
crédito, etc., etc. Entonces, hay muchos predictores que pueden ser útiles para predecir este
resultado, para predecir la probabilidad de que esa persona pague su crédito. Esta es la regresión
múltiple, es decir, cuando tenemos muchos predictores y solo una variable dependiente. La forma
como esto funciona es, básicamente, partiendo de una conexión lineal entre un predictor y un
resultado. Después agregas eso a una conexión lineal por separado entre una variable diferente y un
resultado. Y entre ambas deberían reducir la cantidad total de ruido o error, de modo que, al juntar
estos predictores lineales, terminas con una mejor predicción de la variable de interés.
22
Cuando ejecutas un análisis de regresión, terminas con una ecuación de regresión con la que obtienes
un conjunto de coeficientes beta. La regresión te da una ecuación. Por ejemplo, Y (el resultado que
te interesa en la predicción) es igual a beta del intercepto. Esto ocurre cuando se cruza la línea de
cero más beta por la variable 1 más beta por la variable 2 más… y así sucesivamente, hasta que has
cubierto todas las variables que se están usando para predecir este resultado. En términos prácticos,
tomemos la probabilidad de reembolsar un crédito con base en los ingresos de alguien y el monto de
crédito que adeuda. Una probabilidad de reembolso para el momento en que corres tus datos a
través de una regresión podría depender de nuestro intercepto. Las personas especializadas en
machine learning con las que trabajo emplean la regresión como modelo de punto de partida. Cuando
obtienen algunos datos nuevos, lo primero que hacen es correr una regresión para ver con qué
precisión algunas relaciones lineales entre los predictores y los resultados pueden predecir los
resultados de interés. Y luego echan a andar modelos de machine learning más complicados para ver
si pueden mejorar este punto de partida. Si no puede haber regresión, entonces algo están haciendo
mal. Sin embargo, la regresión sigue usándose para investigaciones de vanguardia. Por ejemplo, con
sus tendencias de búsqueda del término “influenza”, Google se preguntó: “¿Podemos usar nuestros
datos de búsqueda para predecir los datos sobre la influenza de los Centros para el Control de
Enfermedades (CDC)?”. La idea era saber qué tan mala sería la temporada de influenza este año,
cuántas vacunas distribuir y, por lo tanto, si los médicos trabajarían bajo estrés. Y Google dijo: “Bien,
tomemos las consultas de búsqueda porque eso nos dará más datos de último minuto sobre lo que
está ocurriendo realmente en cuanto a la influenza que los datos provenientes de los médicos”. Y es
que a veces dejas pasar una o dos semanas antes de acudir con tu doctor. Estos datos están siempre
desfasados. Google descubrió que, usando una regresión en la mayoría de las 45 consultas de
búsqueda relacionadas –por ejemplo, gente buscando antibióticos o remedios para la influenza–,
pudo predecir los datos, advirtiendo una o dos semanas antes que los CDC. Por ende, pudo decir de
manera más precisa bajo cuánta presión estaría un doctor en este momento, en lugar de trabajar con
datos históricos.
Cuando le pidas a tus científicos de datos que predigan algo que sea de valor para tu negocio, lo que
harán en esencia es retirarse, tomar los datos de entrenamiento y correrlos a través de varios
algoritmos de machine leaning –de regresión, de árboles de decisión, de bosques aleatorios, de
máquinas de soporte vectorial– para ver cuál parece ser el más efectivo. Para ellos es muy difícil ser
capaces de decir con anticipación: “Aquí está el modelo. Si lo corres, definitivamente va a predecir el
resultado”. Habrá una buena cantidad de ensayos y errores mientras se intentan distintas cosas para
ver cuál parece ser la más efectiva. Y esa es una ventaja del enorme poder de cómputo con el que
contamos ahora. Gracias a ello es posible probar muchas cosas para ver cuál funciona. Sin embargo,
estos modelos clásicos, que han sido sustituidos en los últimos diez años por las redes neuronales,
no parecen funcionar tan bien con los problemas para los que son buenos los humanos. Los humanos
son buenos en cosas como reconocer qué hay en una foto o entender un fragmento de texto. Y las
redes neuronales parecen sobresalir en esa clase de habilidades humanas.
Recursos Adicionales Sugeridos
https://www.bbva.com/es/machine-learning-que-es-y-como-funciona/
23
http://www.r2d3.us/visual-intro-to-machine-learning-part-1/
https://www.kdnuggets.com/2017/08/ibm-top-10-machine-learning-use-cases-part1.html
https://opendata.cityofnewyork.us/
http://mbtaviz.github.io/
A Friendly Introduction to Machine Learning
https://www.youtube.com/watch?v=IpGxLWOIZy4
https://www.youtube.com/watch?v=QBbC3Cjsnjg
https://www.youtube.com/watch?v=edZ_JYpOM8U&t=938s
https://www.youtube.com/watch?v=Gv9_4yMHFhI&list=PLblh5JKOoLUICTaGLRoHQDuF_7q2GfuJF
Analítica Prescriptiva
Demos un paso atrás para analizar la definición de análisis descriptivo y predictivo antes de pasar al
análisis prescriptivo. El análisis descriptivo es una rama de las estadísticas que examina datos
históricos para generar información para una mayor investigación. Puede descubrir las razones detrás
de los éxitos y fracasos del análisis descriptivo empleando técnicas de minería de datos. El análisis
predictivo es el proceso de combinar datos históricos con algoritmos para pronosticar resultados. El
análisis prescriptivo, por otro lado, es un tipo de análisis de datos en el que la tecnología se utiliza
para ayudar a las empresas a tomar mejores decisiones mediante el análisis de datos sin procesar. El
análisis prescriptivo tiene en cuenta información sobre situaciones o escenarios potenciales, recursos
disponibles, desempeño anterior y desempeño actual para recomendar un curso de acción o
estrategia. Se puede utilizar para emitir juicios a lo largo de una amplia gama de marcos de tiempo,
desde el inmediato hasta el largo plazo. La analítica prescriptiva es el polo opuesto de la analítica
descriptiva, que analiza las decisiones y los resultados una vez que han ocurrido. El análisis
prescriptivo está relacionado con el análisis predictivo, que implica el uso de estadísticas y modelado
para pronosticar el desempeño futuro basado en datos presentes y pasados. Sin embargo, va un paso
más allá; aconseja una ruta futura basada en el pronóstico del análisis predictivo de lo que es probable
que suceda (Roy, 2022).
Con el análisis prescriptivo, la inteligencia artificial se pone al servicio de la estrategia de una manera
más dinámica y sofisticada, yendo más allá de proporcionar panoramas descriptivos y predictivos. En
función de múltiples factores, se indican los mejores caminos a seguir y el posible impacto de
diferentes variables. En otras palabras, con este tipo de análisis evaluamos las decisiones en
escenarios futuros, como el impacto que puede tener una acción correctiva dada para que los
resultados sean consistentes con el objetivo propuesto. Por lo tanto, la empresa puede tomar
decisiones basadas en un historial de hechos y en vista de diferentes posibilidades y obtener
recomendaciones estratégicas para optimizar los resultados en diferentes sectores. Un ejemplo
24
podría ser una compañía telefónica que se da cuenta de que el uso que hace un cliente de sus
servicios está disminuyendo. El análisis prescriptivo puede sugerir que existe una optimización de los
servicios o un ajuste de los precios para evitar la pérdida de ese cliente (Tatic, 2022).
Las empresas utilizan análisis prescriptivos para resolver todo tipo de problemas del mundo real. Los
analistas de diferentes industrias pueden utilizarlo para mejorar sus procesos (ciberseguridad.com,
2022).
Marketing y Ventas
Las agencias de marketing y ventas tienen acceso a una gran cantidad de datos de clientes que
pueden ayudarlos a determinar las estrategias de marketing óptimas, como qué tipos de productos
combinan bien y cómo fijar el precio de los productos. El análisis prescriptivo permite a los
vendedores y al personal de ventas ser más precisos con sus campañas y llegar a los clientes, ya que
ya no tienen que actuar simplemente por intuición y experiencia.
Industria del transporte
La entrega rentable es esencial para el éxito y la rentabilidad en la industria de entrega y transporte

de paquetes. Minimizar el uso de energía a través de una mejor planificación de rutas y resolver
problemas logísticos, como ubicaciones de envío incorrectas, puede ahorrar tiempo y dinero. Los
remitentes producen cantidades masivas de datos. En lugar de emplear ejércitos de analistas y
despachadores para decidir cómo operar mejor, estas empresas pueden automatizar y crear modelos
prescriptivos para brindar recomendaciones.
Mercados Financieros
Los investigadores cuantitativos y los comerciantes utilizan modelos estadísticos para tratar de
maximizar los rendimientos. Las empresas financieras pueden utilizar técnicas similares para
gestionar el riesgo y la rentabilidad. Por ejemplo, las empresas financieras pueden crear algoritmos
para analizar datos comerciales históricos para medir los riesgos de las operaciones. Los análisis
resultantes pueden ayudarlos a decidir cómo dimensionar las posiciones, cómo cubrirlas o si realizar
transacciones. Además, estas empresas pueden usar modelos para reducir los costos de transacción
al descubrir cómo y cuándo colocar mejor sus operaciones.
Aplicaciones de navegación
Los automovilistas de todo el mundo confían en las aplicaciones de navegación con GPS para ir del
punto A al punto B si el viaje no les resulta familiar. Esto es también importante para las pequeñas
empresas que dependen de los servicios de entrega, tanto de terceros como internos, para los
productos de manera oportuna.
En este caso, el análisis predictivo puede tomar los datos de viaje existentes y trazar una ruta
potencialmente más rápida. El análisis prescriptivo informa a los tomadores de decisiones sobre las
diferentes opciones de decisión con su impacto anticipado en indicadores clave de rendimiento
25
específico. Si utilizas las aplicaciones de Waze o Google Maps estás utilizando, entre otras cosas, un
modelo de análisis predictivo.
Planificación de inventario
Como pequeño minorista, es común querer saber cuánto inventario necesitas para llenar sus
estantes. Aunque siempre ha sido posible confiar en conjeturas informadas, los análisis pueden
ayudar a planificar una estrategia de almacenamiento más precisa. A medida que cambia el
panorama minorista, las empresas pueden usar análisis prescriptivos para aclarar los datos
predictivos y mejorar las ventas. Según el comportamiento anterior de los clientes, un modelo
predictivo supondría que los clientes se quedarán con la mayor parte de lo que compran con esta
promoción. Sin embargo, un cliente compra ocho prendas pero decide quedarse con una sola. El
minorista pagó por el envío acelerado asumiendo que existe un gran consumidor que compró ocho
artículos, por lo que está dispuesto a invertir y perder un pequeño margen. El algoritmo no tuvo en
cuenta el comportamiento de retorno. Mediante el uso de análisis prescriptivos, el minorista podría
tener la opción de otorgar un cupón solo en la tienda a los clientes que realicen devoluciones (para
fomentar otra compra en la que el envío no es un factor) o notificar a los clientes que deben pagar
el envió de devolución.
Pronóstico del tiempo
Predecir el clima puede ser una propuesta arriesgada, pero con el cambio de estaciones viene el
cambio de actividades en interiores a diversión bajo el sol. Un sector de pequeñas empresas que se
beneficia de un clima más agradable y una mayor actividad física son las tiendas de artículos
deportivos. Si las previsiones de la tienda indican que las ventas de zapatillas para correr perturban a
medida que se acerque un clima más cálido en la primavera, podría parecer lógico aumentar el
inventario de zapatillas para correr en cada tienda. Sin embargo, en realidad, es probable que el pico
de ventas no preceda en todas las tiendas del país al mismo tiempo. En cambio, avanzará
gradualmente de sur a norte según los patrones climáticos. Con el análisis prescriptivo, puedes
obtener fuentes de terceros, como datos meteorológicos y climáticos, para obtener una mejor
recomendación del mejor curso de acción.
Hospitales y Clínicas
Los hospitales y las clínicas también pueden utilizar el análisis prescriptivo para mejorar los resultados
de los pacientes. Contextualiza los datos de atención médica para evaluar la rentabilidad de varias
operaciones y terapias. Esto incluye el lujo de evaluar metodologías clínicas oficiales. También se
puede utilizar para determinar qué pacientes del hospital corren el mayor riesgo de reingreso. Con
esta información, el personal de atención médica puede hacer más para evitar visitas frecuentes al
hospital o a la sala de emergencias mediante la educación del paciente y el seguimiento médico.
Aerolíneas
Suponga que es el director ejecutivo de una aerolínea y su objetivo es maximizar los ingresos. El
análisis prescriptivo puede ayudarlo a lograr esto al alterar automáticamente los precios y la
disponibilidad de los boletos en función de una variedad de criterios, como; la demanda de los
26
clientes, el clima y los precios de la gasolina. Cuando la computadora detecta que las ventas de
boletos antes de Navidad de Los Ángeles a Nueva York están rezagadas con respecto a las del año
pasado, puede reducir automáticamente los precios y asegurarse de que no bajen demasiado debido
a los precios más altos del petróleo de este año. Al mismo tiempo, si el algoritmo determina que la
demanda de boletos de St. Louis a Chicago es más alta de lo habitual debido a las condiciones de las
carreteras heladas, puede aumentar automáticamente los costos de los boletos. Un software de
computadora puede lograr todo esto y más, y también a una velocidad más rápida, en lugar de que
el CEO mire fijamente una computadora todo el día para ver qué está pasando con la venta de boletos
y las circunstancias del mercado y luego instruir a las personas para que inicien sesión en el sistema
y modificar manualmente las tarifas.
Tecnologías Disruptivas
Hasta aquí hemos observado que los diferentes tópicos se han realizado o acompañado en Microsoft
Excel, debido a que al ser una herramienta transversal conocida por la gran mayoría de los
estudiantes simplifica su uso y explicación. No obstante es importante comprender que la evolución
de la analítica de datos incluye también una constante y maravillosa evolución de tecnologías. En este
apartado conoceremos algunas de las aplicaciones más representativas que se están utilizando en el
campo de la analítica de datos para mejorar la velocidad en las decisiones, el uso de visualizaciones,
la automatización de los procesos y la integración con herramientas de hardware y software y en
general la optimización del análisis de datos. A continuación, veremos algunas ideas de estos
programas:
Análisis predictivo: soluciones de software y / o hardware que permiten a las empresas descubrir,
evaluar, optimizar e implementar modelos predictivos analizando grandes fuentes de datos para
mejorar el rendimiento del negocio o mitigar el riesgo.
Bases de datos SQL: bases de datos de valores clave, documentos y gráficos.
Búsqueda y descubrimiento de conocimientos: herramientas y tecnologías en modo de autoservicio

para apoyar la extracción de información y nuevos conocimientos a partir de grandes repositorios de
datos no estructurados y estructurados que residen en múltiples fuentes, como sistemas de archivos,
bases de datos, flujos, APIs y otras plataformas y aplicaciones.
Stream analytics: software que puede filtrar, agregar, enriquecer y analizar un alto rendimiento de
datos en vivo de múltiples fuentes de datos dispares y en cualquier formato de datos.
Almacenes de archivos distribuidos: una red de ordenadores donde los datos se almacenan en más
de un nodo, a menudo de forma replicada, para optimizar redundancia y rendimiento.
Virtualización de datos: una tecnología que proporciona información de varias fuentes de datos,
incluyendo grandes repositorios de datos como Hadoop y almacenes de datos distribuidos en tiempo
real y casi en tiempo real.
27
Integración de datos: herramientas para la orquestación de datos a través de soluciones como
Amazon Elastic MapReduce (EMR), Apache Hive, Apache Pig, Apache Spark, MapReduce, Couchbase,
Hadoop y MongoDB.
Preparación de datos: software que alivia la carga de abastecer, dar forma, limpiar y compartir
conjuntos de datos diversos y desordenados para acelerar la utilidad de los datos para el análisis.
Calidad de los datos: productos que realizan la limpieza y el enriquecimiento de datos en conjuntos
de datos grandes y de alta velocidad, utilizando operaciones paralelas en almacenes de datos
distribuidos y bases de datos.
Análisis de datos: lenguajes tipo Phyton o R.
Visualización de Datos: Podremos encontrar a los grandes jugadores del mercado cómo lo son
PowerBi y Tableau.
La Analítica y la Gobernabilidad de Proyectos
No olvidemos que dentro de los principales objetivos que debemos lograr es buscar transformar los
datos en decisiones, de tal manera que tu negocio o proyecto, aplicando esta agudeza, sea capaz de
manejar óptimamente la información para generar conocimiento. Precisamente es en esta era de la
información y del conocimiento cuando es posible tener acceso a herramientas y aplicaciones
tecnológicas basadas en los datos antes impensables para un pequeño y mediano comercio. Sin
embargo, esto ya no es una opción, sino una condición para sobrevivir en este nuevo paradigma
económico. Según Benítez (2018) la analítica de datos puede facilitarte como gerente la labor diaria
y cotidiana, pero además convierte y transforma esas decisiones complejas que tanto tiempo te
requiere, en sencillos y gráficos reportes que te orientan sobre la mejor decisión en un escenario
predictivo. He aquí la ejemplificación práctica del uso gerencial de la analítica de datos:
✓ Imagina obtener información personalizada en tiempo real, disponible para que el usuario
(gerente, jefe de departamento, empleado, etc.) pueda dar una rápida respuesta al
interesado.
✓ Imagina que puedes detectar cualquier desviación de tu negocio, evitando así una cadena de
problemas futuros.
✓ Imagina que puedes predecir el comportamiento de tu negocio gracias a la consulta de datos
históricos y análisis de las variables, pudiendo planificar mejor el futuro, realizando
estimaciones más acertadas.
✓ Imagina que puedes predecir el costo y la viabilidad de un proyecto, gracias a los modelos
predictivos que permiten dar respuesta a preguntas como: ¿qué costo histórico ha permitido
obtener los mayores beneficios?
✓ Imagina que puedes prever en base a otros proyectos realizados, los requerimientos de
recursos humanos necesarios para optimizar los tiempos, costos, plazos y entregas.
28
✓ Imagina que puedes identificar rápidamente los principales indicadores de eficacia de un
servicio o producto, realizando una gestión de calidad eficiente.
✓ Imagina que puedes aumentar la precisión de la información, aumentando
considerablemente la productividad de todos los usuarios del negocio.
✓ Imagina que mejoras la capacidad del uso de los datos, proporcionándote una visión amplia
del negocio mediante el análisis de comportamiento de tus clientes, evitando una visión
fragmentada del negocio y permitiéndote aplicar rápidas estrategias de marketing.
✓ Imagina que puedes evitar una mala práctica en la gestión de datos, ayudando mediante
estos sistemas de gestión inteligente a prevenir el fraude y a cumplir la normativa.
Conclusiones
Y una vez implementados los modelos analíticos, ¿qué sucede? a partir de ahí, la empresa avanza
cada vez más en la analítica, en un proceso de maduración seguro que genera resultados de forma
continua. Todo evoluciona: gobierno de datos y calidad de los datos; modelos analíticos, que
incorporan cada vez más información; análisis, cada vez más robustos y completos. Es un proceso
que se retroalimenta y siempre mejora. Y eso es fundamental, porque los desafíos comerciales y
administrativos y de datos también evolucionan sin parar. Un punto muy importante es que esa
continuidad se da de forma natural, y tiene que ser así, porque la realidad empresarial así lo exige.
Los modelos analíticos se aplican, desarrollan y evolucionan sin dependencia permanente de
profesionales y equipos específicos. Hay una “memoria del saber” que no se pierde, solo se amplía.
Este entorno pone los datos al servicio de la estrategia, de una forma que realmente forma parte del
día a día de la organización. No es información que termina en informes y análisis sin aplicación
práctica, no es “saber por saber” – es la aceleración de la resolución de problemas reales, con
evolución constante y resultados exponenciales, como necesitan y merecen las organizaciones
basadas en datos (Tatic, 2022).
29
ACTIVIDAD DE APRENDIZAJE
1) Define, repasa y explica (garantiza que logres entender) los siguientes conceptos estadísticos,
buscando responder a la pregunta ¿Para qué se usan?
- P - Value
- Nivel de confianza
- Factor de Correlación
2) Explica la diferencia entre correlación y causalidad. Puede utilizar ejemplos de la siguiente página:
https://www.tylervigen.com/spurious-correlations
30
Referencias
Benítez, Y. L. (2018). Business Intelligence. ADGG102PO. 29200 Antequera (Málaga): Yolanda López
Benítez.
Bodell, L. (2017). Simple.
ciberseguridad.com. (2 de 11 de 2022). www.ciberseguridad.com. Obtenido de

www.ciberseguridad.com: https://ciberseguridad.com/guias/recursos/analisis-
prescriptivo/
Data Peers. (2021). https://datapeers.itpeers.com. Obtenido de https://datapeers.itpeers.com:

https://datapeers.itpeers.com/es/centralizacao-de-dados-o-que-e/
Editorial Etecé. (1 de 10 de 2020). Concepto. Obtenido de

https://concepto.de/dato/#ixzz7jUSwLMJT
El Arte de Medir. (01 de 02 de 2022). Obtenido de https://elartedemedir.com/blog/analizar-la-

informacion-para-transformarla-en-conocimiento/
Mesa, L. F. (16 de 02 de 2021). Obtenido de https://www.pragma.com.co/blog/3-tipos-de-analisis-

de-datos-para-mejorar-la-toma-de-decisiones
Microsoft. (30 de 05 de 2022). Microsoft Support. Obtenido de Microsoft Support:

https://support.microsoft.com/es-es/office/tipos-de-datos-en-los-modelos-de-datos-
e2388f62-6122-4e2b-bcad-053e3da9ba90
QuestionPro. (25 de 9 de 2022). https://www.questionpro.com. Obtenido de

https://www.questionpro.com: https://www.questionpro.com/blog/es/analisis-
descriptivo/
Roy, E. (11 de 06 de 2022). https://businessyield.com. Obtenido de https://businessyield.com:

https://businessyield.com/es/business-planning/prescriptive-analytics/
Tatic. (5 de 10 de 2022). www.tatic.net. Obtenido de www.tatic.net:

https://tatic.net/es/blog/analisis-descriptivo-predictivo-y-prescriptivo-relaciones-
diferencias-y-
relevancia/#:~:text=Un%20ejemplo%20podr%C3%ADa%20ser%20una,la%20p%C3%A9rdid
a%20de%20ese%20cliente.
Universidad de Cambridge. (2017). Premio Netflix. Cambridge.
31

Unidad 2 - Analítica - V1

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Unidad 2 - Analítica - V1

Cargado por

Copyright:

Formatos disponibles

UNIDAD 2.

Aplicaciones de la Analítica de Datos en la Dirección de Proyectos

Datos y Tipos de Datos

El entendimiento de la tipología de datos permite al decisor comprender qué tipo de información

Buenas Prácticas para el Gobierno y la Administración de Datos

Idea # 1 – Elimine el uso del papel físico

La pandemia Covid – 19 generó en las

Idea # 2 – Evite los silos funcionales

Los grandes exponentes de la

Ventajas de la centralización de datos (Data Peers, 2021)

✓ Mayor organización: cuando toda la información de la empresa está ubicada en un

Desventajas de no tener los datos centralizados

Idea # 3 – Implementación tecnológica

La tecnología juega un papel

Idea # 4 – Complejidad Organizacional

Por último se ha identificado que la

Hagamos las preguntas adecuadas: ciclo virtuoso del análisis de datos

Ciclo Virtuoso de la Analítica

Fuente: Desarrollo Propio del Autor

¿Qué factores favorecen la venta de este producto?

¿Cuánto contribuye, en porcentaje, cada familia de productos a la venta total?

¿Cómo ha cambiado dicho porcentaje desde el año pasado?

¿Cuáles son los productos que más vendimos ayer?

¿Cuánto vamos a vender el próximo trimestre?

¿Cuál es el estado de salud de mi empresa o proyecto?

¿Cómo se ha comportado el grado de satisfacción de mis clientes en los últimos años?

Tipos de Analítica de Datos

Fuente: El Arte de Medir (2022)

Las ventajas del análisis descriptivo son (QuestionPro, 2022) :

- El decisor tiene un alto grado de objetividad y neutralidad.

Las desventajas del análisis descriptivo son:

- La confidencialidad y la falta de veracidad de los encuestados es una de las principales

Dentro del análisis descriptivo, además de las estrategias y herramientas de visualización

Veamos con un ejemplo práctico cómo describir esta distribución:

Ordenar por -> % del total

Ordenar según -> valores de celda

Orden -> mayor a menor

Cuando desarrollas un modelo de machine learning, no puedes entender de inmediato cómo se

Fuente: Premio Netflix (Netflix, 2006)

Recursos Adicionales Sugeridos

A Friendly Introduction to Machine Learning

Industria del transporte

La entrega rentable es esencial para el éxito y la rentabilidad en la industria de entrega y transporte

Pronóstico del tiempo

Bases de datos SQL: bases de datos de valores clave, documentos y gráficos.

Búsqueda y descubrimiento de conocimientos: herramientas y tecnologías en modo de autoservicio

Análisis de datos: lenguajes tipo Phyton o R.

La Analítica y la Gobernabilidad de Proyectos

Bodell, L. (2017). Simple.

ciberseguridad.com. (2 de 11 de 2022). www.ciberseguridad.com. Obtenido de

Data Peers. (2021). https://datapeers.itpeers.com. Obtenido de https://datapeers.itpeers.com:

Editorial Etecé. (1 de 10 de 2020). Concepto. Obtenido de

El Arte de Medir. (01 de 02 de 2022). Obtenido de https://elartedemedir.com/blog/analizar-la-

Mesa, L. F. (16 de 02 de 2021). Obtenido de https://www.pragma.com.co/blog/3-tipos-de-analisis-

Microsoft. (30 de 05 de 2022). Microsoft Support. Obtenido de Microsoft Support:

QuestionPro. (25 de 9 de 2022). https://www.questionpro.com. Obtenido de

Roy, E. (11 de 06 de 2022). https://businessyield.com. Obtenido de https://businessyield.com:

Tatic. (5 de 10 de 2022). www.tatic.net. Obtenido de www.tatic.net:

Universidad de Cambridge. (2017). Premio Netflix. Cambridge.

También podría gustarte