Está en la página 1de 31

https://www.coursera.

org/learn/analisis-de-datos/lecture/tCMja/bienvenido

0:00

Hola, ¿cómo estás? Me da enorme gusto saludarte y darte a ti la bienvenida a este curso Fundamentos del análisis de datos para la toma de decisiones. Yo soy Marcos
Serrato soy profesor investigador en el Tecnológico de Monterrey, y voy a tener el enorme gusto de adentrarte a ti a esta nueva y apasionante área de conocimiento que está
transformando nuestra sociedad. Y de igual forma, ayudarte a adquirir diversos conocimientos y herramientas que te permitirán tomar diversas decisiones, realizar distintos
análisis y estudios, que apoyarán precisamente la toma de decisiones y el desempeño de tu organización. ¿Estás listo para adentrarte en esta apasionante área de
conocimiento? Bienvenido. 

https://www.coursera.org/learn/analisis-de-datos/lecture/6sU0R/introduccion

0:00

Permíteme iniciar revisando juntos cuáles son los beneficios y capacidades que tú lograrás desarrollar al haber concluido este curso. Primero que nada, serás capaz de
identificar todos los enormes beneficios, antecedentes y potencial que te presenta a ti esta área de conocimiento en tu futuro inmediato y, para lograrlo, estaremos revisando
juntos diversos casos exitosos de empresas y organizaciones, tanto a nivel local, a nivel regional y a nivel internacional pero, de igual forma, no solo lograrás identificar y
revisar juntos estos casos exitosos, lograrás desarrollar tú la capacidad de utilizar diversas herramientas, métodos que te permitirán realizar estos análisis de datos e
información relevante en tu organización para apoyar la toma de decisiones dentro de la misma, para lo cual, estarás utilizando diversos modelos y herramientas que te estarán
apoyando a lo largo de este proceso en tu organización. Conocerás también todo el crecimiento, el Status actual y el potencial que te presenta está área de conocimiento a tí y
a cada uno de nosotros en el futuro inmediato. Y, algo muy importante también es que desarrollarás la capacidad de identificar distintos modelos, herramientas, conceptos y
apoyo computacional, que te va a permitir desarrollar distintos análisis, reflexiones, identificar comportamientos, patrones y aspectos que serán de interés y utilidad para ti y
para tu organización para tomar buenas, nuevas y mejores decisiones que impacten positivamente en el desempeño de tu organización. Y, lo más importante, al haber
finalizado este curso podrás decir que no solo tomas decisiones, sino que las tomas en forma analítica, ordenada y estructurada para mejorar en forma importante y en forma
significativa el desempeño de tu organización y los resultados que están obteniendo el día de hoy y que obtendrán en el futuro inmediato ¿Estás listo para adentrarte en esta
nueva y apasionante área de conocimiento que está transformando nuestra sociedad? Bienvenido. 

¡Bienvenido al curso Fundamentos del análisis de datos para la toma de decisiones!


Nos es muy grato acompañarte en tu inmersión a esta nueva y apasionante área de conocimiento que está transformando nuestra sociedad.
Permítenos iniciar compartiéndote qué es lo que lograrás aprender en este curso y todo lo que serás capaz de realizar al finalizar el mismo. Después de haber concluido este
curso habrás desarrollado la capacidad de identificar la importancia y el rol que juega el análisis de datos –o analytics, como se define en inglés- en el mundo actual, para
apoyar la toma de decisiones en tu vida diaria, en tu trabajo y en tu organización, sin importar si es una empresa pequeña, mediana, grande o inclusive un gran corporativo
transnacional o empresa multinacional. Sin importar también si tu organización es del sector privado, gubernamental, académico; si se desarrolla en el sector manufacturero,
automotriz, alimenticio, de servicios, salud, financiero, bancario, de logística, de turismo, de manejo de recursos humanos, etc., Sin importar el tamaño, giro o sector de tu
organización, podrás aprovechar en tu beneficio las capacidades que adquirirás en este curso.
Conocerás no solo el potencial de esta área de conocimiento en todas las industrias y sectores, sino también el enorme crecimiento que ha tenido en los últimos años y las
oportunidades que te presenta a ti en el futuro inmediato.
Al concluir este curso podrás identificar distintas herramientas que te ayudarán en forma importante en tu toma de decisiones, apoyándote además en un paquete
computacional muy útil para este tipo de análisis. Podrás explorar bases de datos, realizar predicciones y crear infografías asociadas al problema o decisión de tu interés. Es
decir, sabrás utilizar diversas herramientas que te permitirán analizar datos e información en forma inteligente, para poder tomar las mejores decisiones para ti y tu
organización.
Además, identificarás elementos clave para la modelación matemática de estas decisiones, que te ayudarán a seleccionar la mejor herramienta a utilizar en tu contexto
personal u organizacional. Después de haber concluido este curso podrás decir que "no solo tomas decisiones, sino que además, las tomas en forma analítica y estructurada
para obtener los mejores resultados en tu organización".
¿Estás listo para adentrarte en esta apasionante área de conocimiento?
¡Comencemos!

https://www.coursera.org/learn/analisis-de-datos/lecture/y5K5w/datos-organizaciones-y-retos-en-
nuestro-mundo-actual

Datos, organizaciones y retos en nuestro mundo actual

0:00

Hola nuevamente. Bienvenido a la segunda lección de este primer módulo titulado Los datos y la toma de decisiones en el mundo actual. 

0:19

Iniciemos con un par de reflexiones iniciales. ¿Sabías, por ejemplo, que Walmart maneja más de 1 millón de transacciones de clientes cada hora? 
0:32

O, por ejemplo, revisemos una organización como Facebook, que maneja 

0:37

más de 300 millones de fotos y 2.7 billones de likes por días. 

0:45

O pensemos por ejemplo en eBay, que maneja una sola tabla con más de 1 millón de renglones para registrar las búsquedas, transacciones, consultas y compras que tiene

dentro de su sitio web. Todos los días, en todo momento y en todo lugar alrededor de nuestro planeta se están generando datos e información; y esto está transformando

nuestra sociedad en forma trascendental. 

1:15

Considera solamente las siguientes estadísticas. Desde el origen de la humanidad hasta el año 2003 se generaron 5 billones de hexabytes de datos. 

1:27

Esa misma cantidad de información se generó en el año 2011 cada 2 días. O más aún, en el año 2013 esos 5 billones de 

1:39

hexabytes de datos se están generando cada 10 minutos. Esa cantidad de datos se está generando y está transformando nuestra sociedad en forma crítica y en forma

trascendental. Todos estos datos surgen desde una gran cantidad de fuentes. Desde dispositivos móviles y computadoras que estamos utilizando cada día, desde compras

que realizamos ya sea en línea o en lugares determinados que estamos visitando, desde personas con las que estamos también interactuando día a día, desde productos en

los cuales se están colocando dispositivos, ya sea para uso personal o para uso industrial, que va desde automóviles, refrigeradores hasta turbinas o inclusive aparatos o

maquinaria industrial. Todos estos datos que se están generando a través de cada una de estas fuentes contribuyen precisamente a la gran cantidad de información con la

que contamos al día de hoy en nuestra sociedad. Tú mismo, sin darte cuenta del todo, estás generando grandes cantidades de datos cada día, en todo momento y en distintas

actividades que estás realizando. Piensa por un momento, ¿desde cuántas fuentes estás tú 

2:56

generando datos cada día de tu vida? ¿Desde una, tres, cinco, siete? ¿Cuántas fuentes de información? 

3:05

Diversos estudios muestran que en zonas urbanas los seres humanos estamos generando datos desde al menos cinco fuentes de información distintas, ya sea tu dispositivo

móvil, tu computadora, tu tarjeta de crédito, las compras que realizas en lugares determinados, la información que estás intercambiando con distintas personas con las que

interactúas cada día. Todas y cada una de estas fuentes están contribuyendo a generar más datos e información que le están permitiendo a las organizaciones entender tus

intereses, tu comportamiento y poder darte un mejor servicio y propuesta de valor a partir de ello. 

3:47

Todo esto nos está permitiendo como organizaciones realizar nuevas y mejores acciones. Por ejemplo, nos permite identificar nuevas oportunidades de negocio. 

4:00

Nos permite identificar también nuevos, diferentes y mejores nichos de mercado. Nos permite de igual forma reenfocar nuestras estrategias de publicidad y mercadotecnia. Por

qué no, también identificar nuevos productos o servicios a ofrecer a nuestros clientes. Integrar inclusive nuestros sistemas de distribución o nuestros sistemas de producción de

acuerdo al comportamiento de la demanda. Y de manera general, proveer una nueva y mejor propuesta de valor para nuestros clientes y los públicos a quienes buscamos

servir como organización. Te invito a adentrarte a la lectura asociada a esta lección, en la que vas a conocer a detalle los antecedentes, estatus actual y, sobre todo,
posibilidades que te presenta a ti en el futuro inmediato esta nueva y apasionante área de conocimiento. Es muy importante que te des el tiempo necesario para involucrarte en

los conceptos, herramientas y modelos que se van a empezar a presentar a partir de esta lección pues serán necesarios para que puedas realizar un buen análisis y, sobre

todo, soportar la toma de decisiones dentro de tu organización. Date tiempo, involúcrate y conoce a detalle todo lo que se presenta dentro de esta lectura. ¡Qué la disfrutes en

verdad mucho! 

El Análisis y Manejo de Datos para la Toma de


Decisiones (AMDPTD): beneficios, retos y
oportunidades en el mundo actual. Dr. Marco
Serrato (2015)
Tal y como lo describió Mintzberg desde 1987, una estrategia se puede definir como un plan de
acción que requiere la toma de decisiones, basado en el uso eficiente de los recursos disponibles.
En este sentido, existen diversas preguntas fundamentales que toda organización debe responder:
¿quiénes son los clientes a los que nos debemos dirigir?, ¿qué productos y servicios debemos
incluir en nuestro portafolio?, ¿qué posición única nos conviene tomar dentro del mercado?, ¿qué
procesos nos ayudan a diferenciarnos de nuestra competencia? Sin un contexto estratégico, una
organización no puede decidir en qué datos, información y análisis enfocarse, ni cómo manejar o
sacar provecho de los mismos. Por esta razón, el valorar la toma de decisiones basada en datos es
crítica para el éxito de las organizaciones en el mundo actual.
En una organización, los participantes en el AMDPTD pueden realizar tres tareas fundamentales:
producir datos e información, consumirlos o habilitar la creación de los mismos (Chandles,
Hostmann, Rayner & Herschel, 2011). El marco presentado se enfoca en tareas en lugar de roles
que la gente puede representar. Mientras producir se refiere a tareas realizadas por analistas que
definen y ejecutan el análisis, consumir indica la utilización del análisis para la toma de decisiones.
Habilitar incluye todas las tareas de tecnología de información tradicionales que se requieren para
realizar el análisis y la toma de decisiones.
Diversas tecnologías son necesarias para apoyar tres tipos de capacidades fundamentales en el
AMDPTD: decisión, análisis e información. Las capacidades de decisión se refieren a herramientas
que apoyan la entrega de información utilizada para la toma de decisiones, como reportes y tableros
de control. Estas herramientas no son solo una representación virtual de los conocimientos sino
también la colaboración necesaria para la toma de decisiones. Las capacidades de análisis se
refieren al portafolio de metodologías y herramientas de análisis, e incluyen herramientas que
apoyan las consultas adecuadas tradicionales: estadística inferencial, análisis predictivo, simulación
y optimización, apoyando el análisis descriptivo, diagnóstico, predictivo y prescriptivo. Finalmente,
las capacidades de información se refieren a las tecnologías que ayudan a describir, organizar,
integrar y compartir activos de información.

AMDPTD: ¿Por qué ahora?


Aunque se considera que el análisis de grandes datos indica un parteaguas de cambio e
innovación, en realidad este fenómeno se ha estado desarrollando en las últimas décadas. Sus
aplicaciones en diferentes áreas como finanzas, cadena de suministro, y mercadotecnia donde se
trabajan grandes cantidades de datos han estado en uso por muchos años utilizando técnicas
estadísticas y algoritmos desde mediados del siglo XX. Lo que lo hace diferente hoy en día es la
gran cantidad de oportunidades y lo practico que es explotarlas gracias a la gran rapidez de las
computadoras en procesar grandes cantidades de datos con cada vez menos tiempo y poder y la
reducción del costo de los aparatos de almacenaje masivo; la extensiva red para la transmisión de
datos en internet; y la disponibilidad de software poderoso, económico y amigable con el usuario
para el análisis. Estos facilitadores de la revolución analítica han creado nuevas capacidades e
inclusive generado nuevas empresas.
El surgimiento de negocios de análisis como un tema en las reuniones de la agenda de C-suite ha
resultado gracias a la convergencia de varias tendencias. En primer lugar se encuentra la gran
disponibilidad de grandes cantidades de datos (Manyika et al., 2011). En el congreso “Techonomy
Conferece” en Lake Tahoe en el 2010, el CEO Eric Schmitt dio esta famosa perspectiva de los
datos: “Desde la creación de la civilización hasta el 2003 se crearon 5 exabytes de información,
pero actualmente esa cantidad de información es creada cada dos días y el paso está
aumentando.” (Kirkpatrick, 2010). Además existe un creciente entendimiento de que los datos son
un recurso valioso (Levitin & Redman, 1998) y que debe ser manejado como un aliado. (Laney,
2011).
En segundo lugar el crecimiento de la gestión del rendimiento empresarial en las últimas cinco
décadas ha ayudado a crear una conexión más sólida entre la estrategia de negocios y los datos.
La medición del rendimiento de los negocios ha sido una parte integral del manejo de una empresa
(Bamard, 1962). En los 50’s, General Electric –con su proyecto de medición- fue el primero en usar
figuras financieras para planear en lugar de controlar (Neely, 1999). Los 90´s trajeron un
reconocimiento creciente sobre usar un conjunto más amplio de indicadores en lugar de solo usar
medidas financieras (Eccles, 1991).
Tradicionalmente las medidas financieras eran vistas a corto plazo, sin enfoque estratégico y que
alentaban la optimización local. Con el énfasis en las cuatro perspectivas --financiera, de los
clientes, proceso interno, aprendizaje y crecimiento—Kaplan and Norton (1992) sugirieron que su
cuadro de mando integral presentaba un enfoque de gestión del rendimiento empresarial que
traducía estrategias de alto nivel a un concreto conjunto de datos. Así, las medidas también pueden
fomentar la implementación de estrategia. (Neely, Mills, Platts, Gregory, & Richards, 1994). El área
del manejo de rendimiento de negocios ha sido examinada en casi todas las disciplinas de la
gestión incluyendo, contabilidad, (Bromwich & Bhimani, 1989), estrategia de negocios
(Chakravarthy, 1986) manejo de operaciones (Neely, Gregory & Platts, 1995) mercadotecnia
(Fomell, 1992) y comportamiento organizacional (Meyer & Gupta 1994).
Como resultado de una gran corriente de previa investigación, las organizaciones ahora pueden
tomar una mejor decisión acerca de cuál de las medidas de rendimiento adoptar y monitorear.
Además de cómo manejar el rendimiento total del sistema de gestión y de habilitar el aprendizaje
sobre el tiempo facilitado por la memoria organizacional.
En tercer lugar, la comprensión de que las decisiones basadas en hechos son más necesarias en
cada nivel de la organización ha resultado en el surgimiento de análisis personal e inteligencia en
los negocios (Imhoff, & White, 2011) El acceso a grandes bases de datos y el uso de herramientas
amigables ha contribuido a la revolución del análisis que está sucediendo actualmente.
En cuarto lugar, las técnicas avanzadas de análisis han sido incorporadas en sistemas a nivel
empresarial, convirtiendo incluso a los algoritmos más sofisticados, algoritmos posibles de analizar.
Por supuesto que otro de los principales impulsores del fenómeno de los análisis de negocios ha
sido el gran decreciente costo por nivel de desempeño de tres informaciones claves de tecnología:
potencia de la informática, almacenaje de datos y la banda ancha. La ley de Moore continúa
operando en el poder de la informática primaria con un costo de $222 por millón de transistores en
1992 a $0.06 por millón de transistores en el 2012. El almacenaje de datos ha seguido un curso
similar decreciendo de $569 por gigabyte de almacenaje en 1992 a $0.03 por gigabyte en 2012. El
precio de las transmisiones también ha bajado, de $1,245 por 1,000 megabits por segundo (MBPS)
en 1999 a $23 por 1,000 Mbps en 2012 (Hagel, Brown, Samoylova, & Lui, 2013).

AMDPTD: ¿Qué sigue?


La aplicación del análisis a los problemas en los negocios es una etapa prematura del desarrollo de
difusión. Las oportunidades del uso de la información como aliados activos para mejorar los
ingresos, reducir los costos, y el manejo de riesgos abundan y estas aplicaciones seguirán
creciendo. Por ejemplo, desde hace tiempo se ha reconocido que el cross-selling y el up-selling a
clientes actuales es más rentable que encontrar a nuevos clientes. Instituciones financieras, están
usando cada vez más data mining para descubrir las tendencias y comportamientos de sus clientes,
con el propósito de entender mejor las necesidades futuras. Por lo tanto los modelos predictores de
análisis están siendo desarrollados para ajustarse a las recomendaciones correctas con los
segmentos de clientes correctos. Una gran área para el análisis se encuentra en la reducción de
costos. En algunos casos, el camino a menores costos involucra intercambios entre fuerzas
opuestas. Por ejemplo la obtención de operaciones en corporaciones normalmente lleva al pago
temprano a los proveedores para obtener ventaja en los descuentos. Al mismo tiempo, los
administradores financieros trataran de retener el mayor tiempo posible. Se puede encontrar un
balance optimo entre la optimización del análisis junto con medidas cuidadosas.
Empezando con las aplicaciones más antiguas en los 50’s, el análisis ha jugado un papel
importante en la detección y protección de fraude. Actividades financieras fraudulentas son difíciles
de detectar cuando tienen capas o diferentes formas y diferentes bases de datos. Sin embargo, un
análisis forense más sofisticado está siendo desarrollado para descubrir irregularidades en
transacciones financieras, automatizando lo que aún es una labor intensiva y comúnmente un
proceso de suerte.
Extrapolando de tendencias actuales, los siguientes desarrollos en el análisis de los negocios –que
pueden ser llamados de una forma diferente en el futuro- incluirán aplicaciones adicionales usando
datos sin estructura de videos, imágenes, y sonido; esto comprende una vasta mayoría de la
información guardada digitalmente. El análisis muy probablemente se moverá a la nube ya que la
actual preocupación de seguridad privacidad se haya superado.
Plataformas móviles para el consumo del análisis están empezando a ser usadas, y esta tendencia
continuara indudablemente. El análisis ha sido aplicado más allá de las áreas tradicionales de
finanzas y mercadotecnia, a todas las áreas que funcionan virtualmente en los negocios. Por
ejemplo, una tendencia emergente es el uso del análisis en los recursos humanos para trata con
problemas emergentes, beneficios de optimización y manejo, plan de sucesión, e incluso
entrenamiento.

Referencias:
Acito, F., & Khatri, V. (2014). Business analytics: Why now and what next? Business Horizons,
57(5), 565-570.
Gantz, J., & Reinsel, D. (2011, June). Extracting value from chaos. Retrieved from
http://www.emc.com/collateral/ analyst-reports/idc-extracting-value-from-chaos-ar.pdf
Manyika, J., Chui, M., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C., et al. (2011). Big data: The
next frontier for innovation, competition, and productivity. Available at
http://www.mckinsey.com/insights/business_technology/ big_data_the_next_frontier_for_innovation
Davenport, T. H., & Patil, D. J. (2012). Data scientist: The sexiest jobofthe 21st
century.HarvardBusiness Review, 90(10), 70—76.
Mintzberg, H. (1987). The strategy concept I: Five Ps for strategy. California Management Review,
30(1), 11—24
Davenport, T. H., Harris, J. G., DeLong, F. W.,& Jacobson, A. L. (2001). Data to knowledge to
results: Building an analytic capability. California Management Review, 43(2), 117—138.
Weill, P., & Ross, J. W. (2004). IT governance: How top performers manage IT decision rights for
superior results. Boston: Harvard Business School Press
Neely, A. (1999). The performance measurement revolution: Why now and what next? International
Journal of Operations and Production Management, 19(2), 205—228.
Drucker, P. F. (1990). The emerging theory of manufacturing. Harvard Business Review, 68(3), 94—
102.
Chandler, N., Hostmann, B., Rayner, N., & Herschel, G. (2011, September 20). Gartner’s business
analytics framework. Retrieved from http://www.gartner.com/imagesrv/ summits/docs/na/business-
intelligence/gartners_business_ analytics__219420.pdf
Eccles, R. G., Jr. (1991). The performance measurement manifesto. Harvard Business Review,
69(1), 131—137.
Kirkpatrick, M. (2010, August 4). Google CEO Schmidt: ‘‘People aren’t ready for the technology
revolution.’’ Retrieved from http://readwrite.com/2010/08/04/google_ceo_schmidt_
people_arent_ready_for_the_tech#awesm=oCVcaSZEJssOa4
Levitin, A. V., & Redman, T. C. (1998). Data as resource: Properties, implications, and prescriptions.
Sloan Management Review, 40(1), 89—102.
Barnard, C. I. (1962). The functions of the executive. Cambridge, MA: Harvard University Press.
Kaplan, R. S., & Norton, D. P. (1992). The balanced scorecard–— measures that drive performance.
Harvard Business Review, 70(1), 71—79.
Neely, A. D., Mills, J., Platts, K., Gregory, M., & Richards, H. (1994). Realising strategy through
measurement. International Journal of Operations and Production Management, 14(3), 140—152.
Bromwich, M., & Bhimani, A. (Eds.). (1989). Management accounting: Evolution not revolution.
London: Chartered Institute of Management Accountants.
Chakravarthy, B. S. (1986). Measuring strategic performance. Strategic Management Journal, 7(5),
437—458.
Neely, A. D., Gregory, M., & Platts, K. (1995). Performance measurement system design: A
literature review and research agenda. International Journal of Operations and Production
Management, 15(4), 80—116.
Fornell, C. (1992). A national customer satisfaction barometer: The Swedish experience. Journal of
Marketing, 56(1), 6—21.
Meyer, M. W., & Gupta, V. (1994). The performance paradox. In B. M. Staw & L. L. Cummings
(Eds.), Research in organizational behavior (pp. 309—369). Greenwich, CT: JAI Press.
Imhoff, C., & White, C. (2011, September 20). Self-service business intelligence: Empowering users
to generate insights.
Hagel, J., Brown, J. S., Samoylova, T., & Lui, M. (2013). From exponential technologies to
exponential innovation. Westlake, TX: Deloitte University Press.
0:00

Hola. Me da enorme gusto saludarte nuevamente y darte la bienvenida a esta tercera y última lección de este primer módulo, en la que nos enfocaremos en revisar a detalle

cómo es que utilizan los datos e información en las organizaciones para apoyar su toma de decisiones. 

0:28

Permíteme mostrarte una estadística inicial, que nos hará muy sensibles a la importancia de esta área de conocimiento. Si tu realizas una búsqueda en Google Académico, te

darás cuenta que desde el año 2012 hasta la actualidad se han publicado más de 20.000 artículos relacionados con el análisis de datos, Analytics o Big Data como se define

en inglés. ¿Cuánto representa esto? Quiere decir que se ha generado en promedio un artículo cada hora. ¿Por qué? ¿Por qué es tan útil y es tan importante esta nueva área

de conocimiento, que las organizaciones la están utilizando cada día más para soportar su toma de decisiones? No por nada, muchos artículos y muchos especialistas han

definido al analista de datos como la nueva y más apasionante profesión hacia este siglo 21. ¿Por qué es tan importante? Revisemos de manera particular algunos ejemplos

de empresas. Pensemos por ejemplo en Amazon. 

1:33

Si tú realizas cualquier consulta o búsqueda de un producto en Amazon, además de encontrar ese producto eventualmente, Amazon te mostrará, a través de su sitio web,

información de productos similares que otros clientes han buscado o han comprado previamente y que pueden ser de tu interés. ¿Cómo realiza esto? Pues aprovechando

precisamente datos y sistemas de información, a través de los cuales identifica relaciones o patrones entre los distintos productos, las relaciones y los gustos de los clientes

por ellos. 

2:09
O podemos identificar, por ejemplo, a Pandora, que es capaz también de hacerte recomendaciones de canciones con base en tus gustos particulares. ¿Cómo es posible que

Pandora sea capaz de conocer esto? Pues hace algo muy similar. Aprovecha información sobre gustos preliminares que tú has declarado en términos de canciones, de

géneros, de autores, a través de los cuales es capaz de hacerte una recomendación acorde con tus intereses, sin necesidad de que te desgastes en ver distintos tipos de

música, géneros, alternativas. Sino algo que vaya muy acorde con aquello que a tí te interesa. 

2:49

O Shazam, que puede ser también un tercer ejemplo, que es capaz, simple y sencillamente, al escuchar un pequeño fragmento de canción, identificar precisamente a qué

melodía, a qué canción corresponde. Es decir, no es necesario que escuche la canción en su totalidad, sino sólo un pequeño fragmento de ella, para a través de un algoritmo

de análisis de datos, identificar cuál es esa canción y darte su nombre, género o autor de manera inmediata. Ahora, debemos de ser muy cuidadosos, pues el contar con mayor

información y mayor cantidad de datos siempre será útil, pero tenemos que enfocarnos en identificar cuáles de esos datos, o cuál de esa información nos va a ayudar a realizar

mejores análisis y, en consecuencia, a tomar mejores decisiones. 

3:42

Dentro de tu organización, de manera particular, es muy importante que tú identifiques quiénes son las personas, áreas o departamentos responsables de generar información,

cuándo y cómo deben generarla. Pero, de igual forma, tienes que identificar también a las personas, áreas o departamentos responsables de hacer uso, ya sea para análisis y

para la toma de decisiones, dentro de tu organización. Si tienes claridad en esos dos elementos, acompañado también con el contar con el equipo, tecnología, infraestructura y

ecosistema adecuado para generar y analizar esos datos podrás mejorar en forma importante el desempeño, dentro de tu organización. 

4:28

Este diagrama te presenta precisamente un marco conceptual bajo el cual tú puedes adentrarte en el análisis y manejo de datos. En la parte inferior, o en la base de toda esta

estrategia, vamos a estar precisamente generando datos. Pero, es muy importante tener claridad sobre quién va a estar habilitando, produciendo y consumiendo esos como

parte de tareas medulares de inicio. Y al mismo tiempo, vas a tener responsables de generar información a partir de esos datos, realizar análisis determinados y, algo

fundamental, tomar decisiones con base en ellos. Esta información, análisis y decisiones pues buscan contribuir precisamente a mejorar el desempeño de tu organización, el

cual debe de ir alineado a la estrategia y las conductas deseables a las cuales tú estés aspirando. Si logras integrar todos estos elementos de manera clara, ordenada y

estructurada, serás capaz de contribuir de manera importante no sólo a la toma de decisiones, a la generación de información, sino además al desempeño de tu organización,

siendo precisamente capaz de incrementar los resultados o los indicadores clave que tus hayas definido para la misma. Iniciemos precisamente con una reflexión en este

sentido. ¿Cuenta tu organización con todos los datos y toda la información necesaria para proveer un extraordinario servicio y propuesta de valor a tus clientes? 

6:09

Diversos estudios han estimado que más del 80% de las organizaciones no cuentan al día de hoy con todos los datos e información que pueda ayudarles en la mejor forma

posible a analizar su desempeño y mejorar la toma de decisiones dentro de ellas mismas. Te invito a realizar esta reflexión dentro de tu propia organización. Primera parte,

¿quiénes son aquellas áreas, personas o departamentos que están en posición de generar precisamente esos datos o información? E inclusive, ¿cuáles son esos datos

actuales -o inclusive nuevos- que sería pertinente conozcas para poder tener mayor y mejor sensibilidad sobre lo que está ocurriendo dentro de tu empresa? Y a partir de ello,

conocer mejor el comportamiento de tus clientes, lo que ocurre en tu entorno, lo que ocurre en términos de proveedores, de nuevos clientes potenciales, lo que está haciendo

la competencia, integrar todos esos datos, generar información a partir de ello y ser capaz de mejorar el desempeño de la misma. Si no tienes claridad en todos estos

elementos, no podrás sacar el mayor provecho posible que te da toda esta nueva y apasionante área de conocimiento. Te invito a adentrarte, a definir cada uno de estos

elementos en tu propia empresa, pues al tener claridad en cada uno de ellos, podrás sacar provecho en la mayor y en la mejor forma posible de todos lo que estaremos
revisando en el resto de los módulos y el contenido de esta lección en particular.
Uso de datos para mejorar el servicio, la experiencia y la toma de decisiones en nuestras organizaciones

0:00

Hola. Me da enorme gusto saludarte nuevamente y darte la bienvenida a esta tercera y última lección de este primer módulo, en la que nos enfocaremos en revisar a detalle

cómo es que utilizan los datos e información en las organizaciones para apoyar su toma de decisiones. 

0:28

Permíteme mostrarte una estadística inicial, que nos hará muy sensibles a la importancia de esta área de conocimiento. Si tu realizas una búsqueda en Google Académico, te

darás cuenta que desde el año 2012 hasta la actualidad se han publicado más de 20.000 artículos relacionados con el análisis de datos, Analytics o Big Data como se define

en inglés. ¿Cuánto representa esto? Quiere decir que se ha generado en promedio un artículo cada hora. ¿Por qué? ¿Por qué es tan útil y es tan importante esta nueva área

de conocimiento, que las organizaciones la están utilizando cada día más para soportar su toma de decisiones? No por nada, muchos artículos y muchos especialistas han

definido al analista de datos como la nueva y más apasionante profesión hacia este siglo 21. ¿Por qué es tan importante? Revisemos de manera particular algunos ejemplos

de empresas. Pensemos por ejemplo en Amazon. 

1:33

Si tú realizas cualquier consulta o búsqueda de un producto en Amazon, además de encontrar ese producto eventualmente, Amazon te mostrará, a través de su sitio web,

información de productos similares que otros clientes han buscado o han comprado previamente y que pueden ser de tu interés. ¿Cómo realiza esto? Pues aprovechando

precisamente datos y sistemas de información, a través de los cuales identifica relaciones o patrones entre los distintos productos, las relaciones y los gustos de los clientes

por ellos. 

2:09
O podemos identificar, por ejemplo, a Pandora, que es capaz también de hacerte recomendaciones de canciones con base en tus gustos particulares. ¿Cómo es posible que

Pandora sea capaz de conocer esto? Pues hace algo muy similar. Aprovecha información sobre gustos preliminares que tú has declarado en términos de canciones, de

géneros, de autores, a través de los cuales es capaz de hacerte una recomendación acorde con tus intereses, sin necesidad de que te desgastes en ver distintos tipos de

música, géneros, alternativas. Sino algo que vaya muy acorde con aquello que a tí te interesa. 

2:49

O Shazam, que puede ser también un tercer ejemplo, que es capaz, simple y sencillamente, al escuchar un pequeño fragmento de canción, identificar precisamente a qué

melodía, a qué canción corresponde. Es decir, no es necesario que escuche la canción en su totalidad, sino sólo un pequeño fragmento de ella, para a través de un algoritmo

de análisis de datos, identificar cuál es esa canción y darte su nombre, género o autor de manera inmediata. Ahora, debemos de ser muy cuidadosos, pues el contar con mayor

información y mayor cantidad de datos siempre será útil, pero tenemos que enfocarnos en identificar cuáles de esos datos, o cuál de esa información nos va a ayudar a realizar

mejores análisis y, en consecuencia, a tomar mejores decisiones. 

3:42

Dentro de tu organización, de manera particular, es muy importante que tú identifiques quiénes son las personas, áreas o departamentos responsables de generar información,

cuándo y cómo deben generarla. Pero, de igual forma, tienes que identificar también a las personas, áreas o departamentos responsables de hacer uso, ya sea para análisis y

para la toma de decisiones, dentro de tu organización. Si tienes claridad en esos dos elementos, acompañado también con el contar con el equipo, tecnología, infraestructura y

ecosistema adecuado para generar y analizar esos datos podrás mejorar en forma importante el desempeño, dentro de tu organización. 

4:28

Este diagrama te presenta precisamente un marco conceptual bajo el cual tú puedes adentrarte en el análisis y manejo de datos. En la parte inferior, o en la base de toda esta

estrategia, vamos a estar precisamente generando datos. Pero, es muy importante tener claridad sobre quién va a estar habilitando, produciendo y consumiendo esos como

parte de tareas medulares de inicio. Y al mismo tiempo, vas a tener responsables de generar información a partir de esos datos, realizar análisis determinados y, algo

fundamental, tomar decisiones con base en ellos. Esta información, análisis y decisiones pues buscan contribuir precisamente a mejorar el desempeño de tu organización, el

cual debe de ir alineado a la estrategia y las conductas deseables a las cuales tú estés aspirando. Si logras integrar todos estos elementos de manera clara, ordenada y

estructurada, serás capaz de contribuir de manera importante no sólo a la toma de decisiones, a la generación de información, sino además al desempeño de tu organización,

siendo precisamente capaz de incrementar los resultados o los indicadores clave que tus hayas definido para la misma. Iniciemos precisamente con una reflexión en este

sentido. ¿Cuenta tu organización con todos los datos y toda la información necesaria para proveer un extraordinario servicio y propuesta de valor a tus clientes? 

6:09

Diversos estudios han estimado que más del 80% de las organizaciones no cuentan al día de hoy con todos los datos e información que pueda ayudarles en la mejor forma

posible a analizar su desempeño y mejorar la toma de decisiones dentro de ellas mismas. Te invito a realizar esta reflexión dentro de tu propia organización. Primera parte,

¿quiénes son aquellas áreas, personas o departamentos que están en posición de generar precisamente esos datos o información? E inclusive, ¿cuáles son esos datos

actuales -o inclusive nuevos- que sería pertinente conozcas para poder tener mayor y mejor sensibilidad sobre lo que está ocurriendo dentro de tu empresa? Y a partir de ello,

conocer mejor el comportamiento de tus clientes, lo que ocurre en tu entorno, lo que ocurre en términos de proveedores, de nuevos clientes potenciales, lo que está haciendo

la competencia, integrar todos esos datos, generar información a partir de ello y ser capaz de mejorar el desempeño de la misma. Si no tienes claridad en todos estos

elementos, no podrás sacar el mayor provecho posible que te da toda esta nueva y apasionante área de conocimiento. Te invito a adentrarte, a definir cada uno de estos
elementos en tu propia empresa, pues al tener claridad en cada uno de ellos, podrás sacar provecho en la mayor y en la mejor forma posible de todos lo que estaremos

revisando en el resto de los módulos y el contenido de esta lección en particular. 

Resumen
El contar con la información adecuada en el momento correcto es una condición indispensable para
realizar buenos análisis y tomar las mejores decisiones. Esto ha tomado mayor importancia en los
últimos años, debido a la gran cantidad de datos e información que es posible recolectar y que
sigue creciendo en forma exponencial. Como resultado de ello, el análisis de grandes cantidades de
datos –o Big Data, como se le llama en inglés- se ha convertido en toda una tendencia y
herramienta fundamental para el análisis y toma de decisiones en las organizaciones. Almacenar,
manejar y analizar grandes cantidades de datos es ya un diferenciador importante entre
organizaciones de alto y bajo desempeño. Esta lectura muestra las cuatro dimensiones
fundamentales para el análisis de datos, así como elementos críticos para la toma de decisiones
con base en ellos.

¿Qué es el análisis de datos?


De acuerdo al McKinsey Global Institute, “los datos a gran escala (Big Data) se definen como “las
bases de datos cuyo tamaño está más allá de la capacidad que tiene el software tradicional para su
manejo en términos de captura, almacenamiento, gestión y análisis.” El reporte de EdTech en 2013
afirma que “cada día creamos 2.5 quintillones (1020) de bytes en datos”. Es tan alto este volumen,
que el 90% de los datos que existen en la actualidad fueron creados tan sólo en los últimos dos
años. Estos datos provienen de una gran cantidad de fuentes: de los sensores utilizados para juntar
información del clima, de publicaciones en redes sociales, de búsquedas en línea, compras vía
sitios web, transacciones en el supermercado, información leída por sensores, uso de redes
sociales para interactuar y usar el GPS de fotografías y videos digitales, archivos de transacciones
de compras, por nombrar sólo algunas. En realidad, hemos estado acumulando datos desde el
inicio de la humanidad; no obstante -y conforme la tecnología avanza- los datos se van acumulando
a una velocidad exponencial.
Más allá de referirse a la “ola de la era de la información”, los datos han sido considerados como “el
nuevo petróleo” de la economía actual, pues pueden ser empleados para diversos propósitos de
alto beneficio en las organizaciones.

Objetivos fundamentales
Existen tres objetivos fundamentales que debes aspirar a desarrollar en esta área de conocimiento.
1. El primero es desarrollar un pensamiento crítico sobre los datos y el análisis basado en ellos –ya
sea que dicho análisis es llevado a cabo por ti mismo o por alguien dentro o fuera de tu
organización;
2. El segundo es identificar las posibilidades para crear valor en tu organización mediante el Análisis
de datos;
3. El tercero es desarrollar la capacidad de estimar el valor creado a través del Análisis de Datos al
desarrollar una oportunidad.
Recuerda, que toda esta área de conocimiento representa un pilar fundamental de la gestión y
administración de organizaciones en el mundo actual, por lo que se requiere que desarrolles los
fundamentos necesarios para aplicar estos métodos, identificar oportunidades y sacar provecho de
ellas.

Cuatro dimensiones para el análisis de datos


El análisis de datos se puede dar desde cuatro dimensiones a considerar: volumen, velocidad,
variedad y veracidad. A esto se le denomina las “4-V’s”.
La dimensión de volumen se refiere al tamaño de los datos. Desde el inicio del tiempo registrado y
hasta el 2003 se había creado cinco billones de gigabytes (exabytes) de datos. Sin embargo, en
2011 la misma cantidad de datos fue creada casi cada dos días. En 2013, la misma cantidad de
datos era creada cada 10 minutos.
La velocidad se refiere al tiempo bajo el cual es pertinente analizar datos e información. Dado que
los datos son creados cada segundo, estos se vuelven obsoletos rápidamente. Por esta razón, es
importante hacer uso de estos datos lo más rápido posible, o sustituirlos por datos más actualizados
que se generen en forma ágil.
La tercera dimensión, variedad, se refiere a los diferentes tipos de datos que se recolectan. Existen
datos estructurados, no estructurados, datos en texto, datos numéricos, datos en imágenes o datos
en audio y video, por mencionar solo algunos de ellos.
Finalmente, la veracidad se refiere a la certidumbre asociada a estos datos. Específicamente, esta
dimensión considera ciertas alteraciones que los datos puedan tener durante su generación o
recolección, por lo que no necesariamente se conoce cuáles de ellos son del todo confiables y
cuáles no. Esta dimensión es tan importante, que organizaciones como IBM han estimado que la
baja calidad de datos le cuesta alrededor de $3.1 trillones de dólares a la economía de los Estados
Unidos.

¿Por qué debe interesarte el análisis de datos?


El objetivo final no está solamente en generar, almacenar y manejar grandes cantidades de datos.
Una vez que los datos son creados y almacenados, el siguiente paso es analizarlos para
convertirlos en información útil. Esta información se convierte en conocimiento para tomar
decisiones, cuando así es necesario. La Figura 1 muestra precisamente un panorama general del
proceso para la toma de decisiones que se debe seguir en cualquier organización, al hacer uso de
datos en forma adecuada.
Por razones como estas es que el análisis y manejo de datos para la toma de decisiones -conocido
en inglés como ‘Analytics’- está revolucionando nuestro mundo. Las posibilidades de esta área del
conocimiento son infinitas.
De igual forma, se han desarrollado sistemas para apoyar a radiólogos en la evaluación de
mamografías de cáncer por medio de la comparación pixel por pixel con decenas de miles de
ejemplos de escaneos normales y anormales; así como sistemas de recomendación que sugieren
qué productos comprar, adecuándose a las preferencias personales y comportamientos pasados.
La lista de aplicaciones es impresionantemente diversa y seguirá rápidamente expandiéndose en
los siguientes años.

Referencias
Liu, Y. (2014). Big Data and Predictive Business Analytics. The Journal of Business Forecasting,
33(4), 40.

Fundamentos para la exploración y predicción de datos

0:00
Hola. Me da mucho gusto darte la bienvenida a este segundo módulo. En el que cubriremos un
tema que es fundamental para adentrarnos de lleno en esta apasionante área del conocimiento. De
manera particular en este módulo veremos lo referente a la exploración y predicción de datos, que
es un aspecto fundamental en el cual tenemos que establecer ciertos cimientos que nos serán de
mucha utilidad. 

0:33
Para adentrarnos en esta área del conocimiento, en esta primera lección veremos de manera
particular diversas herramientas y modelos estadísticos así como determinado equipo
computacional que nos ayudará en esta línea. Revisaremos distintas herramientas estadísticas
como modelos de pronósticos. 
0:52
Modelos para estableces relaciones y correlaciones entre variables para a partir de ello identificar
patrones, comportamientos o tendencias como los que hemos visto manejan grandes
empresas. Estos patrones, comportamientos y tendencias nos van a permitir
establecer predicciones o pronósticos sobre el comportamiento futuro de esas variables. 

1:15
Es muy importante en este sentido identificar la diferencia entre esos dos tipos de variables. Vamos
a hablar de variables aleatorias y variables de decisión. Las variables aleatorias son aquellas que
no dependen de nosotros como organización pero afectan nuestro desempeño. Un buen ejemplo es
el precio de la materia prima que utilizamos o que nos acercan nuestros proveedores. El precio final
de la materia prima no depende de nosotros, podemos influir mediante negociaciones o acuerdos
con los proveedores pero la decisión final depende de ellos, es decir, es una variable aleatoria para
nosotros. Por otro lado las variables de decisión son aquellas sobre las que directamente
incidimos. Por ejemplo, el número de unidades a producir en tu organización es un buen ejemplo de
una variable de decisión. Es muy importante diferenciar y establecer claramente, cuando
hablemos de variables de decisión y variables aleatorias porque nos enfocaremos en aquellas que
no dependen de nosotros, es decir en las variables aleatorias. 

2:17
Pensemos en una aerolínea, puede ser Aeroméxico, Copa Airlines LAN, Aviacsa, Interjet, Volaris,
por mencionar solo algunas de ellas. 

2:28
Entre todas estas opciones la que no corresponde a una variable aleatoria es el tipo de alimentos a
ofrecer durante el vuelo. Existen al día de hoy diversas aerolíneas como Ryanair en Europa como
Spirit Airlines en los Estados Unidos o Viva Aerobus en México que han decidido cambiar su
propuesta de valor a sus clientes, al retirar aspectos complementarios como el servicio de
alimentos. Y esa propuesta de valor consiste en moverte a ti como usuario o como cliente del origen
A al punto B en el cual te estás moviendo a través de ese vuelo o esa conexión en particular que
estás tomando con ellos es decir, ellos han decidido retirar ese tipo de servicio, ese tipo de
alimentos como parte de su propuesta de valor para ofrecer algo fundamental dentro de lo que ellos
te están proponiendo. Te invito a adentrarte en la lectura asociada a esta primera lección. En la que
encontrarás precisamente esas herramientas, modelos y apoyo computacional que te permitirá
adentrarte en esta exploración y predicción de datos. De igual forma es fundamental que te metas
de lleno en la actividad asociada al cierre de esta lección, en la que conocerás a detalle ese
software computacional con base en el cual empezaremos a realizar algunos análisis, identificar
patrones, tendencias y comportamientos entre esas variables y esos datos a partir de los cuales
podrás realizar análisis y toma de decisiones particulares dentro de tu organización. 

4:02
Es muy importante que te metas de lleno en esto, que seas curioso que seas ambicioso y que
pienses cómo puedes aterrizar todo esto de manera puntual y de manera particular en tu beneficio
propio y sobre todo en el beneficio de tu organización. 
Con frecuencia estamos interesados en obtener razonamientos válidos respecto a datos de un
grupo grande de personas u objetos, pero nuestra capacidad humana para analizar al mismo
tiempo grandes cantidades de datos es limitada, por lo cual se utilizan las herramientas
estadísticas.
La expresión estadística puede considerarse como la colección de datos numéricos, resultado de
observaciones clasificadas y ordenadas según un determinado criterio, siendo los datos valores
particulares de una variable.
Los datos se pueden dividir en cualitativos y cuantitativos. Los datos cualitativos son aquellos que
no representan un valor numérico, éstos pueden ser nominales u ordinales. Los nominales son los
que funcionan solamente como etiquetas mientras que los ordinales son valores que se asignan de
acuerdo a un orden que contiene información sobre la intensidad del atributo. Los datos
cuantitativos son lo que son intrínsecamente numéricos, se pueden dividir en discreto o continuos.
Los discretos representan valores enteros y con frecuencia describen conteos mientras que los
continuos se pueden producir cualquier valor en un intervalo.
En el desarrollo de los métodos estadísticos la población se define como el conjunto de sucesos,
personas, objetos, etc. Que le interesan a la persona que hace el estudio. La población según el
tamaño puede ser finita o infinita. El concepto de infinita solo existe en teoría, ya que en la práctica
no encontraremos aplicación a poblaciones de elementos infinitos como, por ejemplo, las estrellas
de universo. Sin embargo, en la estadística matemática las poblaciones con un número
suficientemente grande de elementos son tratados como si fueran infinitos.
Cuando la población o conjunto es muy grande, se hace difícil la observación de los caracteres a
estudiar en cada uno de los elementos, debido al enorme costo que tendría la observación de toda
la población y debido también al enorme trabajo y tiempo necesarios para llevar a cabo una
observación exhaustiva de cada uno. Estos trabajos, inconvenientes, pueden ser superados
mediante la elección de una muestra lo suficientemente representativa de la población. Una
muestra se puede definir como un subconjunto de la población a la que se tiene acceso y se
pueden hacer observaciones.
Una muestra aleatoria es una muestra muy representativa de la población. Se considera que cada
elemento ha tenido la misma probabilidad de pertenecer a la muestra. Por lo que las conclusiones
basadas en una muestra aleatoria resultan confiables.

Estadística descriptiva
La estadística descriptiva es el conjunto de métodos y técnicas que se usan para recolectar,
organizar y presentar en forma de tablas y gráficas, información numérica; incluyendo el cálculo de
medidas estadísticas de tendencia centralidad y dispersión.

Medidas de tendencia central

Media aritmética
Es una medida de tendencia central que resulta conveniente cuando los datos no presentan valores
atípicos o extremos ya que es muy sensible a estos. Se puede decir que representa el centro de
gravedad de los datos. La media aritmética se calcula con la suma de los valores de los datos de la
muestra divididos entre el número total de datos que conforman la muestra.

Mediana
Es una medida de tendencia central y se define como el valor que divide un conjunto de datos
previamente ordenados de menor a mayor, y es el punto intermedio entre todos ellos. Esta medida
es conveniente cuando la muestra presenta datos atípicos o extremos.
Se calcula ordenando los datos de menor a mayor. Si el número N de datos es impar, entonces hay
un número intermedio que es el que representa la mediana. En el caso de que el número N de
datos sea par, entonces hay dos datos intermedios, por lo que se calcula la media entre ellos.
Moda
En un conjunto de datos de una muestra la moda es el valor que ocurre con mayor frecuencia, por
lo que es el valor más representativo.

Medidas de dispersión
Mientras que las medidas de tendencia central describen el comportamiento de los datos en una
muestra o conjunto de datos, las medidas de dispersión proporcionan información acerca de cómo
están distribuidos o dispersos los valores con relación a la tendencia central.

Rango
En todo conjunto de datos hay valores extremos, uno menor y otro mayor, la diferencia entre estos
se le llama rango. Esta medida de dispersión es la más fácil de obtener, sin embargo se usa poco
debido a que es muy influenciable por la presencia de valores extremos de poca frecuencia, lo cual
conduce a apreciaciones falsas.
Varianza
Es una medida de dispersión que refleja la distancia al cuadrado de los valores en un conjunto con
el valor esperado o media.
Para calcular la varianza es necesario contar con el valor de la media. Se obtiene la diferencia de
cada valor del conjunto con la media y se eleva al cuadrado. Se suman todos los valores obtenidos
y se dividen entre el número de datos.

Desviación estándar
Es la medida de dispersión más utilizada y muy objetiva. Cuanto mayor sea su valor, mayor es la
dispersión de los datos, aunque no se puede determinar si se encuentra por encima o por debajo de
la media aritmética.
Se calcula obteniendo la raíz cuadrada de la varianza.

Cuartiles
Son medidas de posición que permiten conocer los intervalos dentro de los cuales quedan
representados proporcionalmente los elementos de un conjunto, se divide la distribución de
frecuencias en 4 partes iguales, cada una contiene igual número de observaciones.
El primer cuartil corresponde el 25% y se designa con Q1. El segundo cuartil representa el 50% y
coincide con la mediana. El tercer cuartil representa el 75% de las observaciones que están por
debajo de él.

Referencias
Fuenlabrada, S. (2004). Probabilidad y Estadística. México: McGrawHill.
Ramírez, M. M. (s.f.). Departamento de Estadística y Centro de Estadística Aplicada. Recuperado
de ITAM http://allman.rhon.itam.mx/~mendoza/EyP.pdf
Salinas, H. (2012). Universidad de Atacama. Recuperado de
http://www.mat.uda.cl/hsalinas/cursos/2010/eyp2/clase1.pdf

Identificando patrones y comportamientos relevantes para la predicción de datos


0:00

Hola, ¿cómo estás? Me da mucho gusto darte la bienvenida a la segunda lección de este módulo, enfocado en el uso de herramientas computacionales para la exploración de

datos. ¿A qué nos referiremos con la exploración de datos? Como hemos mencionado anteriormente, va a ser fundamental que identifiquemos patrones, tendencias,

comportamientos entre dos, tres o más grupos de variables, para a partir de ello poder realizar una predicción o poder anticipar el comportamiento futuro de una variable

aleatoria de nuestro interés. Permíteme ponerte un ejemplo. Piensa en el área de compensaciones de una organización, responsable de definir un nivel de sueldo y que sea un

nivel de sueldo competitivo para los empleados que desea tener laborando dentro de ella. Para definir ese nivel de sueldo es necesario revisar cómo está el entorno y revisar

cómo están sueldos para puestos similares considerando experiencia, trayectoria, nivel de sueldo, geografías y zonas geográficas similares a partir de las cuales pueda revisar

qué es lo que está ocurriendo ahí afuera, que no está bajo su control, para a partir de ello definir internamente 

1:24

un nivel de sueldo que sea competitivo y que sea atractivo de acuerdo al tipo de personas que desea atraer dentro de su organización. Un segundo caso de mucho interés es,

¿qué tan probable es que tú decidas comprar un producto B dado que previamente tu compraste un producto A? Es decir, ¿cuál es tu interés de compra por determinado

producto dado que en el pasado has adquirido otros? Eso lo podrá identificar una organización al revisar patrones de comportamiento de compra en clientes similares a lo que

tu realizas precisamente también como cliente. Es decir, ¿qué tipos de compras has realizado? ¿Qué tipo de productos has adquirido? ¿Por qué tipo de productos has hecho

búsquedas o has hecho consultas? Para con base en ello hacer buscar hacerte una recomendación sobre qué producto puedes adquirir. Eso es precisamente lo que realizan

empresas como Amazon. Cuando tú haces una búsqueda de un producto, automáticamente Amazon te realizará en su sitio web recomendaciones sobre productos similares

que otros clientes que han hecho búsquedas sobre este tipo de productos han eventualmente adquirido. Es decir, te está haciendo una recomendación con base en la

exploración y revisión de datos para a partir de ello definir una recomendación o una tendencia sobre posible interés de compra con base en esa información. En la lectura

anexa a esta lección encontrarás una guía que te podrá apoyar en forma muy importante para aprender y utilizar esos modelos estadísticos y herramientas computacionales

como la que estaremos manejando para realizar esta exploración de datos. Es decir, agrupar variables, identificar patrones, tendencias o comportamientos entre ellas, valores

mínimos, valores máximos, relaciones que sean importantes para a partir de ello predecir comportamientos futuros. Es muy importante que seas sensible a que no vas a

encontrar una respuesta única o una respuesta correcta. Tendrás que estar realizando distintos análisis con distintas alternativas y a partir de ello revisarlo bajo distintos

enfoques para poder irlo mejorando en forma continua. Te invito a que trabajes de manera muy detallada, muy estructurada, que lo practiques, pues esa práctica te permitirá

desarrollar una mayor y mejor capacidad y, en consecuencia, poder realizar mejores análisis y poder tomar mejores decisiones. Trabájalo de manera ardua, de manera muy

dura y muy estructurada y estoy seguro que encontrarás aspectos muy interesantes de beneficio para ti y 

4:01

también para tu organización  


Una vez concluidas las etapas de colección y procesamiento de datos se inicia con una de las más importantes fases de una investigación: el análisis de datos. El análisis de
datos es el precedente para la actividad de interpretación. La interpretación se realiza en términos de los resultados de la investigación. Esta actividad consiste en establecer
inferencias sobre las relaciones entre las variables estudiadas para extraer conclusiones y recomendaciones (Kerlinger, 1982). La interpretación se realiza en dos etapas:

1. Interpretación de las relaciones entre las variables y los datos que las sustentan con fundamento en algún nivel de significancia estadística.
2. Establecer un significado más amplio de la investigación, es decir, determinar el grado de generalización de los resultados de la investigación.

El propósito es, entonces, describir el comportamiento de una variable a partir de la información correspondiente, contenida en un banco de datos. Así, la información está
formada por los datos que se encuentran en una columna del banco y la principal característica de esos datos es su variabilidad.
“Analizar significa establecer categorías, ordenar, manipular y resumir los datos,” (Kerlinger, 1982, p. 96). En esta etapa del proceso de investigación se procede a racionalizar
los datos colectados a fin de explicar e interpretar las posibles relaciones que expresan las variables estudiadas.
Organización de datos
Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la distribución de frecuencias y b) la representación gráfica.
Distribución de frecuencias
Comúnmente llamada tabla de frecuencias, se utiliza para hacer la presentación de datos provenientes de las observaciones realizadas en el estudio, estableciendo un orden
mediante la división en clases y registro de la cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la realización de un mejor análisis e interpretación
de las características que describen y que no son evidentes en el conjunto de datos brutos o sin procesar. Una distribución de frecuencias constituye una tabla en el ámbito de
investigación.
La distribución de frecuencias puede ser simple o agrupada. La distribución de frecuencias simple es una tabla que se construye con base en los siguientes datos: clase o
variable (valores numéricos) en orden descendente o ascendente, tabulaciones o marcas de recuento y frecuencia.

La distribución de frecuencia agrupada se utiliza cuando el número de variables es muy


grande o la variable es continua, para este caso se definen clases. En las clases se agrupan
valores en intervalos de la misma amplitud y se calcula la frecuencia correspondiente.

Interpretación de las relaciones entre las variables

Correlación entre variables


La correlación estadística constituye una técnica estadística que nos indica si dos variables están relacionadas o no. Por ejemplo, considera que las variables son el ingreso
familiar y el gasto familiar. Se sabe que los aumentos de ingresos y gastos disminuyen juntos. Por lo tanto, están relacionados en el sentido de que el cambio en cualquier
variable estará acompañado por un cambio en la otra variable.
Si el cambio en una variable está acompañado de un cambio en la otra, entonces se dice que las variables están correlacionadas. Por lo tanto, podemos decir que el ingreso
familiar y gastos familiares y el precio y la demanda están correlacionados.
La correlación puede decir algo acerca de la relación entre las variables. Se utiliza para entender si la relación es positiva o negativa y la fuerza de la relación.
La correlación es una herramienta poderosa que brinda piezas vitales de información. La correlación estadística es medida por lo que se denomina coeficiente de correlación
(r). Su valor numérico varía de 1,0 a -1,0. Nos indica la fuerza de la relación.
En general, r> 0 indica una relación positiva y r <0 indica una relación negativa, mientras que r = 0 indica que no hay relación (o que las variables son independientes y no
están relacionadas). Aquí, r = 1,0 describe una correlación positiva perfecta y r = -1,0 describe una correlación negativa perfecta.
La correlación es solamente apropiada para examinar la relación entre datos cuantificables significativos (por ejemplo, la presión atmosférica o la temperatura) en vez de datos
categóricos, tales como el sexo, el color favorito, etc.
El tipo de correlación se puede deducir según la forma de la nube de puntos representada en un gráfico de dispersión:

 Correlación nula: No existe ninguna relación entre las variables. Se dice que ambas son independientes.

 Correlación lineal: Existe una relación lineal negativa si al aumentar los valores de la variable independiente disminuyen los valores de la variable dependiente y
relación lineal positiva si al aumentar los valores de la variable independiente aumentan los valores de la variable dependiente.

 Correlación no lineal: Existe una relación entre las variables pero no es lineal.

Características de series de tiempo


Por serie de tiempo nos referimos a datos estadísticos que se recopilan, observan o registran en intervalos de tiempo regulares (diario, semanal, semestral, anual, entre otros).
El término serie de tiempo se aplica por ejemplo a datos registrados en forma periódica que muestran, por ejemplo, las ventas anuales totales de almacenes, el valor trimestral
total de contratos de construcción otorgados, el valor trimestral del PIB.
Componentes de la serie de tiempo
Existen cuatro tipos básicos de variación, los cuales sobrepuestos o actuando en concierto, contribuyen a los cambios observados en un período de tiempo y dan a la serie su
aspecto errático. Estas cuatro componentes son: Tendencia secular, variación estacional, variación cíclica y variación irregular.

1. Tendencia secular: La tendencia secular o tendencia a largo plazo de una serie es por lo común el resultado de factores a largo plazo. En términos intuitivos, la
tendencia de una serie de tiempo caracteriza el patrón gradual y consistente de las variaciones de la propia serie, que se consideran consecuencias de fuerzas
persistentes que afectan el crecimiento o la reducción de la misma, tales como: cambios en la población, en las características demográficas de la misma,
cambios en los ingresos, en la salud, en el nivel de educación y tecnología. Las tendencias a largo plazo se ajustan a diversos esquemas. Algunas se mueven
continuamente hacía arriba, otras declinan, y otras más permanecen igual en un cierto período o intervalo de tiempo.
2. Variación estacional: El componente de la serie de tiempo que representa la variabilidad en los datos debida a influencias de las estaciones, se llama
componente estacional. Esta variación corresponde a los movimientos de la serie que recurren año tras año en los mismos meses (o en los mismos trimestres)
del año poco más o menos con la misma intensidad. Por ejemplo: Un fabricante de albercas inflables espera poca actividad de ventas durante los meses de otoño
e invierno y tiene ventas máximas en los de primavera y verano, mientras que los fabricantes de equipo para la nieve y ropa de abrigo esperan un
comportamiento anual opuesto al del fabricante de albercas.
3. Variación cíclica: Con frecuencia las series de tiempo presentan secuencias alternas de puntos abajo y arriba de la línea de tendencia que duran más de un año,
esta variación se mantiene después de que se han eliminado las variaciones o tendencias estacional e irregular. Un ejemplo de este tipo de variación son los
ciclos comerciales cuyos períodos recurrentes dependen de la prosperidad, recesión, depresión y recuperación, las cuales no dependen de factores como el
clima o las costumbres sociales.
4. Variación Irregular: Esta se debe a factores a corto plazo, imprevisibles y no recurrentes que afectan a la serie de tiempo. Como este componente explica la
variabilidad aleatoria de la serie, es impredecible, es decir, no se puede esperar predecir su impacto sobre la serie de tiempo. Existen dos tipos de variación
irregular: a) Las variaciones que son provocadas por acontecimientos especiales, fácilmente identificables, como las elecciones, inundaciones, huelgas,
terremotos. b) Variaciones aleatorias o por casualidad, cuyas causas no se pueden señalar en forma exacta, pero que tienden a equilibrarse a la larga.

Referencias
Baray, H. L. (2006). Introducción a la Metodología de la Investigación. Juan Carlos Martínez Coll.
Explorable.com. (02 de Mayo de 2009). La Correlación Estadística. Obtenido de https://explorable.com/es/la-correlacion-estadistica
Instituto Nacional de Estadística. (s.f.). Tipos de gráficos. Obtenido de http://www.ine.es/explica/docs/pasos_tipos_graficos.pdf
Kerlinger, F. (1983). Investigación del Comportamiento. Técnicas y Metodología. México: Interamericana.
Ramírez, M. M. (s.f.). Departamento de Estadística y Centro de Estadística Aplicada. Obtenido de ITAM: http://allman.rhon.itam.mx/~mendoza/EyP.pdf
Universidad de Sonora. (s.f.). Series de tiempo. Obtenido de Departamento de Matemáticas: http://www.estadistica.mat.uson.mx/Material/seriesdetiempo.pdf

Tutorial: Exploración de datos a través de Watson Analytics

0:00

En este tutorial te enseñaremos a utilizar una herramienta computacional fundamental para actualizar todo lo que hemos conversado Watson Analytics. 

0:19

Muy bien, imagina que enfrentamos la siguiente situación, tu tienes un conjunto de datos de venta, de tu organización, este es un ejemplo 

0:28

académico pero es muy similar a lo que te enfrentarías en la vida real, si te fijas es una gran cantidad de datos, de hecho en este ejemplo particular estamos manejando datos

de ventas de más de 500 ubicaciones, periodos, etcétera. ¿Qué información tenemos? Tenemos la identificación del mercado, tenemos clasificado cada uno de esos mercados

en función a su tamaño, un identificación de la ubicación, la antigüedad de ese punto de venta, el tipo de estrategia que se siguió en esa semana y las ventas asociadas. ¿Qué

tipo de preguntas podemos plantearnos cuando manejamos este tipo de datos? Pues diversas preguntas y estoy seguro que te estarán surgiendo varia de ellas en tu mente,

en este momento. ¿Cómo influye el punto de venta o que tan importante es el punto de venta o el tamaño del mercado para el volumen de ingreso que te genera? ¿Cómo

influyó la semana? ¿Cómo influyó la estrategia de promoción? ¿Cómo manejar rápido y fácilmente este conjunto de datos? Vete a cualquier navegador y dentro de él, busca o

coloca las palabras claves Watson Analytics. Cuando tu colocas esto, te aparece directamente la liga a este software. ¿Cuál es una de las grandes ventajas de este
software? Que es un software que está disponible en la nube, es decir, tu puedes acceder a él desde cualquier sitio web. Lo que hacemos a partir de esto, es que al entrar a la

página la primera ocasión tú puedes crear tu propio password aquí con la opción Create Free Account, colocas tu cuenta de correo y al dar clic aquí podrás crear tu propio

acceso. En mi caso me voy a la opción de Sign In, en la parte superior derecha, con lo cual lo que yo voy a hacer, como ya me di de alta previamente, coloco precisamente mi

cuenta de correo 

2:14

y además de mi cuenta de correo coloco también mi password. Te vas a dar cuenta que al entrar, que Watson Analytics te presenta cuatro alternativas que van en línea con lo

que estaremos viendo en el módulo 2 y módulo 3 respectivamente. En el módulo 2 como recordarás vamos a ver como explorar datos y hacer predicciones a partir de ello,

mientras que el módulo 3 veremos la integración o ensamble de datos y el como, como decimos coloquialmente, ir puliendo o ir afinando nuestros datos para poder realizar

análisis más valiosos e interesantes a partir de ello. Verás que al entrar Watson Analytics te presenta también en la parte inferior un conjunto de vídeos, dentro de lo cuales tú

puedes ver aspectos detallados del tutorial, algunos ejemplos etcétera. Trabajemos en la primer alternativa, que es el objetivo de esta lección, la exploración de datos. Voy a

dar clic aquí en la alternativa Explore o exploraración, si te das cuenta abre la opción, abre esta venta, donde hay una opción para subir tus propios datos en mi caso me puedo

ir a buscar dentro del equipo de cómputos y tengo ya aquí identificados estos datos, de hecho ya yo lo subí previamente y como verás aquí aparecen. Cuando abro esta base

de datos que es cualquier archivo de datos o archivos de Excel. La gran ventaja de software como Watson Analytics es que no te presenta solamente la base de datos si no ya

hizo un análisis previo de ella y te presenta inclusive algunas preguntas que tú podrías estarte planteando. ¿Cómo influye el tamaño del mercado en el volumen de ventas, el

tipo de promoción, etcétera, etcétera? Selecciono el primero y fíjate lo que ocurre, lo que te muestra es ya, tus datos ordenados o estratificados. ¿Cómo influye el tamaño del

mercado en el volumen de venta? Tú puedes ver aquí los distintos tamaños, el volumen de venta promedio y a partir de ello pues, empezar a observar como se

comporta precisamente tus ventas y tus ingresos pero te dan muchas otras alternativas, puedes ver aquí como se clasifican de algunos otros criterios, en la parte superior

como puedes observar, aparecen distintas alternativas selecciona una de ellas, le das clic en New Page y lo que hace es que te muestra en pantalla todos esos datos

ordenados y categorizados de esa forma. Tú puedes ver, acá por ejemplo, el identificador de la ubicación como está en función del tipo de promoción y aquí puedes ver

precisamente esos datos. La antigüedad de la tienda versus el identificador del mercado, por colocar solo algunos ejemplos. A partir de ello cuál es el reto más

importante. Qué, puedes empezar a graficar qué datos versus qué datos, cómo puedes ordenarlos, estratificarlos, cómo puedes aplicar filtros, como aparece en la parte

superior izquierda, cómo puedes ordenarlos de distinta manera. Como todo software computacional, piensa en cualquier software que has utilizado en tu vida, las primeras

ocasiones que entras te puede parecer poco familiar o un poco complicado pero la práctica hace al maestro. Tienes que practicar mucho, tienes que probar datos tienes que

equivocarte, es natural que nos equivoquemos en el proceso de aprendizaje. Si tú te fijas en la parte superior derecha puedes dar clic acá a que aparezcas otras

opciones. Métete a jugar con tus datos, realiza análisis, exploraros, busca comportamientos y a partir de eso ve generando tus propios análisis. En este momento lo que yo

hago, es voy a la parte superior derecha, donde aparece mi nombre, le doy salir o Logout y 

5:53

esa base de datos queda grabada dentro de mi propio acceso y en la ocasión posterior que yo llegue a entrar, estarán ya ahí disponible. 

6:05

Es fundamental que después de haber visto este tutorial sigas trabajando y sigas practicando de manera constante a través del uso de esta herramienta computacional. Como

todo en la vida la práctica hace al maestro, por lo que es muy importante que estés entrando nuevamente, colocando tus propios datos y tu propia información, que estés

ensayando, buscando patrones, tendencias, comportamiento como ya lo hemos revisado para poder no solo mejorar tu capacidad sino además ser capaz precisamente de
generar resultados y análisis muy particulares, con base en los datos y en la información que tú mismo has generado. Adelante sigue practicando, hasta que te sientas muy

cómodo con los resultados que estás obteniendo. 

https://www.coursera.org/learn/analisis-de-datos/lecture/G9mQ7/tutorial-exploracion-de-datos-a-traves-de-watson-analytics

También podría gustarte