Documentos de Académico
Documentos de Profesional
Documentos de Cultura
org/learn/analisis-de-datos/lecture/tCMja/bienvenido
0:00
Hola, ¿cómo estás? Me da enorme gusto saludarte y darte a ti la bienvenida a este curso Fundamentos del análisis de datos para la toma de decisiones. Yo soy Marcos
Serrato soy profesor investigador en el Tecnológico de Monterrey, y voy a tener el enorme gusto de adentrarte a ti a esta nueva y apasionante área de conocimiento que está
transformando nuestra sociedad. Y de igual forma, ayudarte a adquirir diversos conocimientos y herramientas que te permitirán tomar diversas decisiones, realizar distintos
análisis y estudios, que apoyarán precisamente la toma de decisiones y el desempeño de tu organización. ¿Estás listo para adentrarte en esta apasionante área de
conocimiento? Bienvenido.
https://www.coursera.org/learn/analisis-de-datos/lecture/6sU0R/introduccion
0:00
Permíteme iniciar revisando juntos cuáles son los beneficios y capacidades que tú lograrás desarrollar al haber concluido este curso. Primero que nada, serás capaz de
identificar todos los enormes beneficios, antecedentes y potencial que te presenta a ti esta área de conocimiento en tu futuro inmediato y, para lograrlo, estaremos revisando
juntos diversos casos exitosos de empresas y organizaciones, tanto a nivel local, a nivel regional y a nivel internacional pero, de igual forma, no solo lograrás identificar y
revisar juntos estos casos exitosos, lograrás desarrollar tú la capacidad de utilizar diversas herramientas, métodos que te permitirán realizar estos análisis de datos e
información relevante en tu organización para apoyar la toma de decisiones dentro de la misma, para lo cual, estarás utilizando diversos modelos y herramientas que te estarán
apoyando a lo largo de este proceso en tu organización. Conocerás también todo el crecimiento, el Status actual y el potencial que te presenta está área de conocimiento a tí y
a cada uno de nosotros en el futuro inmediato. Y, algo muy importante también es que desarrollarás la capacidad de identificar distintos modelos, herramientas, conceptos y
apoyo computacional, que te va a permitir desarrollar distintos análisis, reflexiones, identificar comportamientos, patrones y aspectos que serán de interés y utilidad para ti y
para tu organización para tomar buenas, nuevas y mejores decisiones que impacten positivamente en el desempeño de tu organización. Y, lo más importante, al haber
finalizado este curso podrás decir que no solo tomas decisiones, sino que las tomas en forma analítica, ordenada y estructurada para mejorar en forma importante y en forma
significativa el desempeño de tu organización y los resultados que están obteniendo el día de hoy y que obtendrán en el futuro inmediato ¿Estás listo para adentrarte en esta
nueva y apasionante área de conocimiento que está transformando nuestra sociedad? Bienvenido.
https://www.coursera.org/learn/analisis-de-datos/lecture/y5K5w/datos-organizaciones-y-retos-en-
nuestro-mundo-actual
0:00
Hola nuevamente. Bienvenido a la segunda lección de este primer módulo titulado Los datos y la toma de decisiones en el mundo actual.
0:19
Iniciemos con un par de reflexiones iniciales. ¿Sabías, por ejemplo, que Walmart maneja más de 1 millón de transacciones de clientes cada hora?
0:32
0:37
0:45
O pensemos por ejemplo en eBay, que maneja una sola tabla con más de 1 millón de renglones para registrar las búsquedas, transacciones, consultas y compras que tiene
dentro de su sitio web. Todos los días, en todo momento y en todo lugar alrededor de nuestro planeta se están generando datos e información; y esto está transformando
1:15
Considera solamente las siguientes estadísticas. Desde el origen de la humanidad hasta el año 2003 se generaron 5 billones de hexabytes de datos.
1:27
Esa misma cantidad de información se generó en el año 2011 cada 2 días. O más aún, en el año 2013 esos 5 billones de
1:39
hexabytes de datos se están generando cada 10 minutos. Esa cantidad de datos se está generando y está transformando nuestra sociedad en forma crítica y en forma
trascendental. Todos estos datos surgen desde una gran cantidad de fuentes. Desde dispositivos móviles y computadoras que estamos utilizando cada día, desde compras
que realizamos ya sea en línea o en lugares determinados que estamos visitando, desde personas con las que estamos también interactuando día a día, desde productos en
los cuales se están colocando dispositivos, ya sea para uso personal o para uso industrial, que va desde automóviles, refrigeradores hasta turbinas o inclusive aparatos o
maquinaria industrial. Todos estos datos que se están generando a través de cada una de estas fuentes contribuyen precisamente a la gran cantidad de información con la
que contamos al día de hoy en nuestra sociedad. Tú mismo, sin darte cuenta del todo, estás generando grandes cantidades de datos cada día, en todo momento y en distintas
actividades que estás realizando. Piensa por un momento, ¿desde cuántas fuentes estás tú
2:56
generando datos cada día de tu vida? ¿Desde una, tres, cinco, siete? ¿Cuántas fuentes de información?
3:05
Diversos estudios muestran que en zonas urbanas los seres humanos estamos generando datos desde al menos cinco fuentes de información distintas, ya sea tu dispositivo
móvil, tu computadora, tu tarjeta de crédito, las compras que realizas en lugares determinados, la información que estás intercambiando con distintas personas con las que
interactúas cada día. Todas y cada una de estas fuentes están contribuyendo a generar más datos e información que le están permitiendo a las organizaciones entender tus
intereses, tu comportamiento y poder darte un mejor servicio y propuesta de valor a partir de ello.
3:47
Todo esto nos está permitiendo como organizaciones realizar nuevas y mejores acciones. Por ejemplo, nos permite identificar nuevas oportunidades de negocio.
4:00
Nos permite identificar también nuevos, diferentes y mejores nichos de mercado. Nos permite de igual forma reenfocar nuestras estrategias de publicidad y mercadotecnia. Por
qué no, también identificar nuevos productos o servicios a ofrecer a nuestros clientes. Integrar inclusive nuestros sistemas de distribución o nuestros sistemas de producción de
acuerdo al comportamiento de la demanda. Y de manera general, proveer una nueva y mejor propuesta de valor para nuestros clientes y los públicos a quienes buscamos
servir como organización. Te invito a adentrarte a la lectura asociada a esta lección, en la que vas a conocer a detalle los antecedentes, estatus actual y, sobre todo,
posibilidades que te presenta a ti en el futuro inmediato esta nueva y apasionante área de conocimiento. Es muy importante que te des el tiempo necesario para involucrarte en
los conceptos, herramientas y modelos que se van a empezar a presentar a partir de esta lección pues serán necesarios para que puedas realizar un buen análisis y, sobre
todo, soportar la toma de decisiones dentro de tu organización. Date tiempo, involúcrate y conoce a detalle todo lo que se presenta dentro de esta lectura. ¡Qué la disfrutes en
verdad mucho!
Referencias:
Acito, F., & Khatri, V. (2014). Business analytics: Why now and what next? Business Horizons,
57(5), 565-570.
Gantz, J., & Reinsel, D. (2011, June). Extracting value from chaos. Retrieved from
http://www.emc.com/collateral/ analyst-reports/idc-extracting-value-from-chaos-ar.pdf
Manyika, J., Chui, M., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C., et al. (2011). Big data: The
next frontier for innovation, competition, and productivity. Available at
http://www.mckinsey.com/insights/business_technology/ big_data_the_next_frontier_for_innovation
Davenport, T. H., & Patil, D. J. (2012). Data scientist: The sexiest jobofthe 21st
century.HarvardBusiness Review, 90(10), 70—76.
Mintzberg, H. (1987). The strategy concept I: Five Ps for strategy. California Management Review,
30(1), 11—24
Davenport, T. H., Harris, J. G., DeLong, F. W.,& Jacobson, A. L. (2001). Data to knowledge to
results: Building an analytic capability. California Management Review, 43(2), 117—138.
Weill, P., & Ross, J. W. (2004). IT governance: How top performers manage IT decision rights for
superior results. Boston: Harvard Business School Press
Neely, A. (1999). The performance measurement revolution: Why now and what next? International
Journal of Operations and Production Management, 19(2), 205—228.
Drucker, P. F. (1990). The emerging theory of manufacturing. Harvard Business Review, 68(3), 94—
102.
Chandler, N., Hostmann, B., Rayner, N., & Herschel, G. (2011, September 20). Gartner’s business
analytics framework. Retrieved from http://www.gartner.com/imagesrv/ summits/docs/na/business-
intelligence/gartners_business_ analytics__219420.pdf
Eccles, R. G., Jr. (1991). The performance measurement manifesto. Harvard Business Review,
69(1), 131—137.
Kirkpatrick, M. (2010, August 4). Google CEO Schmidt: ‘‘People aren’t ready for the technology
revolution.’’ Retrieved from http://readwrite.com/2010/08/04/google_ceo_schmidt_
people_arent_ready_for_the_tech#awesm=oCVcaSZEJssOa4
Levitin, A. V., & Redman, T. C. (1998). Data as resource: Properties, implications, and prescriptions.
Sloan Management Review, 40(1), 89—102.
Barnard, C. I. (1962). The functions of the executive. Cambridge, MA: Harvard University Press.
Kaplan, R. S., & Norton, D. P. (1992). The balanced scorecard–— measures that drive performance.
Harvard Business Review, 70(1), 71—79.
Neely, A. D., Mills, J., Platts, K., Gregory, M., & Richards, H. (1994). Realising strategy through
measurement. International Journal of Operations and Production Management, 14(3), 140—152.
Bromwich, M., & Bhimani, A. (Eds.). (1989). Management accounting: Evolution not revolution.
London: Chartered Institute of Management Accountants.
Chakravarthy, B. S. (1986). Measuring strategic performance. Strategic Management Journal, 7(5),
437—458.
Neely, A. D., Gregory, M., & Platts, K. (1995). Performance measurement system design: A
literature review and research agenda. International Journal of Operations and Production
Management, 15(4), 80—116.
Fornell, C. (1992). A national customer satisfaction barometer: The Swedish experience. Journal of
Marketing, 56(1), 6—21.
Meyer, M. W., & Gupta, V. (1994). The performance paradox. In B. M. Staw & L. L. Cummings
(Eds.), Research in organizational behavior (pp. 309—369). Greenwich, CT: JAI Press.
Imhoff, C., & White, C. (2011, September 20). Self-service business intelligence: Empowering users
to generate insights.
Hagel, J., Brown, J. S., Samoylova, T., & Lui, M. (2013). From exponential technologies to
exponential innovation. Westlake, TX: Deloitte University Press.
0:00
Hola. Me da enorme gusto saludarte nuevamente y darte la bienvenida a esta tercera y última lección de este primer módulo, en la que nos enfocaremos en revisar a detalle
cómo es que utilizan los datos e información en las organizaciones para apoyar su toma de decisiones.
0:28
Permíteme mostrarte una estadística inicial, que nos hará muy sensibles a la importancia de esta área de conocimiento. Si tu realizas una búsqueda en Google Académico, te
darás cuenta que desde el año 2012 hasta la actualidad se han publicado más de 20.000 artículos relacionados con el análisis de datos, Analytics o Big Data como se define
en inglés. ¿Cuánto representa esto? Quiere decir que se ha generado en promedio un artículo cada hora. ¿Por qué? ¿Por qué es tan útil y es tan importante esta nueva área
de conocimiento, que las organizaciones la están utilizando cada día más para soportar su toma de decisiones? No por nada, muchos artículos y muchos especialistas han
definido al analista de datos como la nueva y más apasionante profesión hacia este siglo 21. ¿Por qué es tan importante? Revisemos de manera particular algunos ejemplos
1:33
Si tú realizas cualquier consulta o búsqueda de un producto en Amazon, además de encontrar ese producto eventualmente, Amazon te mostrará, a través de su sitio web,
información de productos similares que otros clientes han buscado o han comprado previamente y que pueden ser de tu interés. ¿Cómo realiza esto? Pues aprovechando
precisamente datos y sistemas de información, a través de los cuales identifica relaciones o patrones entre los distintos productos, las relaciones y los gustos de los clientes
por ellos.
2:09
O podemos identificar, por ejemplo, a Pandora, que es capaz también de hacerte recomendaciones de canciones con base en tus gustos particulares. ¿Cómo es posible que
Pandora sea capaz de conocer esto? Pues hace algo muy similar. Aprovecha información sobre gustos preliminares que tú has declarado en términos de canciones, de
géneros, de autores, a través de los cuales es capaz de hacerte una recomendación acorde con tus intereses, sin necesidad de que te desgastes en ver distintos tipos de
música, géneros, alternativas. Sino algo que vaya muy acorde con aquello que a tí te interesa.
2:49
O Shazam, que puede ser también un tercer ejemplo, que es capaz, simple y sencillamente, al escuchar un pequeño fragmento de canción, identificar precisamente a qué
melodía, a qué canción corresponde. Es decir, no es necesario que escuche la canción en su totalidad, sino sólo un pequeño fragmento de ella, para a través de un algoritmo
de análisis de datos, identificar cuál es esa canción y darte su nombre, género o autor de manera inmediata. Ahora, debemos de ser muy cuidadosos, pues el contar con mayor
información y mayor cantidad de datos siempre será útil, pero tenemos que enfocarnos en identificar cuáles de esos datos, o cuál de esa información nos va a ayudar a realizar
3:42
Dentro de tu organización, de manera particular, es muy importante que tú identifiques quiénes son las personas, áreas o departamentos responsables de generar información,
cuándo y cómo deben generarla. Pero, de igual forma, tienes que identificar también a las personas, áreas o departamentos responsables de hacer uso, ya sea para análisis y
para la toma de decisiones, dentro de tu organización. Si tienes claridad en esos dos elementos, acompañado también con el contar con el equipo, tecnología, infraestructura y
ecosistema adecuado para generar y analizar esos datos podrás mejorar en forma importante el desempeño, dentro de tu organización.
4:28
Este diagrama te presenta precisamente un marco conceptual bajo el cual tú puedes adentrarte en el análisis y manejo de datos. En la parte inferior, o en la base de toda esta
estrategia, vamos a estar precisamente generando datos. Pero, es muy importante tener claridad sobre quién va a estar habilitando, produciendo y consumiendo esos como
parte de tareas medulares de inicio. Y al mismo tiempo, vas a tener responsables de generar información a partir de esos datos, realizar análisis determinados y, algo
fundamental, tomar decisiones con base en ellos. Esta información, análisis y decisiones pues buscan contribuir precisamente a mejorar el desempeño de tu organización, el
cual debe de ir alineado a la estrategia y las conductas deseables a las cuales tú estés aspirando. Si logras integrar todos estos elementos de manera clara, ordenada y
estructurada, serás capaz de contribuir de manera importante no sólo a la toma de decisiones, a la generación de información, sino además al desempeño de tu organización,
siendo precisamente capaz de incrementar los resultados o los indicadores clave que tus hayas definido para la misma. Iniciemos precisamente con una reflexión en este
sentido. ¿Cuenta tu organización con todos los datos y toda la información necesaria para proveer un extraordinario servicio y propuesta de valor a tus clientes?
6:09
Diversos estudios han estimado que más del 80% de las organizaciones no cuentan al día de hoy con todos los datos e información que pueda ayudarles en la mejor forma
posible a analizar su desempeño y mejorar la toma de decisiones dentro de ellas mismas. Te invito a realizar esta reflexión dentro de tu propia organización. Primera parte,
¿quiénes son aquellas áreas, personas o departamentos que están en posición de generar precisamente esos datos o información? E inclusive, ¿cuáles son esos datos
actuales -o inclusive nuevos- que sería pertinente conozcas para poder tener mayor y mejor sensibilidad sobre lo que está ocurriendo dentro de tu empresa? Y a partir de ello,
conocer mejor el comportamiento de tus clientes, lo que ocurre en tu entorno, lo que ocurre en términos de proveedores, de nuevos clientes potenciales, lo que está haciendo
la competencia, integrar todos esos datos, generar información a partir de ello y ser capaz de mejorar el desempeño de la misma. Si no tienes claridad en todos estos
elementos, no podrás sacar el mayor provecho posible que te da toda esta nueva y apasionante área de conocimiento. Te invito a adentrarte, a definir cada uno de estos
elementos en tu propia empresa, pues al tener claridad en cada uno de ellos, podrás sacar provecho en la mayor y en la mejor forma posible de todos lo que estaremos
revisando en el resto de los módulos y el contenido de esta lección en particular.
Uso de datos para mejorar el servicio, la experiencia y la toma de decisiones en nuestras organizaciones
0:00
Hola. Me da enorme gusto saludarte nuevamente y darte la bienvenida a esta tercera y última lección de este primer módulo, en la que nos enfocaremos en revisar a detalle
cómo es que utilizan los datos e información en las organizaciones para apoyar su toma de decisiones.
0:28
Permíteme mostrarte una estadística inicial, que nos hará muy sensibles a la importancia de esta área de conocimiento. Si tu realizas una búsqueda en Google Académico, te
darás cuenta que desde el año 2012 hasta la actualidad se han publicado más de 20.000 artículos relacionados con el análisis de datos, Analytics o Big Data como se define
en inglés. ¿Cuánto representa esto? Quiere decir que se ha generado en promedio un artículo cada hora. ¿Por qué? ¿Por qué es tan útil y es tan importante esta nueva área
de conocimiento, que las organizaciones la están utilizando cada día más para soportar su toma de decisiones? No por nada, muchos artículos y muchos especialistas han
definido al analista de datos como la nueva y más apasionante profesión hacia este siglo 21. ¿Por qué es tan importante? Revisemos de manera particular algunos ejemplos
1:33
Si tú realizas cualquier consulta o búsqueda de un producto en Amazon, además de encontrar ese producto eventualmente, Amazon te mostrará, a través de su sitio web,
información de productos similares que otros clientes han buscado o han comprado previamente y que pueden ser de tu interés. ¿Cómo realiza esto? Pues aprovechando
precisamente datos y sistemas de información, a través de los cuales identifica relaciones o patrones entre los distintos productos, las relaciones y los gustos de los clientes
por ellos.
2:09
O podemos identificar, por ejemplo, a Pandora, que es capaz también de hacerte recomendaciones de canciones con base en tus gustos particulares. ¿Cómo es posible que
Pandora sea capaz de conocer esto? Pues hace algo muy similar. Aprovecha información sobre gustos preliminares que tú has declarado en términos de canciones, de
géneros, de autores, a través de los cuales es capaz de hacerte una recomendación acorde con tus intereses, sin necesidad de que te desgastes en ver distintos tipos de
música, géneros, alternativas. Sino algo que vaya muy acorde con aquello que a tí te interesa.
2:49
O Shazam, que puede ser también un tercer ejemplo, que es capaz, simple y sencillamente, al escuchar un pequeño fragmento de canción, identificar precisamente a qué
melodía, a qué canción corresponde. Es decir, no es necesario que escuche la canción en su totalidad, sino sólo un pequeño fragmento de ella, para a través de un algoritmo
de análisis de datos, identificar cuál es esa canción y darte su nombre, género o autor de manera inmediata. Ahora, debemos de ser muy cuidadosos, pues el contar con mayor
información y mayor cantidad de datos siempre será útil, pero tenemos que enfocarnos en identificar cuáles de esos datos, o cuál de esa información nos va a ayudar a realizar
3:42
Dentro de tu organización, de manera particular, es muy importante que tú identifiques quiénes son las personas, áreas o departamentos responsables de generar información,
cuándo y cómo deben generarla. Pero, de igual forma, tienes que identificar también a las personas, áreas o departamentos responsables de hacer uso, ya sea para análisis y
para la toma de decisiones, dentro de tu organización. Si tienes claridad en esos dos elementos, acompañado también con el contar con el equipo, tecnología, infraestructura y
ecosistema adecuado para generar y analizar esos datos podrás mejorar en forma importante el desempeño, dentro de tu organización.
4:28
Este diagrama te presenta precisamente un marco conceptual bajo el cual tú puedes adentrarte en el análisis y manejo de datos. En la parte inferior, o en la base de toda esta
estrategia, vamos a estar precisamente generando datos. Pero, es muy importante tener claridad sobre quién va a estar habilitando, produciendo y consumiendo esos como
parte de tareas medulares de inicio. Y al mismo tiempo, vas a tener responsables de generar información a partir de esos datos, realizar análisis determinados y, algo
fundamental, tomar decisiones con base en ellos. Esta información, análisis y decisiones pues buscan contribuir precisamente a mejorar el desempeño de tu organización, el
cual debe de ir alineado a la estrategia y las conductas deseables a las cuales tú estés aspirando. Si logras integrar todos estos elementos de manera clara, ordenada y
estructurada, serás capaz de contribuir de manera importante no sólo a la toma de decisiones, a la generación de información, sino además al desempeño de tu organización,
siendo precisamente capaz de incrementar los resultados o los indicadores clave que tus hayas definido para la misma. Iniciemos precisamente con una reflexión en este
sentido. ¿Cuenta tu organización con todos los datos y toda la información necesaria para proveer un extraordinario servicio y propuesta de valor a tus clientes?
6:09
Diversos estudios han estimado que más del 80% de las organizaciones no cuentan al día de hoy con todos los datos e información que pueda ayudarles en la mejor forma
posible a analizar su desempeño y mejorar la toma de decisiones dentro de ellas mismas. Te invito a realizar esta reflexión dentro de tu propia organización. Primera parte,
¿quiénes son aquellas áreas, personas o departamentos que están en posición de generar precisamente esos datos o información? E inclusive, ¿cuáles son esos datos
actuales -o inclusive nuevos- que sería pertinente conozcas para poder tener mayor y mejor sensibilidad sobre lo que está ocurriendo dentro de tu empresa? Y a partir de ello,
conocer mejor el comportamiento de tus clientes, lo que ocurre en tu entorno, lo que ocurre en términos de proveedores, de nuevos clientes potenciales, lo que está haciendo
la competencia, integrar todos esos datos, generar información a partir de ello y ser capaz de mejorar el desempeño de la misma. Si no tienes claridad en todos estos
elementos, no podrás sacar el mayor provecho posible que te da toda esta nueva y apasionante área de conocimiento. Te invito a adentrarte, a definir cada uno de estos
elementos en tu propia empresa, pues al tener claridad en cada uno de ellos, podrás sacar provecho en la mayor y en la mejor forma posible de todos lo que estaremos
Resumen
El contar con la información adecuada en el momento correcto es una condición indispensable para
realizar buenos análisis y tomar las mejores decisiones. Esto ha tomado mayor importancia en los
últimos años, debido a la gran cantidad de datos e información que es posible recolectar y que
sigue creciendo en forma exponencial. Como resultado de ello, el análisis de grandes cantidades de
datos –o Big Data, como se le llama en inglés- se ha convertido en toda una tendencia y
herramienta fundamental para el análisis y toma de decisiones en las organizaciones. Almacenar,
manejar y analizar grandes cantidades de datos es ya un diferenciador importante entre
organizaciones de alto y bajo desempeño. Esta lectura muestra las cuatro dimensiones
fundamentales para el análisis de datos, así como elementos críticos para la toma de decisiones
con base en ellos.
Objetivos fundamentales
Existen tres objetivos fundamentales que debes aspirar a desarrollar en esta área de conocimiento.
1. El primero es desarrollar un pensamiento crítico sobre los datos y el análisis basado en ellos –ya
sea que dicho análisis es llevado a cabo por ti mismo o por alguien dentro o fuera de tu
organización;
2. El segundo es identificar las posibilidades para crear valor en tu organización mediante el Análisis
de datos;
3. El tercero es desarrollar la capacidad de estimar el valor creado a través del Análisis de Datos al
desarrollar una oportunidad.
Recuerda, que toda esta área de conocimiento representa un pilar fundamental de la gestión y
administración de organizaciones en el mundo actual, por lo que se requiere que desarrolles los
fundamentos necesarios para aplicar estos métodos, identificar oportunidades y sacar provecho de
ellas.
Referencias
Liu, Y. (2014). Big Data and Predictive Business Analytics. The Journal of Business Forecasting,
33(4), 40.
0:00
Hola. Me da mucho gusto darte la bienvenida a este segundo módulo. En el que cubriremos un
tema que es fundamental para adentrarnos de lleno en esta apasionante área del conocimiento. De
manera particular en este módulo veremos lo referente a la exploración y predicción de datos, que
es un aspecto fundamental en el cual tenemos que establecer ciertos cimientos que nos serán de
mucha utilidad.
0:33
Para adentrarnos en esta área del conocimiento, en esta primera lección veremos de manera
particular diversas herramientas y modelos estadísticos así como determinado equipo
computacional que nos ayudará en esta línea. Revisaremos distintas herramientas estadísticas
como modelos de pronósticos.
0:52
Modelos para estableces relaciones y correlaciones entre variables para a partir de ello identificar
patrones, comportamientos o tendencias como los que hemos visto manejan grandes
empresas. Estos patrones, comportamientos y tendencias nos van a permitir
establecer predicciones o pronósticos sobre el comportamiento futuro de esas variables.
1:15
Es muy importante en este sentido identificar la diferencia entre esos dos tipos de variables. Vamos
a hablar de variables aleatorias y variables de decisión. Las variables aleatorias son aquellas que
no dependen de nosotros como organización pero afectan nuestro desempeño. Un buen ejemplo es
el precio de la materia prima que utilizamos o que nos acercan nuestros proveedores. El precio final
de la materia prima no depende de nosotros, podemos influir mediante negociaciones o acuerdos
con los proveedores pero la decisión final depende de ellos, es decir, es una variable aleatoria para
nosotros. Por otro lado las variables de decisión son aquellas sobre las que directamente
incidimos. Por ejemplo, el número de unidades a producir en tu organización es un buen ejemplo de
una variable de decisión. Es muy importante diferenciar y establecer claramente, cuando
hablemos de variables de decisión y variables aleatorias porque nos enfocaremos en aquellas que
no dependen de nosotros, es decir en las variables aleatorias.
2:17
Pensemos en una aerolínea, puede ser Aeroméxico, Copa Airlines LAN, Aviacsa, Interjet, Volaris,
por mencionar solo algunas de ellas.
2:28
Entre todas estas opciones la que no corresponde a una variable aleatoria es el tipo de alimentos a
ofrecer durante el vuelo. Existen al día de hoy diversas aerolíneas como Ryanair en Europa como
Spirit Airlines en los Estados Unidos o Viva Aerobus en México que han decidido cambiar su
propuesta de valor a sus clientes, al retirar aspectos complementarios como el servicio de
alimentos. Y esa propuesta de valor consiste en moverte a ti como usuario o como cliente del origen
A al punto B en el cual te estás moviendo a través de ese vuelo o esa conexión en particular que
estás tomando con ellos es decir, ellos han decidido retirar ese tipo de servicio, ese tipo de
alimentos como parte de su propuesta de valor para ofrecer algo fundamental dentro de lo que ellos
te están proponiendo. Te invito a adentrarte en la lectura asociada a esta primera lección. En la que
encontrarás precisamente esas herramientas, modelos y apoyo computacional que te permitirá
adentrarte en esta exploración y predicción de datos. De igual forma es fundamental que te metas
de lleno en la actividad asociada al cierre de esta lección, en la que conocerás a detalle ese
software computacional con base en el cual empezaremos a realizar algunos análisis, identificar
patrones, tendencias y comportamientos entre esas variables y esos datos a partir de los cuales
podrás realizar análisis y toma de decisiones particulares dentro de tu organización.
4:02
Es muy importante que te metas de lleno en esto, que seas curioso que seas ambicioso y que
pienses cómo puedes aterrizar todo esto de manera puntual y de manera particular en tu beneficio
propio y sobre todo en el beneficio de tu organización.
Con frecuencia estamos interesados en obtener razonamientos válidos respecto a datos de un
grupo grande de personas u objetos, pero nuestra capacidad humana para analizar al mismo
tiempo grandes cantidades de datos es limitada, por lo cual se utilizan las herramientas
estadísticas.
La expresión estadística puede considerarse como la colección de datos numéricos, resultado de
observaciones clasificadas y ordenadas según un determinado criterio, siendo los datos valores
particulares de una variable.
Los datos se pueden dividir en cualitativos y cuantitativos. Los datos cualitativos son aquellos que
no representan un valor numérico, éstos pueden ser nominales u ordinales. Los nominales son los
que funcionan solamente como etiquetas mientras que los ordinales son valores que se asignan de
acuerdo a un orden que contiene información sobre la intensidad del atributo. Los datos
cuantitativos son lo que son intrínsecamente numéricos, se pueden dividir en discreto o continuos.
Los discretos representan valores enteros y con frecuencia describen conteos mientras que los
continuos se pueden producir cualquier valor en un intervalo.
En el desarrollo de los métodos estadísticos la población se define como el conjunto de sucesos,
personas, objetos, etc. Que le interesan a la persona que hace el estudio. La población según el
tamaño puede ser finita o infinita. El concepto de infinita solo existe en teoría, ya que en la práctica
no encontraremos aplicación a poblaciones de elementos infinitos como, por ejemplo, las estrellas
de universo. Sin embargo, en la estadística matemática las poblaciones con un número
suficientemente grande de elementos son tratados como si fueran infinitos.
Cuando la población o conjunto es muy grande, se hace difícil la observación de los caracteres a
estudiar en cada uno de los elementos, debido al enorme costo que tendría la observación de toda
la población y debido también al enorme trabajo y tiempo necesarios para llevar a cabo una
observación exhaustiva de cada uno. Estos trabajos, inconvenientes, pueden ser superados
mediante la elección de una muestra lo suficientemente representativa de la población. Una
muestra se puede definir como un subconjunto de la población a la que se tiene acceso y se
pueden hacer observaciones.
Una muestra aleatoria es una muestra muy representativa de la población. Se considera que cada
elemento ha tenido la misma probabilidad de pertenecer a la muestra. Por lo que las conclusiones
basadas en una muestra aleatoria resultan confiables.
Estadística descriptiva
La estadística descriptiva es el conjunto de métodos y técnicas que se usan para recolectar,
organizar y presentar en forma de tablas y gráficas, información numérica; incluyendo el cálculo de
medidas estadísticas de tendencia centralidad y dispersión.
Media aritmética
Es una medida de tendencia central que resulta conveniente cuando los datos no presentan valores
atípicos o extremos ya que es muy sensible a estos. Se puede decir que representa el centro de
gravedad de los datos. La media aritmética se calcula con la suma de los valores de los datos de la
muestra divididos entre el número total de datos que conforman la muestra.
Mediana
Es una medida de tendencia central y se define como el valor que divide un conjunto de datos
previamente ordenados de menor a mayor, y es el punto intermedio entre todos ellos. Esta medida
es conveniente cuando la muestra presenta datos atípicos o extremos.
Se calcula ordenando los datos de menor a mayor. Si el número N de datos es impar, entonces hay
un número intermedio que es el que representa la mediana. En el caso de que el número N de
datos sea par, entonces hay dos datos intermedios, por lo que se calcula la media entre ellos.
Moda
En un conjunto de datos de una muestra la moda es el valor que ocurre con mayor frecuencia, por
lo que es el valor más representativo.
Medidas de dispersión
Mientras que las medidas de tendencia central describen el comportamiento de los datos en una
muestra o conjunto de datos, las medidas de dispersión proporcionan información acerca de cómo
están distribuidos o dispersos los valores con relación a la tendencia central.
Rango
En todo conjunto de datos hay valores extremos, uno menor y otro mayor, la diferencia entre estos
se le llama rango. Esta medida de dispersión es la más fácil de obtener, sin embargo se usa poco
debido a que es muy influenciable por la presencia de valores extremos de poca frecuencia, lo cual
conduce a apreciaciones falsas.
Varianza
Es una medida de dispersión que refleja la distancia al cuadrado de los valores en un conjunto con
el valor esperado o media.
Para calcular la varianza es necesario contar con el valor de la media. Se obtiene la diferencia de
cada valor del conjunto con la media y se eleva al cuadrado. Se suman todos los valores obtenidos
y se dividen entre el número de datos.
Desviación estándar
Es la medida de dispersión más utilizada y muy objetiva. Cuanto mayor sea su valor, mayor es la
dispersión de los datos, aunque no se puede determinar si se encuentra por encima o por debajo de
la media aritmética.
Se calcula obteniendo la raíz cuadrada de la varianza.
Cuartiles
Son medidas de posición que permiten conocer los intervalos dentro de los cuales quedan
representados proporcionalmente los elementos de un conjunto, se divide la distribución de
frecuencias en 4 partes iguales, cada una contiene igual número de observaciones.
El primer cuartil corresponde el 25% y se designa con Q1. El segundo cuartil representa el 50% y
coincide con la mediana. El tercer cuartil representa el 75% de las observaciones que están por
debajo de él.
Referencias
Fuenlabrada, S. (2004). Probabilidad y Estadística. México: McGrawHill.
Ramírez, M. M. (s.f.). Departamento de Estadística y Centro de Estadística Aplicada. Recuperado
de ITAM http://allman.rhon.itam.mx/~mendoza/EyP.pdf
Salinas, H. (2012). Universidad de Atacama. Recuperado de
http://www.mat.uda.cl/hsalinas/cursos/2010/eyp2/clase1.pdf
Hola, ¿cómo estás? Me da mucho gusto darte la bienvenida a la segunda lección de este módulo, enfocado en el uso de herramientas computacionales para la exploración de
datos. ¿A qué nos referiremos con la exploración de datos? Como hemos mencionado anteriormente, va a ser fundamental que identifiquemos patrones, tendencias,
comportamientos entre dos, tres o más grupos de variables, para a partir de ello poder realizar una predicción o poder anticipar el comportamiento futuro de una variable
aleatoria de nuestro interés. Permíteme ponerte un ejemplo. Piensa en el área de compensaciones de una organización, responsable de definir un nivel de sueldo y que sea un
nivel de sueldo competitivo para los empleados que desea tener laborando dentro de ella. Para definir ese nivel de sueldo es necesario revisar cómo está el entorno y revisar
cómo están sueldos para puestos similares considerando experiencia, trayectoria, nivel de sueldo, geografías y zonas geográficas similares a partir de las cuales pueda revisar
qué es lo que está ocurriendo ahí afuera, que no está bajo su control, para a partir de ello definir internamente
1:24
un nivel de sueldo que sea competitivo y que sea atractivo de acuerdo al tipo de personas que desea atraer dentro de su organización. Un segundo caso de mucho interés es,
¿qué tan probable es que tú decidas comprar un producto B dado que previamente tu compraste un producto A? Es decir, ¿cuál es tu interés de compra por determinado
producto dado que en el pasado has adquirido otros? Eso lo podrá identificar una organización al revisar patrones de comportamiento de compra en clientes similares a lo que
tu realizas precisamente también como cliente. Es decir, ¿qué tipos de compras has realizado? ¿Qué tipo de productos has adquirido? ¿Por qué tipo de productos has hecho
búsquedas o has hecho consultas? Para con base en ello hacer buscar hacerte una recomendación sobre qué producto puedes adquirir. Eso es precisamente lo que realizan
empresas como Amazon. Cuando tú haces una búsqueda de un producto, automáticamente Amazon te realizará en su sitio web recomendaciones sobre productos similares
que otros clientes que han hecho búsquedas sobre este tipo de productos han eventualmente adquirido. Es decir, te está haciendo una recomendación con base en la
exploración y revisión de datos para a partir de ello definir una recomendación o una tendencia sobre posible interés de compra con base en esa información. En la lectura
anexa a esta lección encontrarás una guía que te podrá apoyar en forma muy importante para aprender y utilizar esos modelos estadísticos y herramientas computacionales
como la que estaremos manejando para realizar esta exploración de datos. Es decir, agrupar variables, identificar patrones, tendencias o comportamientos entre ellas, valores
mínimos, valores máximos, relaciones que sean importantes para a partir de ello predecir comportamientos futuros. Es muy importante que seas sensible a que no vas a
encontrar una respuesta única o una respuesta correcta. Tendrás que estar realizando distintos análisis con distintas alternativas y a partir de ello revisarlo bajo distintos
enfoques para poder irlo mejorando en forma continua. Te invito a que trabajes de manera muy detallada, muy estructurada, que lo practiques, pues esa práctica te permitirá
desarrollar una mayor y mejor capacidad y, en consecuencia, poder realizar mejores análisis y poder tomar mejores decisiones. Trabájalo de manera ardua, de manera muy
dura y muy estructurada y estoy seguro que encontrarás aspectos muy interesantes de beneficio para ti y
4:01
1. Interpretación de las relaciones entre las variables y los datos que las sustentan con fundamento en algún nivel de significancia estadística.
2. Establecer un significado más amplio de la investigación, es decir, determinar el grado de generalización de los resultados de la investigación.
El propósito es, entonces, describir el comportamiento de una variable a partir de la información correspondiente, contenida en un banco de datos. Así, la información está
formada por los datos que se encuentran en una columna del banco y la principal característica de esos datos es su variabilidad.
“Analizar significa establecer categorías, ordenar, manipular y resumir los datos,” (Kerlinger, 1982, p. 96). En esta etapa del proceso de investigación se procede a racionalizar
los datos colectados a fin de explicar e interpretar las posibles relaciones que expresan las variables estudiadas.
Organización de datos
Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la distribución de frecuencias y b) la representación gráfica.
Distribución de frecuencias
Comúnmente llamada tabla de frecuencias, se utiliza para hacer la presentación de datos provenientes de las observaciones realizadas en el estudio, estableciendo un orden
mediante la división en clases y registro de la cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la realización de un mejor análisis e interpretación
de las características que describen y que no son evidentes en el conjunto de datos brutos o sin procesar. Una distribución de frecuencias constituye una tabla en el ámbito de
investigación.
La distribución de frecuencias puede ser simple o agrupada. La distribución de frecuencias simple es una tabla que se construye con base en los siguientes datos: clase o
variable (valores numéricos) en orden descendente o ascendente, tabulaciones o marcas de recuento y frecuencia.
Correlación nula: No existe ninguna relación entre las variables. Se dice que ambas son independientes.
Correlación lineal: Existe una relación lineal negativa si al aumentar los valores de la variable independiente disminuyen los valores de la variable dependiente y
relación lineal positiva si al aumentar los valores de la variable independiente aumentan los valores de la variable dependiente.
Correlación no lineal: Existe una relación entre las variables pero no es lineal.
1. Tendencia secular: La tendencia secular o tendencia a largo plazo de una serie es por lo común el resultado de factores a largo plazo. En términos intuitivos, la
tendencia de una serie de tiempo caracteriza el patrón gradual y consistente de las variaciones de la propia serie, que se consideran consecuencias de fuerzas
persistentes que afectan el crecimiento o la reducción de la misma, tales como: cambios en la población, en las características demográficas de la misma,
cambios en los ingresos, en la salud, en el nivel de educación y tecnología. Las tendencias a largo plazo se ajustan a diversos esquemas. Algunas se mueven
continuamente hacía arriba, otras declinan, y otras más permanecen igual en un cierto período o intervalo de tiempo.
2. Variación estacional: El componente de la serie de tiempo que representa la variabilidad en los datos debida a influencias de las estaciones, se llama
componente estacional. Esta variación corresponde a los movimientos de la serie que recurren año tras año en los mismos meses (o en los mismos trimestres)
del año poco más o menos con la misma intensidad. Por ejemplo: Un fabricante de albercas inflables espera poca actividad de ventas durante los meses de otoño
e invierno y tiene ventas máximas en los de primavera y verano, mientras que los fabricantes de equipo para la nieve y ropa de abrigo esperan un
comportamiento anual opuesto al del fabricante de albercas.
3. Variación cíclica: Con frecuencia las series de tiempo presentan secuencias alternas de puntos abajo y arriba de la línea de tendencia que duran más de un año,
esta variación se mantiene después de que se han eliminado las variaciones o tendencias estacional e irregular. Un ejemplo de este tipo de variación son los
ciclos comerciales cuyos períodos recurrentes dependen de la prosperidad, recesión, depresión y recuperación, las cuales no dependen de factores como el
clima o las costumbres sociales.
4. Variación Irregular: Esta se debe a factores a corto plazo, imprevisibles y no recurrentes que afectan a la serie de tiempo. Como este componente explica la
variabilidad aleatoria de la serie, es impredecible, es decir, no se puede esperar predecir su impacto sobre la serie de tiempo. Existen dos tipos de variación
irregular: a) Las variaciones que son provocadas por acontecimientos especiales, fácilmente identificables, como las elecciones, inundaciones, huelgas,
terremotos. b) Variaciones aleatorias o por casualidad, cuyas causas no se pueden señalar en forma exacta, pero que tienden a equilibrarse a la larga.
Referencias
Baray, H. L. (2006). Introducción a la Metodología de la Investigación. Juan Carlos Martínez Coll.
Explorable.com. (02 de Mayo de 2009). La Correlación Estadística. Obtenido de https://explorable.com/es/la-correlacion-estadistica
Instituto Nacional de Estadística. (s.f.). Tipos de gráficos. Obtenido de http://www.ine.es/explica/docs/pasos_tipos_graficos.pdf
Kerlinger, F. (1983). Investigación del Comportamiento. Técnicas y Metodología. México: Interamericana.
Ramírez, M. M. (s.f.). Departamento de Estadística y Centro de Estadística Aplicada. Obtenido de ITAM: http://allman.rhon.itam.mx/~mendoza/EyP.pdf
Universidad de Sonora. (s.f.). Series de tiempo. Obtenido de Departamento de Matemáticas: http://www.estadistica.mat.uson.mx/Material/seriesdetiempo.pdf
0:00
En este tutorial te enseñaremos a utilizar una herramienta computacional fundamental para actualizar todo lo que hemos conversado Watson Analytics.
0:19
Muy bien, imagina que enfrentamos la siguiente situación, tu tienes un conjunto de datos de venta, de tu organización, este es un ejemplo
0:28
académico pero es muy similar a lo que te enfrentarías en la vida real, si te fijas es una gran cantidad de datos, de hecho en este ejemplo particular estamos manejando datos
de ventas de más de 500 ubicaciones, periodos, etcétera. ¿Qué información tenemos? Tenemos la identificación del mercado, tenemos clasificado cada uno de esos mercados
en función a su tamaño, un identificación de la ubicación, la antigüedad de ese punto de venta, el tipo de estrategia que se siguió en esa semana y las ventas asociadas. ¿Qué
tipo de preguntas podemos plantearnos cuando manejamos este tipo de datos? Pues diversas preguntas y estoy seguro que te estarán surgiendo varia de ellas en tu mente,
en este momento. ¿Cómo influye el punto de venta o que tan importante es el punto de venta o el tamaño del mercado para el volumen de ingreso que te genera? ¿Cómo
influyó la semana? ¿Cómo influyó la estrategia de promoción? ¿Cómo manejar rápido y fácilmente este conjunto de datos? Vete a cualquier navegador y dentro de él, busca o
coloca las palabras claves Watson Analytics. Cuando tu colocas esto, te aparece directamente la liga a este software. ¿Cuál es una de las grandes ventajas de este
software? Que es un software que está disponible en la nube, es decir, tu puedes acceder a él desde cualquier sitio web. Lo que hacemos a partir de esto, es que al entrar a la
página la primera ocasión tú puedes crear tu propio password aquí con la opción Create Free Account, colocas tu cuenta de correo y al dar clic aquí podrás crear tu propio
acceso. En mi caso me voy a la opción de Sign In, en la parte superior derecha, con lo cual lo que yo voy a hacer, como ya me di de alta previamente, coloco precisamente mi
cuenta de correo
2:14
y además de mi cuenta de correo coloco también mi password. Te vas a dar cuenta que al entrar, que Watson Analytics te presenta cuatro alternativas que van en línea con lo
que estaremos viendo en el módulo 2 y módulo 3 respectivamente. En el módulo 2 como recordarás vamos a ver como explorar datos y hacer predicciones a partir de ello,
mientras que el módulo 3 veremos la integración o ensamble de datos y el como, como decimos coloquialmente, ir puliendo o ir afinando nuestros datos para poder realizar
análisis más valiosos e interesantes a partir de ello. Verás que al entrar Watson Analytics te presenta también en la parte inferior un conjunto de vídeos, dentro de lo cuales tú
puedes ver aspectos detallados del tutorial, algunos ejemplos etcétera. Trabajemos en la primer alternativa, que es el objetivo de esta lección, la exploración de datos. Voy a
dar clic aquí en la alternativa Explore o exploraración, si te das cuenta abre la opción, abre esta venta, donde hay una opción para subir tus propios datos en mi caso me puedo
ir a buscar dentro del equipo de cómputos y tengo ya aquí identificados estos datos, de hecho ya yo lo subí previamente y como verás aquí aparecen. Cuando abro esta base
de datos que es cualquier archivo de datos o archivos de Excel. La gran ventaja de software como Watson Analytics es que no te presenta solamente la base de datos si no ya
hizo un análisis previo de ella y te presenta inclusive algunas preguntas que tú podrías estarte planteando. ¿Cómo influye el tamaño del mercado en el volumen de ventas, el
tipo de promoción, etcétera, etcétera? Selecciono el primero y fíjate lo que ocurre, lo que te muestra es ya, tus datos ordenados o estratificados. ¿Cómo influye el tamaño del
mercado en el volumen de venta? Tú puedes ver aquí los distintos tamaños, el volumen de venta promedio y a partir de ello pues, empezar a observar como se
comporta precisamente tus ventas y tus ingresos pero te dan muchas otras alternativas, puedes ver aquí como se clasifican de algunos otros criterios, en la parte superior
como puedes observar, aparecen distintas alternativas selecciona una de ellas, le das clic en New Page y lo que hace es que te muestra en pantalla todos esos datos
ordenados y categorizados de esa forma. Tú puedes ver, acá por ejemplo, el identificador de la ubicación como está en función del tipo de promoción y aquí puedes ver
precisamente esos datos. La antigüedad de la tienda versus el identificador del mercado, por colocar solo algunos ejemplos. A partir de ello cuál es el reto más
importante. Qué, puedes empezar a graficar qué datos versus qué datos, cómo puedes ordenarlos, estratificarlos, cómo puedes aplicar filtros, como aparece en la parte
superior izquierda, cómo puedes ordenarlos de distinta manera. Como todo software computacional, piensa en cualquier software que has utilizado en tu vida, las primeras
ocasiones que entras te puede parecer poco familiar o un poco complicado pero la práctica hace al maestro. Tienes que practicar mucho, tienes que probar datos tienes que
equivocarte, es natural que nos equivoquemos en el proceso de aprendizaje. Si tú te fijas en la parte superior derecha puedes dar clic acá a que aparezcas otras
opciones. Métete a jugar con tus datos, realiza análisis, exploraros, busca comportamientos y a partir de eso ve generando tus propios análisis. En este momento lo que yo
hago, es voy a la parte superior derecha, donde aparece mi nombre, le doy salir o Logout y
5:53
esa base de datos queda grabada dentro de mi propio acceso y en la ocasión posterior que yo llegue a entrar, estarán ya ahí disponible.
6:05
Es fundamental que después de haber visto este tutorial sigas trabajando y sigas practicando de manera constante a través del uso de esta herramienta computacional. Como
todo en la vida la práctica hace al maestro, por lo que es muy importante que estés entrando nuevamente, colocando tus propios datos y tu propia información, que estés
ensayando, buscando patrones, tendencias, comportamiento como ya lo hemos revisado para poder no solo mejorar tu capacidad sino además ser capaz precisamente de
generar resultados y análisis muy particulares, con base en los datos y en la información que tú mismo has generado. Adelante sigue practicando, hasta que te sientas muy
https://www.coursera.org/learn/analisis-de-datos/lecture/G9mQ7/tutorial-exploracion-de-datos-a-traves-de-watson-analytics