Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2. Aunque las preguntas de revisión y el examen final tienen una marca de aprobación del 60%,
respectivamente, la única calificación que importa es la calificación general para el curso.
3. Las preguntas de revisión no tienen límite de tiempo. Se le anima a revisar el material del curso para
encontrar las respuestas.
5. Los intentos son por pregunta en ambos, las preguntas de revisión y el examen final:
P1: Un informe del Instituto Global McKinsey advierte sobre una gran escasez de talento para datos y análisis.
"Para 2018, solo Estados Unidos podría enfrentar una escasez de 140,000 a 190,000 personas con profundas
habilidades analíticas, así como 1.5 millones de gerentes y analistas con los conocimientos para usar el análisis de
big data para tomar decisiones efectivas".
P2: WALMART
El análisis de las redes sociales es la forma perfecta de hacer crowdsourcing de la información. Al sintetizar los
datos de las redes sociales, las empresas no buscan algo específico, se trata de información menos sesgada y
generalmente más limpia
P3: $ 112,000 (salario de seis cifras) para científico de datos? ¿Suerte o no? publicación publicada hace 3 meses
por Chijioke Omaliko Creo que la demanda de científicos de datos es bastante alta y la oferta es escasa, por lo que
los empleadores definitivamente pagarán el mejor precio por uno con tal talento. Como científico de datos, también
busque mejores formas de contar su historia. Sin contar historias, su investigación no será conocida.
1.- ¿Qué es la ciencia de datos? - La ciencia de datos es un proceso, no un evento. Es el proceso de usar datos para
entender diferentes cosas, para entender el mundo. - Para mí, es cuando tienes modelo, o una hipótesis de un
problema, e intentas validar esa hipótesis o modelo con sus datos. - La ciencia de datos es el arte de descubrir los
conocimientos y las tendencias que se esconden detrás de los datos. - Es cuando traduces datos en una historia, por
lo que utiliza la narración para generar conocimientos. Y con estas ideas, puedes hacer estratégico ... opciones para
una empresa o institución. - La ciencia de datos es un campo sobre procesos y sistemas, para extraer datos de varias
formas, si es una forma estructurada o no estructurada. - La ciencia de datos es el estudio de datos, como las
ciencias biológicas son el estudio de la biología; ciencias físicas, es el estudio de las reacciones físicas. Los datos
son reales, los datos tienen propiedades reales, y necesitamos estudiarlos, si vamos a trabajar en ellos. - La ciencia
de datos involucra datos y algo de ciencia. La definición, o el nombre, surgió en los años 80 y 90 cuando algunos
profesores estaban investigando el plan de estudios de estadística, y pensaron que sería mejor llamarlo ciencia de
datos. Pero, ¿qué es la ciencia de datos? Veo la ciencia de datos como un intento de trabajar con datos para
encontrar respuestas a las preguntas que están explorando. En pocas palabras, se trata más de datos de lo que se
trata de ciencia. Si tienes datos y tienes curiosidad, y estás trabajando con datos y lo estás manipulando, lo estás
explorando, el ejercicio mismo de analizar datos, tratar de obtener algunas respuestas es ciencia de datos. La
ciencia de datos es relevante hoy porque tenemos toneladas de datos disponibles. Solíamos preocuparnos por la
falta de datos; ahora tenemos una avalancha de datos. En el pasado, no teníamos algoritmos; ahora tenemos
algoritmos. En el pasado, el software era caro; ahora es de código abierto y gratuito. En el pasado, no podíamos
almacenar grandes cantidades de datos; ahora, por una fracción del costo, podemos tener miles de millones de
conjuntos de datos a un costo muy bajo, por lo que las herramientas para trabajar con datos la propia disponibilidad
de datos, y la capacidad de almacenar y analizar datos, todo es barato, todo está disponible, todo es omnipresente,
está aquí. Nunca ha habido un mejor momento para ser científico de datos.
PARTE 2
¿QUÉ HACEN LAS PERSONAS DE CIENCIAS DE DATOS?
- He construido un motor de recomendaciones antes como parte de una gran organización y trabajo a través de todo
tipo de ingenieros y contabilizados para diferentes partes del problema. Es uno de los con los que estoy más feliz
porque finalmente se me ocurrió una solución muy simple que fue fácil de entender desde todos los niveles, desde
los ejecutivos hasta los ingenieros y desarrolladores. Al final fue igual de eficiente como algo realmente complejo
que pude tener pasó mucho más tiempo en. - De vuelta en la universidad tenemos un problema que queríamos
predecir la floración de algas. Esta floración de algas podría causar un aumento de la toxicidad del agua. y podría
causar problemas a la empresa de tratamiento de agua. No podríamos predecirlo con nuestra ingeniería química.
antecedentes, por lo que utilizamos redes neuronales artificiales para predecir cuándo ocurrirá esta floración.
Para que las empresas de tratamiento de agua manejar mejor este problema. - En Toronto, el transporte público es
operado por Comisión de Tránsito de Toronto. Los llamamos TTC. Es una de las mayores autoridades de tránsito.
en la región de América del Norte. Y un día me contactaron y me dijeron 'tenemos un problema'. Y dije bien, cuál
es el problema. Dijeron, 'bueno, tenemos datos de quejas y nos gustaría analizarlo y necesitamos su ayuda '. Dije
bien, estaré muy feliz de ayudar. Entonces dije ¿cuántas quejas tienes? Dijeron, 'algunos'. ¿Dije cuántos? 'Quizás
medio millón'. Dije bueno, empecemos a trabajar con eso. Así que obtuve los datos y comencé a analizarlos.
Básicamente, han hecho un gran trabajo en mantener los datos, algunos datos en formato tabular otros eran datos
no estructurados. Y en ese caso datos tabulares Fue cuando llegó la denuncia, quien la recibió, cuál fue el tipo de
denuncia, se resolvió, de quién fue la culpa. Y la parte no estructurada fue el intercambio de correos electrónicos y
faxes. Así que imagina mirar medio millón de intercambios de correos electrónicos. y tratando de obtener alguna
respuesta. Entonces comencé a trabajar con eso y lo primero que quise saber es ¿Por qué la gente se quejaría y hay
un patrón? ¿Hay algunos días en los que hay más quejas que otras? Y miré los datos y analicé en todos los
formatos diferentes y no pude encontrar cuál es el ímpetu de las quejas es mayor en un día determinado y más bajo
en otros. Y continuó durante tal vez un mes así y luego un día me estaba bajando del autobús en Toronto y seguía
pensando en eso y salí sin mirar al suelo y me metí en un charco, charco de agua. Y ahora estaba una especie de
agua hasta los tobillos y estaba solo un pie mojado y el otro seco y estaba muy molesto. Y estaba caminando de
regreso y luego me di cuenta y dije bueno, espera un segundo. Hoy llovió inesperadamente y no estaba preparado
para eso. Por eso estoy mojado y no lo estaba buscando. ¿Qué pasa si hay una relación entre clima extremo y el
tipo de quejas que recibe TTC? Así que fui al sitio web de Environment Canada. y obtuve datos sobre lluvia y
precipitación, viento y cosas por el estilo. Y allí encontré algo muy interesante. Los diez días más excesivos para
quejas, los diez días que la gente se quejó más Eran los días en que hacía mal tiempo. Fue una lluvia inesperada,
una caída extrema de temperatura, demasiada nieve, un día muy ventoso. Entonces volví a los ejecutivos de TTC y
dije, tengo buenas y malas noticias. Dije, la buena noticia es que sé por qué la gente se quejaría excesivamente en
ciertos días. Sé la razón de ello. La mala noticia es que no puedes hacer nada al respecto.
Como tengo experiencia en ingeniería, Empecé a programar con C, luego fui a Matlab, y eventualmente a Python.
Normalmente uso Matlab, C y C ++, pero para la ciencia de datos utilizo Python. - R y Python. - R. - Soy un
evangelista R. Estuve en la conferencia use R el año pasado y creo que tiene una de las mejores comunidades
También me gusta mucho SQL y creo que la gente no gasta tiempo suficiente para apreciarlo en sus diversas
encarnaciones. - Trabajo principalmente con R y Stata. No trabajo mucho con big data, así que para el tipo de los
conjuntos de datos que tengo, hay unos pocos millones de observaciones, incluso los cientos de millones de
observaciones entonces puedo trabajar con Stata y R y SPSS existentes, No tengo ningún problema con eso pero
como dije, si tuviera que trabajar con grandes conjuntos de datos, Usaría diferentes herramientas. Mis herramientas
preferidas son las tres; R, Stata y SPSS. También trabajo mucho con datos espaciales por lo que estos son
conjuntos de datos que tienen un componente, así que imagina 40 millones de californianos y 40 millones de
personas, algunas de ellas en California, algunos de ellos en los estados vecinos, y si conozco la dirección exacta
de su casa de todos y cada uno de ellos y donde trabajan. Y eso sería un GIS asombroso, Base de datos de sistemas
de información geográfica espacial. Así que trabajo con ellos también y mi herramienta que uso se llama Maptitude
y MapInfo, estos son los dos que más utilizo.
PARTE 3
CIENCIA DE DATOS EN LOS NEGOCIOS
- Al final del día, para empresas, saben una cosa, que si no pueden medir algo, no pueden mejorarlo. Y si no
pueden medir sus costos, son incapaces de reducirlos. Si no pueden medir sus ganancias, no pueden aumentarlos.
Entonces, lo primero que debe hacer una empresa es comenzar a registrar información, comenzar a capturar datos.
Datos sobre costes, datos sobre .. y luego diferenciados por costos laborales y costos de materiales. El costo de,
cuánto cuesta vender un producto y el costo total. Y luego miras los ingresos. ¿De dónde provienen sus ingresos?
¿El 80% de sus ingresos proviene del 20% de sus clientes? ¿O es al revés? Así que lo primero es empezar a
capturar datos. Una vez que tenga los datos, puede aplicar algoritmos y análisis. Entonces, lo primero que debe
hacer sería capturar datos. Si no lo está capturando, comience a capturarlo. Si lo está capturando, archívelo. No
sobrescriba sus datos antiguos pensando que ya no lo necesitas. Los datos nunca envejecen, los datos siempre son
relevantes. Incluso si tiene cien años, 200 años, es relevante para usted y su empresa y su éxito. Así que conserve
los datos, captúrelos y archívelos. Asegúrese de que nada se desperdicie. Asegúrate de que haya consistencia
entonces alguien 20 años después tratando de entender que los datos deberían poder hacerlo. Así que tenga la
documentación adecuada. Hágalo ahora, aplique las mejores prácticas para el archivo de datos en su lugar en el
momento de iniciar un negocio. Y si ya estás en el negocio y no lo has hecho, hazlo ahora. - Empiece a medir
cosas. Demasiadas empresas no han medido las cosas correctamente durante una década y luego deciden que
quieren ciencia de datos. Ciencia de datos dentro de una empresa solo será tan valioso como los datos recopilados.
La basura entra y sale basura es una regla en cualquier tipo de análisis. - Si algo no se mide, es muy difícil
mejorarlo o cambiarlo. Entonces, el primer paso es la medición. Si las empresas tienen datos existentes, entonces
deberían empezar a mirarlo y limpiarlo. Si no tienen datos existentes, entonces necesitan empezar a recolectarlo. -
Pienso buscar un equipo al que le guste trabajar como científico de datos. - El primer paso es tener empleados, que
están interesados en la ciencia. Porque si no tienes interés en tu empresa, no tendrás igual compromiso. - Las
empresas deben recordar que es clave tener un equipo, por lo que no es un científico de datos sino un equipo de
ellos, que cada uno tiene fortalezas en diferentes áreas de la ciencia de datos.
2.- RECLUTAMIENTO PARA CIENCIA DE DATOS
- Cuando las empresas están contratando personas para un equipo de ciencia de datos, tal vez un científico de
datos o un analista, o un científico jefe de datos, la tendencia sería encontrar a la persona quien tiene todas las
habilidades, que conocen el conocimiento específico del dominio, son excelentes en el análisis estructurado y datos
no estructurados, y son excelentes para presentar y tienen grandes habilidades para contar historias. Entonces, si
juntas todo esto, te darás cuenta de que estás buscando un unicornio, y tus probabilidades de encontrar un unicornio
son bastante raras. Creo que lo que tienes que hacer es ver dado el grupo de solicitantes que tiene, quién tiene más
resonancia con el ADN de su empresa. Porque, mira, puedes enseñar habilidades analíticas. Cualquiera puede
aprender habilidades analíticas si le dedicaran tiempo y esfuerzo. Pero lo que realmente importa es quien es
apasionado sobre el tipo de negocio que hace. Alguien podría ser un gran científico de datos en el entorno
minorista, pero puede que no estén tan emocionados por trabajar en empresas relacionadas con las tecnologías de la
información, o trabajar con gigabytes de registros web. Pero si alguien está entusiasmado con esos registros web, o
alguien está entusiasmado con los datos relacionados con la salud, entonces ellos podrían contribuir a su
productividad mucho más. Y yo diría que si estoy buscando a alguien si tengo que formar un equipo de ciencia de
datos, Primero buscaría curiosidad. ¿Esa persona tiene curiosidad por las cosas? No solo para la ciencia de datos,
sino para cualquier cosa. ¿Tienen curiosidad por saber por qué esta habitación está pintado de cierta manera? ¿Por
qué las estanterías tienen libros y qué tipo de libros? Tienen que tener cierto grado de curiosidad. sobre todo lo que
está en su visión que miran. La segunda cosa es, ¿tienen sentido del humor? Porque ya ves, tienes que estar alegre
al respecto. Si alguien se lo toma demasiado en serio, probablemente se lo tomarían demasiado en serio, y no
podría mirar los elementos más ligeros. La tercera cosa que pienso y creo que lo ultimo que buscaria, si tengo que
tener una jerarquía, lo último que buscaría son habilidades técnicas. Pasaría por estas habilidades sociales,
curiosidad, sentido del humor, la capacidad de contar una historia, la capacidad de saber que hay una historia ahí.
Y luego, una vez que todo está ahí, entonces diré, "Bueno, ¿puedes hacer el aspecto técnico?" Y si hay alguna
esperanza o algún signo de algunas habilidades técnicas, Los tomaría porque puedo entrenarlos en las habilidades
que necesiten. Pero no puedo enseñar curiosidad. No puedo enseñar a contar historias. Ciertamente no puedo
infundir sentido del humor en nadie. - Creo que no hay una regla estricta y rápida. para contratar científicos de
datos. Creo que será una cuestión de caso por caso. Yo diría que tiene que haber algún tipo de componente técnico.
Alguien debería poder manipular los datos. Deberían poder comunicarse lo que encuentran en los datos. Encuentro
con bastante frecuencia que a nadie le importa realmente la R cuadrado o intervalo de confianza. Entonces tienes
que poder presentar esas cosas y explicar algo de manera convincente. Y también tienen que encontrar a alguien
con quien se pueda relacionar, debido a que la ciencia de datos, por lo general, es nuevo significa que la persona en
ese rol tiene que entablar relaciones y tienen que trabajar en diferentes departamentos. - Si este científico de datos
tiene buenas matemáticas y antecedentes estadísticos. - Deben considerar la capacidad de resolución de problemas.
y análisis. Un científico de datos debe ser bueno en el análisis de problemas. - Las personas que están contratando,
les encantaría jugar con los datos, y luego saben cómo jugar con la visualización de datos. Tienen pensamiento
analítico. - Cuando una empresa está contratando, cualquiera que trabaje en un equipo de ciencia de datos,
necesitan pensar en qué papel esa persona va a tomar. Antes de que comience una empresa, deben comprender qué
quieren de su equipo de ciencia de datos. Y luego necesitan contratar para comenzar. A medida que crece un
equipo de ciencia de datos, necesitan entender si necesitan ingenieros, arquitectos, diseñadores para trabajar en la
visualización, o si solo necesitan más personas que puede multiplicar matrices grandes. - Desde el punto de vista de
las habilidades, centrémonos en las habilidades técnicas, y en ese caso, lo primero sería qué tipo de plataforma
técnica le gustaría adoptar. Supongamos que quiere trabajar en un entorno de datos estructurados y digamos que
quieres trabajar en investigación de mercado. Entonces, el tipo de habilidades que necesita son ligeramente
diferentes. que alguien a quien le gustaría trabajar en entornos de big data. Si quieres trabajar en la investigación de
mercado tradicional entorno de datos estructurados, sus habilidades deben ser algunos conocimientos estadísticos,
algún conocimiento de algoritmos estadísticos básicos, tal vez algunos algoritmos de aprendizaje automático, y
estas son las herramientas que le gustaría desarrollar. Si quieres trabajar en big data, luego está el otro aspecto, y
eso es poder almacenar datos. Entonces empiezas con la experiencia en el almacenamiento de grandes cantidades
de datos, y luego busca plataformas que le permitan hacer eso. El siguiente paso sería poder manipular grandes
cantidades de datos, y el paso final sería aplicar
El propósito final de la analítica es comunicar los hallazgos a los interesados, quienes podrían utilizar estos
conocimientos para formular políticas o estrategias. los análisis resumen los hallazgos en tablas y gráficos. El
científico de datos debería entonces usar los conocimientos para construir la narrativa para comunicar los
hallazgos. en el mundo académico, el resultado final es en forma de ensayos e informes. estos entregables suelen
tener una extensión de 1000 a 7000 palabras.
en consultoría y, el producto final adquiere varias formas. puede ser un documento pequeño de menos de 1500
palabras ilustrado con tablas y diagramas, o puede ser un documento completo de varios cientos de páginas. Las
grandes firmas de consultoría, como McKinsey y Deloitte, generan de forma rutinaria informes basados en análisis
para comunicar sus hallazgos y, en el proceso, establecer su experiencia en dominios de conocimiento específicos.
El pronóstico económico de Estados Unidos de Deloitte sirve al propósito que pretendían sus autores. el informe
utiliza datos y análisis para generar los probables escenarios económicos. construye una narrativa poderosa en
apoyo de la declaración de tesis de que EE. UU. a la economía le va mucho mejor de lo que a la mayoría le gustaría
creer. Al mismo tiempo, el informe muestra que Deloitte es una empresa competente capaz de analizar datos
económicos y prescribir estrategias para hacer frente a los desafíos económicos.
ahora consideremos si excluyéramos la narrativa de este informe y presentamos los hallazgos como una baraja de
diapositivas en power point con gráficos y cuatro tablas. las diapositivas de power point no habrían podido
comunicar el mensaje que los autores elaboraron cuidadosamente en el informe citando piketty y voltaire.
Considero que el informe de Deloitte es un buen ejemplo de narración con datos y te animo a leer el informe para
decidir por ti mismo si el entregable hubiera sido igualmente poderoso sin la narrativa.
ahora trabajemos hacia atrás desde el informe Deloitte. antes de que los autores comenzaran su análisis, deben
haber discutido el alcance del producto final. habrían deliberado sobre el mensaje clave del informe y luego
buscaron los datos y análisis que necesitaban para defender su caso. Por lo tanto, la planificación inicial y la
conceptualización del producto final son extremadamente importantes para producir un documento convincente.
embarcarse en el análisis, sin la debida consideración al producto final, probablemente resulte en un documento de
baja calidad donde el análisis y la narrativa tendrían dificultades para combinarse.
PARTE 4
CASOS DE USO PARA LA CIENCIA DE DATOS
- Creo que una de las buenas nuevas aplicaciones de la ciencia de datos está en el campo médico. Como en la
administración de medicamentos o en el tratamiento del cáncer. - creo que uno muy interesante así es como ahora
las empresas pueden utilizar toda la información están reuniendo de sus clientes para desarrollar nuevos productos
que responden a las necesidades de los clientes. - Una buena nueva aplicación de la ciencia de datos. fue la noticia
de alta tendencia de Pokémon Go. Entonces usaron Ingress. Usaron datos de la aplicación Ingress. La última
aplicación de la misma empresa y eligen las ubicaciones para Pokémon y gimnasios según los datos de la última
aplicación. Entonces aprendieron con sus errores. - Google Search es una aplicación de ciencia de datos. La
Búsqueda de Google, siempre que queramos buscar cualquier cosa. Así que creo que todo se debe a la ciencia de
datos. Sea lo que sea Google ahora, todo se debe a la ciencia de datos. - La realidad aumentada es mi favorita
nueva implementación de ciencia de datos. Creo que no puedes mirar una nueva tecnología. y no ver la ciencia de
datos allí pero la realidad aumentada es la indicada Soy el que más me emociona. La capacidad de caminar y ver
cosas en las paredes. o alrededor de nosotros que no están realmente ahí. Pokémon es solo el comienzo. - Entonces
lo que ha sucedido es que ahora las herramientas están disponibles y conjuntos de datos disponibles, la gente los
está aplicando sin mucha diligencia y creo que uno de los casos extraños que se informó en los periódicos se trata
de la historia de un padre que entra a una tienda Target en EE. UU. y quejándose del hecho que Target estaba
enviando correos electrónicos a su hija adolescente sobre pañales y leche, fórmula para bebés. Estaba enojado con
ellos. Él dijo: "¿Por qué te gustaría "¿Para que mi hija adolescente tenga un bebé?" Y obviamente estaba
perturbado por este correo o la campaña publicitaria. Y obviamente se disculparon pero luego el padre regresó dos
semanas después y se disculpó con ellos diciendo que no sabía que su hija estaba embarazada. Ahora la pregunta
es, ¿cómo supo Target esto? antes de que el padre lo supiera. Y lo que ha pasado es que mirarían en el
comportamiento de compra de los individuos. Entonces, si está comprando algún tipo de suplementos o vitaminas
entonces sabrá que este es el primer trimestre del embarazo. Para que sepan qué productos enviarle asumiendo que
las personas que compraron esos suplementos estaban embarazadas. Ahora bien, esta es una gran historia sobre
ciencia de datos. y cómo la ciencia de datos puede pronosticar y predecir estos comportamientos del consumidor
incluso antes de que la familia se enterara. Y lo encuentro perturbador y extraño y extraño por muchas razones. En
primer lugar, para cada predicción correcta, tienes cientos de predicciones incorrectas lo que llamamos los falsos
positivos y ningún científico de datos anuncia sus falsos positivos.
Solo publicitamos y promocionamos lo que hicimos bien. Pero cuando nos equivocamos cientos de veces, no lo
contamos. En segundo lugar, eso es un abuso de datos. Básicamente, eso no te da mucha información. Acabas de
encontrar una correlación pero alguien podría estar comprando el mismo material para alguien más. Entonces, y
luego las probabilidades de equivocarse y las probabilidades de obtener falsos positivos son mucho mayores.
Entonces lo encuentro extraño y creo que da un sentido falso de nuestra capacidad para predecir el futuro. La
realidad se trata de ciencia de datos y lo mas importante para que el científico de datos en ciernes sepa que todos
los pronósticos son incorrectos. Son útiles pero están equivocados. Y entonces uno no debe poner su fe en el hecho
de que ahora que podemos hacer análisis predictivos que podemos resolver todos los problemas. Creo que un buen
ejemplo es la Búsqueda de Google. Google publicó un artículo que decía pueden predecir epidemias de gripe ante
el Centro para el Control de Enfermedades. Y lo que hicieron fue que estaban mirando en lo que la gente buscaba
en Google, así que síntomas de la gripe Entonces Google vio las búsquedas de síntomas de la gripe antes que nadie
y fueron capaces de predecirlo. Lo que pasa es que estas búsquedas son buenas y están correlacionados con
algunos resultados pero no necesariamente todo el tiempo. Entonces, en ese momento, cuando Google anunció, fue
algo grande y a todos realmente les gustó y bueno, esa es una nueva era de análisis predictivo. Solo que unos años
después se dieron cuenta que Google comenzó a predecir falsos positivos. Que estaban prediciendo cosas que no
estaban realmente ahí o las predicciones no fueron tan precisas por una variedad o razones. Probablemente
cambiaron sus algoritmos y los conjuntos de datos no estaban realmente correlacionados con los resultados.
Entonces, ¿cuál es la lección que aprender aquí? Hay que evitar lo que llamamos la arrogancia de los datos. Que no
debes creer demasiado en tus modelos porque pueden llevarte por mal camino. La ciencia de datos tiene un enorme
potencial para generar cambios en partes del mundo, en partes de nuestra sociedad que han estado privados de sus
derechos durante años. Uno ve grandes ejemplos de ciencia de datos especialmente en los países en desarrollo
donde se dirigen los esfuerzos de socorro. Están apuntando a la comida y otras ayudas a particulares, a lugares que
no han sido atacados en el pasado. Y la razón por la que está sucediendo ahora es la mayor disponibilidad de datos
y modelos y análisis para poder identificar dónde están las mayores necesidades. La capacidad de diseñar y realizar
experimentos. para ver si uno daba microcréditos, pequeños préstamos a hogares muy pobres en partes del mundo
en desarrollo, para ver cómo afectan la capacidad del hogar individual para salir de la pobreza y también la
capacidad de la comunidad local para mejorar colectivamente su bienestar económico con tan solo pequeñas
infusiones de efectivo o crédito. Entonces, estos experimentos están sucediendo en todo el mundo. están
permitiendo que sea un resultado directo de nuestra capacidad para analizar datos y poder diseñar experimentos y
luego desplegar enormes esfuerzos en brindar alivio, otorgar crédito, brindando una oportunidad a aquellos que han
sido privados de sus derechos en el pasado una oportunidad para unirse al resto del mundo en prosperidad,
felicidad y salud.
Una sección introductoria siempre es útil para plantear el problema al lector que podría ser nuevo en el tema y que
podría necesitar una introducción suave al tema antes de sumergirse en detalles intrincados. Un buen seguimiento
de la sección introductoria es una revisión de la investigación relevante disponible sobre el tema. la extensión de la
sección de revisión de la literatura depende de cuán impugnado sea el tema. en los casos en que la gran mayoría de
los investigadores han concluido en una dirección, la revisión de la literatura podría ser breve con citas solo para
los autores más influyentes sobre el tema. Por otro lado, si los argumentos son más matizados con muchas
salvedades, entonces debe citar la investigación relevante para ofrecer el contexto adecuado antes de embarcarse en
su análisis que tratará de completar. aquí es donde presenta formalmente sus preguntas e hipótesis de investigación.
la sección de resultados es donde presenta sus hallazgos empíricos. comenzando con estadísticas descriptivas y
gráficos ilustrativos, avanzará hacia la prueba formal de su hipótesis. en caso de que necesite ejecutar modelos
estadísticos, puede recurrir a modelos de regresión o análisis categórico. Si trabaja con datos de series de tiempo,
puede recurrir a "también puede informar resultados de otras técnicas empíricas que se incluyen en la rúbrica
general de minería de datos".
tenga en cuenta que muchos informes en el sector empresarial presentan resultados de una manera más aceptable al
retener los detalles estadísticos y confiar en gráficos ilustrativos para resumir los resultados.
en la sección de conclusiones, generaliza sus hallazgos específicos y adopta un enfoque más bien de marketing
para promover sus hallazgos, de modo que el lector no se quede atascado en las advertencias que ha descrito
voluntariamente anteriormente. También puede identificar futuros posibles desarrollos en investigación y
aplicaciones que podrían resultar de su investigación. lo que queda es la limpieza, que incluye una lista de
referencias, la sección de agradecimiento (reconocer el apoyo de quienes han habilitado su trabajo siempre es
bueno), y apéndices, si es necesario.
PARTE 5
PERSONAS DE CIENCIA DE DATOS
Defino científico de datos como alguien que encuentra soluciones a problemas analizando datos grandes o
pequeños utilizando herramientas adecuadas y luego cuenta historias para comunicar sus hallazgos a las partes
interesadas relevantes. No utilizo el tamaño de los datos como cláusula restrictiva. un dato por debajo de un cierto
umbral arbitrario no significa que uno sea menos científico de datos. tampoco mi definición de científico de datos
se restringe a herramientas analíticas particulares, como aprendizaje automático. Siempre que uno tenga una mente
curiosa, fluidez en el análisis y la capacidad de comunicar los hallazgos, considero a la persona un científico de
datos. Yo defino al científico de datos como algo que hacen los científicos de datos.
En resumen, diría que la ciencia de datos es lo que hacen los científicos de datos.
Recordemos que el Dr. Patil le dijo al periódico The Guardian en 2012 que un científico de datos es esa
combinación única de habilidades que pueden desbloquear la información de los datos y contar una historia
fantástica a través de los datos. 2 lo que es admirable de la definición del Dr. Patil es que incluye a personas de
diversos antecedentes académicos y formación, y no restringe la definición de científico de datos a una herramienta
en particular ni la somete a un determinado umbral mínimo arbitrario de tamaño de datos. .
está muy vivo y está siendo cuestionado por individuos, algunos de los cuales simplemente están interesados en
proteger sus territorios académicos o disciplinarios. En esta sección, intento abordar estas controversias y explicar
por qué una definición estrictamente interpretada de big data o ciencia de datos resultará en la exclusión de cientos
de miles de personas que recientemente se han dirigido al campo emergente.
1.- COSAS QUE DICEN LAS PERSONAS DE CIENCIA DE DATOS
- Una vez que haya analizado y tenga sus resultados, sepa que sus resultados son incorrectos, sospeche un poco de
sus hallazgos. Siempre cree que no hay blanco y negro y blanco, siempre es una materia gris. Y si puede volver
atrás y rehacer el análisis una y otra vez hasta que esté absolutamente seguro de que no se cometieron errores. - Si
no se está midiendo, no existe. - Me gusta mucho la navaja de Occam que si tienes que si dice que si tienes un
problema con dos explicaciones, por lo general, la más simple es la mejor. - Para mí es como si menos fuera más.
Intenta simplificar las cosas. - "En Dios confiamos en que todos los demás traigan datos". No se me ocurrió eso ese
era Deming. Tuve que buscarlo.
EXAMEN FINAL
SELECCIONAR DATOS
El resultado de un ejercicio de minería de datos depende en gran medida de la calidad de los datos que se utilizan. A
veces, los datos están disponibles para su posterior procesamiento. Por ejemplo, los minoristas a menudo poseen
grandes bases de datos de compras y datos demográficos de los clientes. Por otro lado, es posible que los datos no
estén disponibles para la minería de datos. En tales casos, debe identificar otras fuentes de datos o incluso planificar
nuevas iniciativas de recopilación de datos, incluidas las encuestas. El tipo de datos, su tamaño y la frecuencia de
recopilación tienen una relación directa con el costo del ejercicio de minería de datos. Por lo tanto, es fundamental
identificar el tipo correcto de datos necesarios para la minería de datos que puedan responder las preguntas a costos
razonables.
PREPROCESAMIENTO DE DATOS
El procesamiento previo de datos es un paso importante en la minería de datos. A menudo, los datos sin procesar son
confusos y contienen datos erróneos o irrelevantes. Además, incluso con datos relevantes, a veces falta información.
En la etapa de preprocesamiento, identifica los atributos irrelevantes de los datos y elimina dichos atributos de una
consideración adicional. al mismo tiempo, es necesario identificar los aspectos erróneos del conjunto de datos y
marcarlos como tales. Por ejemplo, un error humano puede llevar a una fusión inadvertida o un análisis incorrecto
de la información entre columnas. Los datos deben estar sujetos a controles para garantizar su integridad. Por último,
debe desarrollar un método formal para tratar los datos faltantes y determinar si los datos faltan de forma aleatoria o
sistemática.
En los datos que faltan al azar, un simple conjunto de soluciones sería suficiente. Sin embargo, cuando faltan datos
de manera sistemática, debe determinar el impacto de los datos faltantes en los resultados. Por ejemplo, un
subconjunto particular de personas en un gran conjunto de datos puede haberse negado a revelar sus ingresos. Los
hallazgos que se basan en los ingresos de un individuo como entrada excluirían detalles de aquellos individuos cuyos
ingresos no fueron reportados. Esto conduciría a sesgos sistemáticos en el análisis. Por lo tanto, debe considerar de
antemano si las observaciones o variables que contienen datos faltantes deben excluirse del análisis completo o partes
del mismo.
TRANSFORMANDO DATOS
Una vez que se han retenido los atributos relevantes de los datos, el siguiente paso es determinar el formato apropiado
en el que se deben almacenar los datos. Una consideración importante en la minería de datos es reducir la cantidad
de atributos necesarios para explicar los fenómenos. De esta forma requieren la transformación de datos. Los
algoritmos de reducción de datos, como el Análisis de componentes principales (demostrado y explicado más
adelante en el capítulo), pueden reducir el número de atributos sin una pérdida significativa de información. Además,
es posible que sea necesario transformar las variables para ayudar a explicar el fenómeno que se está estudiando. Por
ejemplo, los ingresos de una persona pueden registrarse en el conjunto de datos como ingresos salariales; ingresos
de otras fuentes, como propiedades de alquiler; pagos de apoyo del gobierno y similares. La agregación de ingresos
de todas las fuentes desarrollará un indicador representativo de los ingresos individuales. A menudo es necesario
transformar variables de un tipo a otro. Puede ser prudente transformar la variable continua de ingresos en una
variable categórica en la que cada registro de la base de datos se identifique como individuo de ingresos bajos, medios
y altos. Esto podría ayudar a capturar las no linealidades en los comportamientos subyacentes.
ALMACENAMIENTO DE DATOS
Los datos transformados deben almacenarse en un formato que los haga propicios para la minería de datos. Los datos
deben almacenarse en un formato que otorgue privilegios de lectura / escritura inmediatos y sin restricciones al
científico de datos. Durante la minería de datos, se crean nuevas variables, que se vuelven a escribir en la base de
datos original, por lo que el esquema de almacenamiento de datos debería facilitar la lectura y escritura en la base de
datos de manera eficiente. También es importante almacenar datos en servidores o medios de almacenamiento que
mantienen los datos seguros y también evitan que el algoritmo de minería de datos busque innecesariamente
fragmentos de datos dispersos en diferentes servidores o medios de almacenamiento. La seguridad y la privacidad
de los datos deben ser una preocupación primordial para el almacenamiento de datos.
DATOS MINEROS
Una vez que los datos se procesan, transforman y almacenan adecuadamente, están sujetos a la minería de datos.
Este paso cubre los métodos de análisis de datos, incluidos los métodos paramétricos y no paramétricos, y los
algoritmos de aprendizaje automático. Un buen punto de partida para la minería de datos es la visualización de datos.
Las vistas multidimensionales de los datos que utilizan las capacidades gráficas avanzadas del software de minería
de datos son muy útiles para desarrollar una comprensión preliminar de las tendencias ocultas en el conjunto de
datos.
EVALUACIÓN DE RESULTADOS MINEROS
Una vez extraídos los resultados de la minería de datos, realiza una evaluación formal de los resultados. La evaluación
formal podría incluir probar las capacidades predictivas de los modelos en datos observados para ver qué tan
efectivos y eficientes han sido los algoritmos en la reproducción de datos. Esto se conoce como pronóstico en la
muestra. Además, los resultados se comparten con las partes interesadas clave para obtener comentarios, que luego
se incorporan en las iteraciones posteriores de la minería de datos para mejorar el proceso. La extracción de datos y
la evaluación de los resultados se convierte en un proceso iterativo de modo que los analistas utilizan algoritmos
mejores y mejorados para mejorar la calidad de los resultados generados a la luz de la retroalimentación recibida de
las partes interesadas clave.