Está en la página 1de 16

Esquema de calificación

Marcar esta página


Esquema de calificación
1. La marca de paso mínima para el curso es del 70% con los siguientes pesos:

o 50% - Todas las preguntas de revisión

o 50% - El examen final

2. Aunque las preguntas de revisión y el examen final tienen una marca de aprobación del 60%,
respectivamente, la única calificación que importa es la calificación general para el curso.

3. Las preguntas de revisión no tienen límite de tiempo. Se le anima a revisar el material del curso para
encontrar las respuestas.

4. El examen final tiene un límite de tiempo de 1 hora.

5. Los intentos son por pregunta en ambos, las preguntas de revisión y el examen final:

o Un intento - Para preguntas verdaderas/falsas

o Dos intentos - Para cualquier pregunta que no sea True/False

6. No hay sanciones por intentos incorrectos.

7. Al hacer clic en el botón"Comprobación final"cuando aparece, significa que su envío es FINAL.


Nopodrás volver a enviar tu respuesta para esa pregunta nunca más.
8. Compruebe sus calificaciones en el curso en cualquier momento haciendo clic en la pestaña "Progreso".
PARTE 1
LA CIENCIA DE DATOS
Recordemos que el Dr. Patil le dijo al periódico The Guardian en 2012 que un científico de datos es esa
combinación única de habilidades que pueden desbloquear la información de los datos y contar una historia
fantástica a través de los datos. Lo que es admirable de la definición del Dr. Patil es que incluye a personas de
diversos antecedentes académicos y formación, y no restringe la definición de científico de datos a una herramienta
en particular ni la somete a un determinado umbral mínimo arbitrario de tamaño de datos. .

P1: Un informe del Instituto Global McKinsey advierte sobre una gran escasez de talento para datos y análisis.
"Para 2018, solo Estados Unidos podría enfrentar una escasez de 140,000 a 190,000 personas con profundas
habilidades analíticas, así como 1.5 millones de gerentes y analistas con los conocimientos para usar el análisis de
big data para tomar decisiones efectivas".
P2: WALMART
El análisis de las redes sociales es la forma perfecta de hacer crowdsourcing de la información. Al sintetizar los
datos de las redes sociales, las empresas no buscan algo específico, se trata de información menos sesgada y
generalmente más limpia

P3: $ 112,000 (salario de seis cifras) para científico de datos? ¿Suerte o no? publicación publicada hace 3 meses
por Chijioke Omaliko Creo que la demanda de científicos de datos es bastante alta y la oferta es escasa, por lo que
los empleadores definitivamente pagarán el mejor precio por uno con tal talento. Como científico de datos, también
busque mejores formas de contar su historia. Sin contar historias, su investigación no será conocida.

1.- ¿Qué es la ciencia de datos? - La ciencia de datos es un proceso, no un evento. Es el proceso de usar datos para
entender diferentes cosas, para entender el mundo. - Para mí, es cuando tienes modelo, o una hipótesis de un
problema, e intentas validar esa hipótesis o modelo con sus datos. - La ciencia de datos es el arte de descubrir los
conocimientos y las tendencias que se esconden detrás de los datos. - Es cuando traduces datos en una historia, por
lo que utiliza la narración para generar conocimientos. Y con estas ideas, puedes hacer estratégico ... opciones para
una empresa o institución. - La ciencia de datos es un campo sobre procesos y sistemas, para extraer datos de varias
formas, si es una forma estructurada o no estructurada. - La ciencia de datos es el estudio de datos, como las
ciencias biológicas son el estudio de la biología; ciencias físicas, es el estudio de las reacciones físicas. Los datos
son reales, los datos tienen propiedades reales, y necesitamos estudiarlos, si vamos a trabajar en ellos. - La ciencia
de datos involucra datos y algo de ciencia. La definición, o el nombre, surgió en los años 80 y 90 cuando algunos
profesores estaban investigando el plan de estudios de estadística, y pensaron que sería mejor llamarlo ciencia de
datos. Pero, ¿qué es la ciencia de datos? Veo la ciencia de datos como un intento de trabajar con datos para
encontrar respuestas a las preguntas que están explorando. En pocas palabras, se trata más de datos de lo que se
trata de ciencia. Si tienes datos y tienes curiosidad, y estás trabajando con datos y lo estás manipulando, lo estás
explorando, el ejercicio mismo de analizar datos, tratar de obtener algunas respuestas es ciencia de datos. La
ciencia de datos es relevante hoy porque tenemos toneladas de datos disponibles. Solíamos preocuparnos por la
falta de datos; ahora tenemos una avalancha de datos. En el pasado, no teníamos algoritmos; ahora tenemos
algoritmos. En el pasado, el software era caro; ahora es de código abierto y gratuito. En el pasado, no podíamos
almacenar grandes cantidades de datos; ahora, por una fracción del costo, podemos tener miles de millones de
conjuntos de datos a un costo muy bajo, por lo que las herramientas para trabajar con datos la propia disponibilidad
de datos, y la capacidad de almacenar y analizar datos, todo es barato, todo está disponible, todo es omnipresente,
está aquí. Nunca ha habido un mejor momento para ser científico de datos.

2.- HAY MUCHAS RUTAS HACIA LA CIENCIA DE DATOS


- La ciencia de datos no existía realmente cuando era pequeño. No es algo que me haya despertado y digo: "Quiero
ser un científico de datos cuando sea mayor". No, no existía. No sabía que estaría trabajando en ciencia de datos. -
Cuando crecí no había ese campo llamado ciencia de datos. Y creo que es realmente nuevo. - La ciencia de datos
no existió hasta 2009, 2011. Alguien como DJ Patil o Andrew Gelman acuñó el término. Antes de eso había
estadísticas y yo no quería ser ninguno de esos. Quería estar en el negocio y luego encontré la ciencia de datos
mucho más interesante. - Estudié estadística, así empecé. Pasé por muchas etapas diferentes en mi vida donde quise
ser cantante y luego un doctor y luego me di cuenta de que era bueno en matemáticas. Así que elegí un área que se
estaba enfocando análisis cuantitativo y a partir de entonces Creo que quería trabajar con datos. no necesariamente,
la ciencia de datos como se la conoce hoy en día. - La primera vez que tuve contacto con la ciencia de datos, Fue
cuando estaba en mi primer año de ingeniería mecánica. Empresas de consultoría estratégica, utilizan la ciencia de
datos para tomar decisiones. Entonces, ese fue mi primer contacto con la ciencia de datos. - Tenía un problema
complicado que necesitaba resolver. Las técnicas habituales que teníamos en ese momento No pude ayudar con el
problema. - Me gradué con una licenciatura en matemáticas en el peor tiempo posible justo después de la crisis
económica. De hecho, tenías que ser útil para conseguir un trabajo. Así que fui y me licencié en estadística. y luego
trabajé suficientes trabajos que eran llamado científico de datos que de repente me convertí en uno. - Mi
licenciatura fue en negocios. y me especialicé en política, filosofía y economía. Y luego hice una maestría en
Business Analytics en la Universidad de Nueva York en la Stern School of Business. Cuando dejé mi licenciatura,
la primera empresa a la que me uní, resultó que estaban analizando datos electrónicos de punto de venta para
fabricantes minoristas. Y lo que estábamos haciendo era ciencia de datos pero solo comenzamos a usar ese término
mucho más tarde. De hecho, diría yo, hace cuatro o cinco años Fue entonces cuando comenzamos a llamarlo
análisis y ciencia de datos. - Tuve varias opciones para mi pasantía aquí en Canadá y una de las opciones era
trabajar con ciencia de datos. Solía trabajar en el desarrollo de productos pero creo que fue una buena elección. Y
luego comencé mi pasantía con ciencia de datos. - Soy ingeniero civil de formación, por lo que todos los ingenieros
trabajan con datos. Yo diría que el uso convencional de la ciencia de datos. en mi vida comencé con la
investigación del transporte. Empecé a construir modelos grandes intentando para pronosticar el tráfico en las
calles, tratando de determinar la congestión y emisiones de gases de efecto invernadero o emisiones de escape.
Creo que ahí es donde fue mi comienzo y comencé a construir estos modelos cuando estaba estudiante de posgrado
en la Universidad de Toronto. Empecé a trabajar con conjuntos de datos muy grandes. mirando muestras de
hogares de 150.000 hogares, medio millón de viajes y eso también, Hablo de mediados de los noventa, cuando se
suponía que era un conjunto de datos muy grande pero no en los términos de hoy, pero así es como empecé. Seguí
trabajando con él y luego me mudé a la Universidad McGill donde fui profesor de ingeniería de transporte y
construí modelos de datos aún más grandes que involucraban datos y análisis. Entonces yo diría, sí, investigación
de transporte. me llevó a la ciencia de datos.
3.- CONSEJOS PARA ASPIRANTES A CIENTÍFICOS DE DATOS
- Mi consejo para un aspirante a científico de datos es que tenga curiosidad, extremadamente polémico, crítico. La
curiosidad es absolutamente imprescindible. Si no tienes curiosidad, no sabría qué hacer con los datos. Crítico
porque si no tienes nociones preconcebidas sobre las cosas, no sabrías por dónde empezar. Argumentativo porque
si puedes discutir entonces puedes defender un caso al menos puedes empezar por alguna parte. Y luego aprendes
de los datos y luego modifica sus suposiciones e hipótesis, y tus datos te ayudarán a aprender. Y puede comenzar
en el punto equivocado puedes decir que pensé que creía esto pero ahora con datos sé esto, por lo que esto le
permite un proceso de aprendizaje. Entonces la curiosidad, poder tomar posición, posición fuerte, y luego seguir
adelante con ella. La otra cosa que necesitaría un científico de datos es cierta comodidad y flexibilidad con las
plataformas de análisis. Algún software, alguna plataforma informática, pero eso es secundario. Lo más importante
es la curiosidad. y la capacidad de tomar posiciones. Una vez que hayas hecho eso, una vez que haya analizado,
tendrá algunas respuestas. Y eso es lo último que necesita un científico de datos y esa es la capacidad de contar una
historia. Que una vez que tenga sus analíticas, una vez que tenga sus tabulaciones, ahora deberías poder contar una
gran historia a partir de él. Porque si no cuentas una gran historia a partir de ella, tus hallazgos permanecerán
ocultos, quedará enterrado, nadie lo sabría, pero tu ascenso a la prominencia depende en gran medida de tu
capacidad para contar grandes historias. Un punto de partida sería ver ¿Cuál es tu ventaja competitiva? ¿Quieres
ser un científico de datos en cualquier campo? o un campo específico porque digamos que quieres ser un científico
de datos y trabajar para un Empresa de TI o una empresa basada en la web o en Internet. Entonces necesitas un
conjunto diferente de habilidades. Y si quiere ser un científico de datos para digamos en la industria de la salud,
entonces necesitas diferentes conjuntos de habilidades. Así que averigua primero cuál es tu interés y cuál es su
ventaja competitiva. Tu ventaja competitiva no es necesariamente van a ser sus habilidades analíticas. Su ventaja
competitiva es su comprensión de algún aspecto de la vida donde te sobrepasas más allá de otros en entender eso.
Tal vez sea película, tal vez sea minorista tal vez sea salud, tal vez sean computadoras. Una vez que haya
descubierto dónde reside su experiencia, luego empiezas a adquirir habilidades analíticas, qué plataformas
aprender. Y esas plataformas, esas herramientas serían específicas para el industria que le interesa. Y luego, una
vez que haya adquirido cierta competencia en las herramientas, lo siguiente sería aplicar tus habilidades a
problemas reales y luego decirle al resto del mundo qué puedes hacer con él.

4.- ¿QUÉ ES LA NUBE?


- La nube es una bendición para los científicos de datos. Principalmente porque puedes tomarla, o tomas tus datos,
tomas tu información y ponerlo en la nube, ponerlo en el sistema de almacenamiento central. Te permite evitar las
limitaciones físicas de las computadoras y de los sistemas que estás usando y te permite implementar la analítica y
capacidades de almacenamiento de máquinas avanzadas que no necesariamente tiene que ser tu máquina o la
máquina de tu empresa. La nube te permite no solo almacenar grandes cantidades de datos en servidores en algún
lugar de California o Nevada, pero también te permite implementar muy avanzadas algoritmos informáticos y la
capacidad de hacer computación de alto rendimiento utilizando máquinas que no son tuyas. Piense en ello como si
tuviera alguna información, no puede almacenarlo, por lo que lo envía al espacio de almacenamiento, llamémoslo
nube, y los algoritmos que necesita usar no los tienes contigo, pero luego en la nube tienes esos algoritmos
disponibles. Entonces, lo que haces es implementar esos algoritmos en conjuntos de datos muy grandes y puedes
hacerlo aunque tus propios sistemas, tus propias máquinas, tus propios entornos informáticos no te permitían
hacerlo. Entonces, la nube es hermosa. Y, la otra cosa para la que la nube es hermosa es que te permite múltiples
entidades para trabajar con los mismos datos al mismo tiempo. Entonces, puedes trabajar con los mismos datos que
tus colegas en, digamos, Alemania, y otro equipo en India, y otro equipo en Ghana, están trabajando
colectivamente y pueden hacerlo porque la información y los algoritmos y las herramientas y las respuestas y los
resultados, lo que necesiten está disponible en un lugar céntrico, lo que llamamos nube, entonces la nube es
hermosa. En la Big Data University, que es una iniciativa de IBM, tenemos estos cursos que la gente puede tomar y
aprender sobre ciencia de datos, pero al mismo tiempo proporcionamos este entorno basado en la nube no solo para
análisis, sino también para trabajar con datos grandes y pequeños. Entonces uno de los productos que está
integrado con Big Data University es Data Scientist Workbench. Data Scientist Workbench es una solución basada
en Internet, inicias sesión y en el momento en que inicias sesión, ahora tienes acceso a algunos Entorno informático
muy avanzado. Tan simple como R y Rstudio y datos y algoritmos para definir el conjunto de datos usando
OpenRefine, sino también la capacidad de trabajar con conjuntos de datos muy grandes utilizando tecnologías
como Spark. Entonces, la ventaja de trabajar con Data Scientist Workbench no es solo que tenga la capacidad de
trabajar con estos algoritmos avanzados y dos plataformas informáticas, pero también tienes la capacidad de
trabajar con conjuntos de datos muy grandes porque Spark está integrado y todo está en la nube, no tienes que
mantenerlo, no tienes que descargarlo, no tiene que preocuparse por actualizarlo. Todo se hace por ti en la nube por
Data Scientist Workbench.

PARTE 2
¿QUÉ HACEN LAS PERSONAS DE CIENCIAS DE DATOS?

1.- UN DÍA EN LA VIDA DE UNA PERSONA DE CIENCIA DE DATOS

- He construido un motor de recomendaciones antes como parte de una gran organización y trabajo a través de todo
tipo de ingenieros y contabilizados para diferentes partes del problema. Es uno de los con los que estoy más feliz
porque finalmente se me ocurrió una solución muy simple que fue fácil de entender desde todos los niveles, desde
los ejecutivos hasta los ingenieros y desarrolladores. Al final fue igual de eficiente como algo realmente complejo
que pude tener pasó mucho más tiempo en. - De vuelta en la universidad tenemos un problema que queríamos
predecir la floración de algas. Esta floración de algas podría causar un aumento de la toxicidad del agua. y podría
causar problemas a la empresa de tratamiento de agua. No podríamos predecirlo con nuestra ingeniería química.
antecedentes, por lo que utilizamos redes neuronales artificiales para predecir cuándo ocurrirá esta floración.
Para que las empresas de tratamiento de agua manejar mejor este problema. - En Toronto, el transporte público es
operado por Comisión de Tránsito de Toronto. Los llamamos TTC. Es una de las mayores autoridades de tránsito.
en la región de América del Norte. Y un día me contactaron y me dijeron 'tenemos un problema'. Y dije bien, cuál
es el problema. Dijeron, 'bueno, tenemos datos de quejas y nos gustaría analizarlo y necesitamos su ayuda '. Dije
bien, estaré muy feliz de ayudar. Entonces dije ¿cuántas quejas tienes? Dijeron, 'algunos'. ¿Dije cuántos? 'Quizás
medio millón'. Dije bueno, empecemos a trabajar con eso. Así que obtuve los datos y comencé a analizarlos.
Básicamente, han hecho un gran trabajo en mantener los datos, algunos datos en formato tabular otros eran datos
no estructurados. Y en ese caso datos tabulares Fue cuando llegó la denuncia, quien la recibió, cuál fue el tipo de
denuncia, se resolvió, de quién fue la culpa. Y la parte no estructurada fue el intercambio de correos electrónicos y
faxes. Así que imagina mirar medio millón de intercambios de correos electrónicos. y tratando de obtener alguna
respuesta. Entonces comencé a trabajar con eso y lo primero que quise saber es ¿Por qué la gente se quejaría y hay
un patrón? ¿Hay algunos días en los que hay más quejas que otras? Y miré los datos y analicé en todos los
formatos diferentes y no pude encontrar cuál es el ímpetu de las quejas es mayor en un día determinado y más bajo
en otros. Y continuó durante tal vez un mes así y luego un día me estaba bajando del autobús en Toronto y seguía
pensando en eso y salí sin mirar al suelo y me metí en un charco, charco de agua. Y ahora estaba una especie de
agua hasta los tobillos y estaba solo un pie mojado y el otro seco y estaba muy molesto. Y estaba caminando de
regreso y luego me di cuenta y dije bueno, espera un segundo. Hoy llovió inesperadamente y no estaba preparado
para eso. Por eso estoy mojado y no lo estaba buscando. ¿Qué pasa si hay una relación entre clima extremo y el
tipo de quejas que recibe TTC? Así que fui al sitio web de Environment Canada. y obtuve datos sobre lluvia y
precipitación, viento y cosas por el estilo. Y allí encontré algo muy interesante. Los diez días más excesivos para
quejas, los diez días que la gente se quejó más Eran los días en que hacía mal tiempo. Fue una lluvia inesperada,
una caída extrema de temperatura, demasiada nieve, un día muy ventoso. Entonces volví a los ejecutivos de TTC y
dije, tengo buenas y malas noticias. Dije, la buena noticia es que sé por qué la gente se quejaría excesivamente en
ciertos días. Sé la razón de ello. La mala noticia es que no puedes hacer nada al respecto.

2.- R VERSUS PYTHON

Como tengo experiencia en ingeniería, Empecé a programar con C, luego fui a Matlab, y eventualmente a Python.
Normalmente uso Matlab, C y C ++, pero para la ciencia de datos utilizo Python. - R y Python. - R. - Soy un
evangelista R. Estuve en la conferencia use R el año pasado y creo que tiene una de las mejores comunidades
También me gusta mucho SQL y creo que la gente no gasta tiempo suficiente para apreciarlo en sus diversas
encarnaciones. - Trabajo principalmente con R y Stata. No trabajo mucho con big data, así que para el tipo de los
conjuntos de datos que tengo, hay unos pocos millones de observaciones, incluso los cientos de millones de
observaciones entonces puedo trabajar con Stata y R y SPSS existentes, No tengo ningún problema con eso pero
como dije, si tuviera que trabajar con grandes conjuntos de datos, Usaría diferentes herramientas. Mis herramientas
preferidas son las tres; R, Stata y SPSS. También trabajo mucho con datos espaciales por lo que estos son
conjuntos de datos que tienen un componente, así que imagina 40 millones de californianos y 40 millones de
personas, algunas de ellas en California, algunos de ellos en los estados vecinos, y si conozco la dirección exacta
de su casa de todos y cada uno de ellos y donde trabajan. Y eso sería un GIS asombroso, Base de datos de sistemas
de información geográfica espacial. Así que trabajo con ellos también y mi herramienta que uso se llama Maptitude
y MapInfo, estos son los dos que más utilizo.

3.- HERRAMIENTAS Y TECNOLOGÍA DE CIENCIA DE DATOS


- Realmente disfruto de la regresión. Yo diría que la regresión fue quizás uno de los primeros conceptos que
realmente me ayudó a comprender los datos, así que disfruto de la regresión. - Me gusta mucho la visualización de
datos. Creo que es un elemento clave para que la gente obtenga a través de su mensaje a la gente que no entienden
muy bien qué es la ciencia de datos. - Redes neuronales artificiales. - Soy un apasionado de las redes neuronales.
porque tenemos mucho que aprender de la naturaleza así que cuando intentamos imitar nuestro cerebro, Creo que
podemos hacer algunas aplicaciones con este comportamiento, este comportamiento biológico en algoritmos. -
Visualización de datos con R, me encanta hacer esto. - Vecino más cercano, es el más simple, pero obtiene los
mejores resultados muchas más veces, que un algoritmo exagerado y con exceso de trabajo eso es igual de
probable que se ajuste demasiado ya que es para hacer un buen ajuste. - Entonces, los datos estructurados son más
como datos tabulares, cosas con las que está familiarizado en formato de Microsoft Excel, tienes filas y columnas,
y eso se llama datos estructurados. Los datos no estructurados son básicamente datos que provienen de
principalmente desde la web, donde no es tabular. No está en filas y columnas, es texto. A veces es video y audio.
Tendrías que implementar algoritmos más sofisticados para extraer datos. De hecho, muchas veces tomamos datos
no estructurados y dedica mucho tiempo y esfuerzo a conseguir algo de estructura fuera de él y luego analizarlo. Si
tiene algo que encaja perfectamente en las tablas, las columnas y las filas siguen adelante. Esos son tus datos
estructurados, pero si ves si es un weblog, o si está intentando obtener información de las páginas web, y tienes
miles de millones de páginas web, eso es datos no estructurados, eso requeriría un poco más de esfuerzo para
sacarle información. El aprendizaje automático es básicamente un conjunto de estas herramientas avanzadas la
gente usa para encontrar respuestas. No soy un gran fanático del aprendizaje automático y te daré mi prejuicio
ahora mismo. Imagina que hay una isla y hay unas 45.000 personas que viven en esa isla. Está aislado del resto del
mundo nadie puede nadar en la isla o nadar fuera de la isla. Ahora imagina que la isla tuvo un asesinato y eres el
detective al que se le ha encomendado la tarea con encontrar quién es el culpable. Ahora, hay varios enfoques que
puede tomar. Un enfoque es decir, bueno, quienquiera que haya matado a esta persona está en esta isla. Entonces
hay 45.000 personas y hay 45.000 sospechosos. Voy a ir uno a uno preguntando a cada uno hasta que encuentre al
sospechoso, cierto. Eso es aprendizaje automático, porque no tiene otra razón, ningún otro supuesto, ninguna otra
hipótesis, ningún otro sentimiento. Dices que no sé nada. Solo voy a poner todo en mi modelo. y ver quién es el
culpable. A veces llegas al culpable, a veces no pero llevaría tiempo. El aprendizaje automático es básicamente
decir cuando no tienes muchas suposiciones sobre sus datos, y le faltan saber mucho sobre sus datos, simplemente
arrojas todo en este modelo, y ver qué sale de él. Es más un enfoque de caja negra. Sé que una gran cantidad de
profesionales lo viven. A mí, por otro lado, me gusta mirar los datos con mis propios nociones preconcebidas,
porque se dice, un científico de datos es alguien que es muy crítico. Esa persona, un científico de datos, es aquella
que tiene una opinión. sobre los datos. ¿Quién tiene una opinión sobre los fenómenos que están aprendiendo? o
están investigando. No pueden simplemente creer que voy a tener un enfoque de fregadero de cocina, Voy a volcar
todo en el modelo. El aprendizaje automático es básicamente decir, deshazte de todo, mira lo que sale de ella. Hay
miles de libros escritos sobre regresión, y millones de conferencias impartidas sobre regresión. Y siempre siento
que no hacen un buen trabajo de explicar la regresión, porque entran en datos y modelos y distribuciones
estadísticas. Olvidémoslo, déjame explicarte la regresión. en los términos más simples posibles. Si alguna vez ha
tomado un viaje en taxi, un viaje en taxi, entiendes la regresión. Así es como funciona. En el momento en que te
sientas en un taxi, en un taxi, ves que hay una cantidad fija allí, dice 2 dólares 50 centavos, $ 2.50 Prefieres que el
taxi se mueva o te bajes, esto es lo que le debes al conductor, en el momento en que subes a un taxi. Eso es una
constante, tienes que pagar esa cantidad, si ha subido a un taxi. Luego, cuando comienza a moverse, por cada metro
o 100 metros, la tarifa aumenta en una cierta cantidad. Entonces, hay una fracción, hay una relación entre la
distancia y la cantidad que pagarías, por encima y más allá de esa constante. Si no se está moviendo y está atrapado
en el tráfico, luego, cada minuto adicional, tienes que pagar más. A medida que aumentan los minutos, aumenta su
tarifa, a medida que aumenta la distancia, aumenta su tarifa, y mientras todo esto sucede, ya has pagó una tarifa
base, que es la constante. Eso es la regresión. La regresión te dice cuál es la tarifa base y cual es la relacion entre el
tiempo y la tarifa que pagaste y la distancia que has recorrido y la tarifa tu investigación sobre el desarrollo de
modelos de precios hedónicos para propiedades inmobiliarias residenciales. Me tomó tres años completar el
proyecto que involucraba 500000 inmuebles. actas. mientras me preparaba para la defensa, mi esposa se ofreció
generosamente a llevarme a la universidad. mientras estábamos en camino, ella preguntó: "Dime, ¿qué has
encontrado en tu investigación? Me encantó que finalmente me pidieran que explicara qué he estado estudiando los
determinantes de los precios de la vivienda. He descubierto que las casas más grandes se venden por más que casas
más pequeñas ”le dije a mi esposa con una mirada triunfante en mi rostro mientras sostenía el borrador de la tesis
en mis manos.
nos acercábamos a la rampa de entrada a una autopista. Tan pronto como terminé la oración, mi esposa de repente
giró el auto hacia el arcén y aplicó los frenos. cuando el coche se detuvo, se volvió hacia mí y me dijo: "No puedo
creer que te estén dando una maestría por encontrar eso. Podría haberte dicho que las casas más grandes se venden
por más que las casas más pequeñas".
Mientras le explicaba mis contribuciones al estudio de los mercados de la vivienda, noté que mi esposa estaba algo
impresionada. la razón probable de su tibia recepción fue que mis hallazgos confirmaron lo que ya sabíamos de
nuestra experiencia diaria. Sin embargo, el valor real agregado por el investigador residía en cuantificar la
magnitud de las relaciones entre casas.

PARTE 3
CIENCIA DE DATOS EN LOS NEGOCIOS

1.- ¿CÓMO DEBEN COMENZAR LAS EMPRESAS EN CIENCIA DE DATOS?

- Al final del día, para empresas, saben una cosa, que si no pueden medir algo, no pueden mejorarlo. Y si no
pueden medir sus costos, son incapaces de reducirlos. Si no pueden medir sus ganancias, no pueden aumentarlos.
Entonces, lo primero que debe hacer una empresa es comenzar a registrar información, comenzar a capturar datos.
Datos sobre costes, datos sobre .. y luego diferenciados por costos laborales y costos de materiales. El costo de,
cuánto cuesta vender un producto y el costo total. Y luego miras los ingresos. ¿De dónde provienen sus ingresos?
¿El 80% de sus ingresos proviene del 20% de sus clientes? ¿O es al revés? Así que lo primero es empezar a
capturar datos. Una vez que tenga los datos, puede aplicar algoritmos y análisis. Entonces, lo primero que debe
hacer sería capturar datos. Si no lo está capturando, comience a capturarlo. Si lo está capturando, archívelo. No
sobrescriba sus datos antiguos pensando que ya no lo necesitas. Los datos nunca envejecen, los datos siempre son
relevantes. Incluso si tiene cien años, 200 años, es relevante para usted y su empresa y su éxito. Así que conserve
los datos, captúrelos y archívelos. Asegúrese de que nada se desperdicie. Asegúrate de que haya consistencia
entonces alguien 20 años después tratando de entender que los datos deberían poder hacerlo. Así que tenga la
documentación adecuada. Hágalo ahora, aplique las mejores prácticas para el archivo de datos en su lugar en el
momento de iniciar un negocio. Y si ya estás en el negocio y no lo has hecho, hazlo ahora. - Empiece a medir
cosas. Demasiadas empresas no han medido las cosas correctamente durante una década y luego deciden que
quieren ciencia de datos. Ciencia de datos dentro de una empresa solo será tan valioso como los datos recopilados.
La basura entra y sale basura es una regla en cualquier tipo de análisis. - Si algo no se mide, es muy difícil
mejorarlo o cambiarlo. Entonces, el primer paso es la medición. Si las empresas tienen datos existentes, entonces
deberían empezar a mirarlo y limpiarlo. Si no tienen datos existentes, entonces necesitan empezar a recolectarlo. -
Pienso buscar un equipo al que le guste trabajar como científico de datos. - El primer paso es tener empleados, que
están interesados en la ciencia. Porque si no tienes interés en tu empresa, no tendrás igual compromiso. - Las
empresas deben recordar que es clave tener un equipo, por lo que no es un científico de datos sino un equipo de
ellos, que cada uno tiene fortalezas en diferentes áreas de la ciencia de datos.
2.- RECLUTAMIENTO PARA CIENCIA DE DATOS
- Cuando las empresas están contratando personas para un equipo de ciencia de datos, tal vez un científico de
datos o un analista, o un científico jefe de datos, la tendencia sería encontrar a la persona quien tiene todas las
habilidades, que conocen el conocimiento específico del dominio, son excelentes en el análisis estructurado y datos
no estructurados, y son excelentes para presentar y tienen grandes habilidades para contar historias. Entonces, si
juntas todo esto, te darás cuenta de que estás buscando un unicornio, y tus probabilidades de encontrar un unicornio
son bastante raras. Creo que lo que tienes que hacer es ver dado el grupo de solicitantes que tiene, quién tiene más
resonancia con el ADN de su empresa. Porque, mira, puedes enseñar habilidades analíticas. Cualquiera puede
aprender habilidades analíticas si le dedicaran tiempo y esfuerzo. Pero lo que realmente importa es quien es
apasionado sobre el tipo de negocio que hace. Alguien podría ser un gran científico de datos en el entorno
minorista, pero puede que no estén tan emocionados por trabajar en empresas relacionadas con las tecnologías de la
información, o trabajar con gigabytes de registros web. Pero si alguien está entusiasmado con esos registros web, o
alguien está entusiasmado con los datos relacionados con la salud, entonces ellos podrían contribuir a su
productividad mucho más. Y yo diría que si estoy buscando a alguien si tengo que formar un equipo de ciencia de
datos, Primero buscaría curiosidad. ¿Esa persona tiene curiosidad por las cosas? No solo para la ciencia de datos,
sino para cualquier cosa. ¿Tienen curiosidad por saber por qué esta habitación está pintado de cierta manera? ¿Por
qué las estanterías tienen libros y qué tipo de libros? Tienen que tener cierto grado de curiosidad. sobre todo lo que
está en su visión que miran. La segunda cosa es, ¿tienen sentido del humor? Porque ya ves, tienes que estar alegre
al respecto. Si alguien se lo toma demasiado en serio, probablemente se lo tomarían demasiado en serio, y no
podría mirar los elementos más ligeros. La tercera cosa que pienso y creo que lo ultimo que buscaria, si tengo que
tener una jerarquía, lo último que buscaría son habilidades técnicas. Pasaría por estas habilidades sociales,
curiosidad, sentido del humor, la capacidad de contar una historia, la capacidad de saber que hay una historia ahí.
Y luego, una vez que todo está ahí, entonces diré, "Bueno, ¿puedes hacer el aspecto técnico?" Y si hay alguna
esperanza o algún signo de algunas habilidades técnicas, Los tomaría porque puedo entrenarlos en las habilidades
que necesiten. Pero no puedo enseñar curiosidad. No puedo enseñar a contar historias. Ciertamente no puedo
infundir sentido del humor en nadie. - Creo que no hay una regla estricta y rápida. para contratar científicos de
datos. Creo que será una cuestión de caso por caso. Yo diría que tiene que haber algún tipo de componente técnico.
Alguien debería poder manipular los datos. Deberían poder comunicarse lo que encuentran en los datos. Encuentro
con bastante frecuencia que a nadie le importa realmente la R cuadrado o intervalo de confianza. Entonces tienes
que poder presentar esas cosas y explicar algo de manera convincente. Y también tienen que encontrar a alguien
con quien se pueda relacionar, debido a que la ciencia de datos, por lo general, es nuevo significa que la persona en
ese rol tiene que entablar relaciones y tienen que trabajar en diferentes departamentos. - Si este científico de datos
tiene buenas matemáticas y antecedentes estadísticos. - Deben considerar la capacidad de resolución de problemas.
y análisis. Un científico de datos debe ser bueno en el análisis de problemas. - Las personas que están contratando,
les encantaría jugar con los datos, y luego saben cómo jugar con la visualización de datos. Tienen pensamiento
analítico. - Cuando una empresa está contratando, cualquiera que trabaje en un equipo de ciencia de datos,
necesitan pensar en qué papel esa persona va a tomar. Antes de que comience una empresa, deben comprender qué
quieren de su equipo de ciencia de datos. Y luego necesitan contratar para comenzar. A medida que crece un
equipo de ciencia de datos, necesitan entender si necesitan ingenieros, arquitectos, diseñadores para trabajar en la
visualización, o si solo necesitan más personas que puede multiplicar matrices grandes. - Desde el punto de vista de
las habilidades, centrémonos en las habilidades técnicas, y en ese caso, lo primero sería qué tipo de plataforma
técnica le gustaría adoptar. Supongamos que quiere trabajar en un entorno de datos estructurados y digamos que
quieres trabajar en investigación de mercado. Entonces, el tipo de habilidades que necesita son ligeramente
diferentes. que alguien a quien le gustaría trabajar en entornos de big data. Si quieres trabajar en la investigación de
mercado tradicional entorno de datos estructurados, sus habilidades deben ser algunos conocimientos estadísticos,
algún conocimiento de algoritmos estadísticos básicos, tal vez algunos algoritmos de aprendizaje automático, y
estas son las herramientas que le gustaría desarrollar. Si quieres trabajar en big data, luego está el otro aspecto, y
eso es poder almacenar datos. Entonces empiezas con la experiencia en el almacenamiento de grandes cantidades
de datos, y luego busca plataformas que le permitan hacer eso. El siguiente paso sería poder manipular grandes
cantidades de datos, y el paso final sería aplicar
El propósito final de la analítica es comunicar los hallazgos a los interesados, quienes podrían utilizar estos
conocimientos para formular políticas o estrategias. los análisis resumen los hallazgos en tablas y gráficos. El
científico de datos debería entonces usar los conocimientos para construir la narrativa para comunicar los
hallazgos. en el mundo académico, el resultado final es en forma de ensayos e informes. estos entregables suelen
tener una extensión de 1000 a 7000 palabras.
en consultoría y, el producto final adquiere varias formas. puede ser un documento pequeño de menos de 1500
palabras ilustrado con tablas y diagramas, o puede ser un documento completo de varios cientos de páginas. Las
grandes firmas de consultoría, como McKinsey y Deloitte, generan de forma rutinaria informes basados en análisis
para comunicar sus hallazgos y, en el proceso, establecer su experiencia en dominios de conocimiento específicos.

El pronóstico económico de Estados Unidos de Deloitte sirve al propósito que pretendían sus autores. el informe
utiliza datos y análisis para generar los probables escenarios económicos. construye una narrativa poderosa en
apoyo de la declaración de tesis de que EE. UU. a la economía le va mucho mejor de lo que a la mayoría le gustaría
creer. Al mismo tiempo, el informe muestra que Deloitte es una empresa competente capaz de analizar datos
económicos y prescribir estrategias para hacer frente a los desafíos económicos.
ahora consideremos si excluyéramos la narrativa de este informe y presentamos los hallazgos como una baraja de
diapositivas en power point con gráficos y cuatro tablas. las diapositivas de power point no habrían podido
comunicar el mensaje que los autores elaboraron cuidadosamente en el informe citando piketty y voltaire.
Considero que el informe de Deloitte es un buen ejemplo de narración con datos y te animo a leer el informe para
decidir por ti mismo si el entregable hubiera sido igualmente poderoso sin la narrativa.
ahora trabajemos hacia atrás desde el informe Deloitte. antes de que los autores comenzaran su análisis, deben
haber discutido el alcance del producto final. habrían deliberado sobre el mensaje clave del informe y luego
buscaron los datos y análisis que necesitaban para defender su caso. Por lo tanto, la planificación inicial y la
conceptualización del producto final son extremadamente importantes para producir un documento convincente.
embarcarse en el análisis, sin la debida consideración al producto final, probablemente resulte en un documento de
baja calidad donde el análisis y la narrativa tendrían dificultades para combinarse.
PARTE 4
CASOS DE USO PARA LA CIENCIA DE DATOS

1.- APLICACIONES DE LA CIENCIA DE DATOS

- Creo que una de las buenas nuevas aplicaciones de la ciencia de datos está en el campo médico. Como en la
administración de medicamentos o en el tratamiento del cáncer. - creo que uno muy interesante así es como ahora
las empresas pueden utilizar toda la información están reuniendo de sus clientes para desarrollar nuevos productos
que responden a las necesidades de los clientes. - Una buena nueva aplicación de la ciencia de datos. fue la noticia
de alta tendencia de Pokémon Go. Entonces usaron Ingress. Usaron datos de la aplicación Ingress. La última
aplicación de la misma empresa y eligen las ubicaciones para Pokémon y gimnasios según los datos de la última
aplicación. Entonces aprendieron con sus errores. - Google Search es una aplicación de ciencia de datos. La
Búsqueda de Google, siempre que queramos buscar cualquier cosa. Así que creo que todo se debe a la ciencia de
datos. Sea lo que sea Google ahora, todo se debe a la ciencia de datos. - La realidad aumentada es mi favorita
nueva implementación de ciencia de datos. Creo que no puedes mirar una nueva tecnología. y no ver la ciencia de
datos allí pero la realidad aumentada es la indicada Soy el que más me emociona. La capacidad de caminar y ver
cosas en las paredes. o alrededor de nosotros que no están realmente ahí. Pokémon es solo el comienzo. - Entonces
lo que ha sucedido es que ahora las herramientas están disponibles y conjuntos de datos disponibles, la gente los
está aplicando sin mucha diligencia y creo que uno de los casos extraños que se informó en los periódicos se trata
de la historia de un padre que entra a una tienda Target en EE. UU. y quejándose del hecho que Target estaba
enviando correos electrónicos a su hija adolescente sobre pañales y leche, fórmula para bebés. Estaba enojado con
ellos. Él dijo: "¿Por qué te gustaría "¿Para que mi hija adolescente tenga un bebé?" Y obviamente estaba
perturbado por este correo o la campaña publicitaria. Y obviamente se disculparon pero luego el padre regresó dos
semanas después y se disculpó con ellos diciendo que no sabía que su hija estaba embarazada. Ahora la pregunta
es, ¿cómo supo Target esto? antes de que el padre lo supiera. Y lo que ha pasado es que mirarían en el
comportamiento de compra de los individuos. Entonces, si está comprando algún tipo de suplementos o vitaminas
entonces sabrá que este es el primer trimestre del embarazo. Para que sepan qué productos enviarle asumiendo que
las personas que compraron esos suplementos estaban embarazadas. Ahora bien, esta es una gran historia sobre
ciencia de datos. y cómo la ciencia de datos puede pronosticar y predecir estos comportamientos del consumidor
incluso antes de que la familia se enterara. Y lo encuentro perturbador y extraño y extraño por muchas razones. En
primer lugar, para cada predicción correcta, tienes cientos de predicciones incorrectas lo que llamamos los falsos
positivos y ningún científico de datos anuncia sus falsos positivos.
Solo publicitamos y promocionamos lo que hicimos bien. Pero cuando nos equivocamos cientos de veces, no lo
contamos. En segundo lugar, eso es un abuso de datos. Básicamente, eso no te da mucha información. Acabas de
encontrar una correlación pero alguien podría estar comprando el mismo material para alguien más. Entonces, y
luego las probabilidades de equivocarse y las probabilidades de obtener falsos positivos son mucho mayores.
Entonces lo encuentro extraño y creo que da un sentido falso de nuestra capacidad para predecir el futuro. La
realidad se trata de ciencia de datos y lo mas importante para que el científico de datos en ciernes sepa que todos
los pronósticos son incorrectos. Son útiles pero están equivocados. Y entonces uno no debe poner su fe en el hecho
de que ahora que podemos hacer análisis predictivos que podemos resolver todos los problemas. Creo que un buen
ejemplo es la Búsqueda de Google. Google publicó un artículo que decía pueden predecir epidemias de gripe ante
el Centro para el Control de Enfermedades. Y lo que hicieron fue que estaban mirando en lo que la gente buscaba
en Google, así que síntomas de la gripe Entonces Google vio las búsquedas de síntomas de la gripe antes que nadie
y fueron capaces de predecirlo. Lo que pasa es que estas búsquedas son buenas y están correlacionados con
algunos resultados pero no necesariamente todo el tiempo. Entonces, en ese momento, cuando Google anunció, fue
algo grande y a todos realmente les gustó y bueno, esa es una nueva era de análisis predictivo. Solo que unos años
después se dieron cuenta que Google comenzó a predecir falsos positivos. Que estaban prediciendo cosas que no
estaban realmente ahí o las predicciones no fueron tan precisas por una variedad o razones. Probablemente
cambiaron sus algoritmos y los conjuntos de datos no estaban realmente correlacionados con los resultados.
Entonces, ¿cuál es la lección que aprender aquí? Hay que evitar lo que llamamos la arrogancia de los datos. Que no
debes creer demasiado en tus modelos porque pueden llevarte por mal camino. La ciencia de datos tiene un enorme
potencial para generar cambios en partes del mundo, en partes de nuestra sociedad que han estado privados de sus
derechos durante años. Uno ve grandes ejemplos de ciencia de datos especialmente en los países en desarrollo
donde se dirigen los esfuerzos de socorro. Están apuntando a la comida y otras ayudas a particulares, a lugares que
no han sido atacados en el pasado. Y la razón por la que está sucediendo ahora es la mayor disponibilidad de datos
y modelos y análisis para poder identificar dónde están las mayores necesidades. La capacidad de diseñar y realizar
experimentos. para ver si uno daba microcréditos, pequeños préstamos a hogares muy pobres en partes del mundo
en desarrollo, para ver cómo afectan la capacidad del hogar individual para salir de la pobreza y también la
capacidad de la comunidad local para mejorar colectivamente su bienestar económico con tan solo pequeñas
infusiones de efectivo o crédito. Entonces, estos experimentos están sucediendo en todo el mundo. están
permitiendo que sea un resultado directo de nuestra capacidad para analizar datos y poder diseñar experimentos y
luego desplegar enormes esfuerzos en brindar alivio, otorgar crédito, brindando una oportunidad a aquellos que han
sido privados de sus derechos en el pasado una oportunidad para unirse al resto del mundo en prosperidad,
felicidad y salud.

LA ESTRUCTURA DEL INFORME

Una sección introductoria siempre es útil para plantear el problema al lector que podría ser nuevo en el tema y que
podría necesitar una introducción suave al tema antes de sumergirse en detalles intrincados. Un buen seguimiento
de la sección introductoria es una revisión de la investigación relevante disponible sobre el tema. la extensión de la
sección de revisión de la literatura depende de cuán impugnado sea el tema. en los casos en que la gran mayoría de
los investigadores han concluido en una dirección, la revisión de la literatura podría ser breve con citas solo para
los autores más influyentes sobre el tema. Por otro lado, si los argumentos son más matizados con muchas
salvedades, entonces debe citar la investigación relevante para ofrecer el contexto adecuado antes de embarcarse en
su análisis que tratará de completar. aquí es donde presenta formalmente sus preguntas e hipótesis de investigación.

la sección de resultados es donde presenta sus hallazgos empíricos. comenzando con estadísticas descriptivas y
gráficos ilustrativos, avanzará hacia la prueba formal de su hipótesis. en caso de que necesite ejecutar modelos
estadísticos, puede recurrir a modelos de regresión o análisis categórico. Si trabaja con datos de series de tiempo,
puede recurrir a "también puede informar resultados de otras técnicas empíricas que se incluyen en la rúbrica
general de minería de datos".
tenga en cuenta que muchos informes en el sector empresarial presentan resultados de una manera más aceptable al
retener los detalles estadísticos y confiar en gráficos ilustrativos para resumir los resultados.

en la sección de conclusiones, generaliza sus hallazgos específicos y adopta un enfoque más bien de marketing
para promover sus hallazgos, de modo que el lector no se quede atascado en las advertencias que ha descrito
voluntariamente anteriormente. También puede identificar futuros posibles desarrollos en investigación y
aplicaciones que podrían resultar de su investigación. lo que queda es la limpieza, que incluye una lista de
referencias, la sección de agradecimiento (reconocer el apoyo de quienes han habilitado su trabajo siempre es
bueno), y apéndices, si es necesario.

¿HAS HECHO TU TRABAJO COMO ESCRITOR?

PARTE 5
PERSONAS DE CIENCIA DE DATOS

Defino científico de datos como alguien que encuentra soluciones a problemas analizando datos grandes o
pequeños utilizando herramientas adecuadas y luego cuenta historias para comunicar sus hallazgos a las partes
interesadas relevantes. No utilizo el tamaño de los datos como cláusula restrictiva. un dato por debajo de un cierto
umbral arbitrario no significa que uno sea menos científico de datos. tampoco mi definición de científico de datos
se restringe a herramientas analíticas particulares, como aprendizaje automático. Siempre que uno tenga una mente
curiosa, fluidez en el análisis y la capacidad de comunicar los hallazgos, considero a la persona un científico de
datos. Yo defino al científico de datos como algo que hacen los científicos de datos.
En resumen, diría que la ciencia de datos es lo que hacen los científicos de datos.
Recordemos que el Dr. Patil le dijo al periódico The Guardian en 2012 que un científico de datos es esa
combinación única de habilidades que pueden desbloquear la información de los datos y contar una historia
fantástica a través de los datos. 2 lo que es admirable de la definición del Dr. Patil es que incluye a personas de
diversos antecedentes académicos y formación, y no restringe la definición de científico de datos a una herramienta
en particular ni la somete a un determinado umbral mínimo arbitrario de tamaño de datos. .

está muy vivo y está siendo cuestionado por individuos, algunos de los cuales simplemente están interesados en
proteger sus territorios académicos o disciplinarios. En esta sección, intento abordar estas controversias y explicar
por qué una definición estrictamente interpretada de big data o ciencia de datos resultará en la exclusión de cientos
de miles de personas que recientemente se han dirigido al campo emergente.
1.- COSAS QUE DICEN LAS PERSONAS DE CIENCIA DE DATOS

- Una vez que haya analizado y tenga sus resultados, sepa que sus resultados son incorrectos, sospeche un poco de
sus hallazgos. Siempre cree que no hay blanco y negro y blanco, siempre es una materia gris. Y si puede volver
atrás y rehacer el análisis una y otra vez hasta que esté absolutamente seguro de que no se cometieron errores. - Si
no se está midiendo, no existe. - Me gusta mucho la navaja de Occam que si tienes que si dice que si tienes un
problema con dos explicaciones, por lo general, la más simple es la mejor. - Para mí es como si menos fuera más.
Intenta simplificar las cosas. - "En Dios confiamos en que todos los demás traigan datos". No se me ocurrió eso ese
era Deming. Tuve que buscarlo.

EXAMEN FINAL

ESTABLECER OBJETIVOS DE MINERÍA DE DATOS


El primer paso en la minería de datos requiere que establezca objetivos para el ejercicio. Obviamente, debe identificar
las preguntas clave que deben responderse. Sin embargo, más allá de la identificación de las preguntas clave, están
las preocupaciones sobre los costos y beneficios del ejercicio. Además, debe determinar, de antemano, el nivel
esperado de precisión y utilidad de los resultados obtenidos de la minería de datos. Si el dinero no fuera un problema,
podría tirar tantos fondos como sea necesario para obtener las respuestas requeridas. Sin embargo, la compensación
de costo-beneficio siempre es fundamental para determinar los objetivos y el alcance del ejercicio de minería de
datos. El nivel de precisión esperado de los resultados también influye en el costo. Los altos niveles de precisión de
la minería de datos costarían más y viceversa. Además, más allá de cierto nivel de precisión, no se gana mucho con
el ejercicio, dados los rendimientos decrecientes. Por lo tanto, la compensación de costo-beneficio para el nivel
deseado de precisión son consideraciones importantes para los objetivos de minería de datos.

SELECCIONAR DATOS
El resultado de un ejercicio de minería de datos depende en gran medida de la calidad de los datos que se utilizan. A
veces, los datos están disponibles para su posterior procesamiento. Por ejemplo, los minoristas a menudo poseen
grandes bases de datos de compras y datos demográficos de los clientes. Por otro lado, es posible que los datos no
estén disponibles para la minería de datos. En tales casos, debe identificar otras fuentes de datos o incluso planificar
nuevas iniciativas de recopilación de datos, incluidas las encuestas. El tipo de datos, su tamaño y la frecuencia de
recopilación tienen una relación directa con el costo del ejercicio de minería de datos. Por lo tanto, es fundamental
identificar el tipo correcto de datos necesarios para la minería de datos que puedan responder las preguntas a costos
razonables.

PREPROCESAMIENTO DE DATOS
El procesamiento previo de datos es un paso importante en la minería de datos. A menudo, los datos sin procesar son
confusos y contienen datos erróneos o irrelevantes. Además, incluso con datos relevantes, a veces falta información.
En la etapa de preprocesamiento, identifica los atributos irrelevantes de los datos y elimina dichos atributos de una
consideración adicional. al mismo tiempo, es necesario identificar los aspectos erróneos del conjunto de datos y
marcarlos como tales. Por ejemplo, un error humano puede llevar a una fusión inadvertida o un análisis incorrecto
de la información entre columnas. Los datos deben estar sujetos a controles para garantizar su integridad. Por último,
debe desarrollar un método formal para tratar los datos faltantes y determinar si los datos faltan de forma aleatoria o
sistemática.
En los datos que faltan al azar, un simple conjunto de soluciones sería suficiente. Sin embargo, cuando faltan datos
de manera sistemática, debe determinar el impacto de los datos faltantes en los resultados. Por ejemplo, un
subconjunto particular de personas en un gran conjunto de datos puede haberse negado a revelar sus ingresos. Los
hallazgos que se basan en los ingresos de un individuo como entrada excluirían detalles de aquellos individuos cuyos
ingresos no fueron reportados. Esto conduciría a sesgos sistemáticos en el análisis. Por lo tanto, debe considerar de
antemano si las observaciones o variables que contienen datos faltantes deben excluirse del análisis completo o partes
del mismo.

TRANSFORMANDO DATOS
Una vez que se han retenido los atributos relevantes de los datos, el siguiente paso es determinar el formato apropiado
en el que se deben almacenar los datos. Una consideración importante en la minería de datos es reducir la cantidad
de atributos necesarios para explicar los fenómenos. De esta forma requieren la transformación de datos. Los
algoritmos de reducción de datos, como el Análisis de componentes principales (demostrado y explicado más
adelante en el capítulo), pueden reducir el número de atributos sin una pérdida significativa de información. Además,
es posible que sea necesario transformar las variables para ayudar a explicar el fenómeno que se está estudiando. Por
ejemplo, los ingresos de una persona pueden registrarse en el conjunto de datos como ingresos salariales; ingresos
de otras fuentes, como propiedades de alquiler; pagos de apoyo del gobierno y similares. La agregación de ingresos
de todas las fuentes desarrollará un indicador representativo de los ingresos individuales. A menudo es necesario
transformar variables de un tipo a otro. Puede ser prudente transformar la variable continua de ingresos en una
variable categórica en la que cada registro de la base de datos se identifique como individuo de ingresos bajos, medios
y altos. Esto podría ayudar a capturar las no linealidades en los comportamientos subyacentes.

ALMACENAMIENTO DE DATOS
Los datos transformados deben almacenarse en un formato que los haga propicios para la minería de datos. Los datos
deben almacenarse en un formato que otorgue privilegios de lectura / escritura inmediatos y sin restricciones al
científico de datos. Durante la minería de datos, se crean nuevas variables, que se vuelven a escribir en la base de
datos original, por lo que el esquema de almacenamiento de datos debería facilitar la lectura y escritura en la base de
datos de manera eficiente. También es importante almacenar datos en servidores o medios de almacenamiento que
mantienen los datos seguros y también evitan que el algoritmo de minería de datos busque innecesariamente
fragmentos de datos dispersos en diferentes servidores o medios de almacenamiento. La seguridad y la privacidad
de los datos deben ser una preocupación primordial para el almacenamiento de datos.

DATOS MINEROS
Una vez que los datos se procesan, transforman y almacenan adecuadamente, están sujetos a la minería de datos.
Este paso cubre los métodos de análisis de datos, incluidos los métodos paramétricos y no paramétricos, y los
algoritmos de aprendizaje automático. Un buen punto de partida para la minería de datos es la visualización de datos.
Las vistas multidimensionales de los datos que utilizan las capacidades gráficas avanzadas del software de minería
de datos son muy útiles para desarrollar una comprensión preliminar de las tendencias ocultas en el conjunto de
datos.
EVALUACIÓN DE RESULTADOS MINEROS
Una vez extraídos los resultados de la minería de datos, realiza una evaluación formal de los resultados. La evaluación
formal podría incluir probar las capacidades predictivas de los modelos en datos observados para ver qué tan
efectivos y eficientes han sido los algoritmos en la reproducción de datos. Esto se conoce como pronóstico en la
muestra. Además, los resultados se comparten con las partes interesadas clave para obtener comentarios, que luego
se incorporan en las iteraciones posteriores de la minería de datos para mejorar el proceso. La extracción de datos y
la evaluación de los resultados se convierte en un proceso iterativo de modo que los analistas utilizan algoritmos
mejores y mejorados para mejorar la calidad de los resultados generados a la luz de la retroalimentación recibida de
las partes interesadas clave.

También podría gustarte