Está en la página 1de 11

1.¿Qué es la ciencia de datos?

Data Science es un proceso, no un evento.


Es el proceso de usar datos para comprender diferentes cosas,
para entender el mundo
Para mí es cuando tienes un modelo o hipótesis de un problema,
e intentas validar esa hipótesis o modelo con tus datos.
La ciencia de datos es el arte de
descubriendo las ideas y tendencias que se esconden detrás de los datos.
Es cuando traduces datos a una historia.
Así que usa la narración de historias para generar información
Y con estas ideas,
Puede tomar decisiones estratégicas para una empresa o institución.
La ciencia de datos es un campo sobre procesos y sistemas para extraer
datos de varias formas de si es una forma no estructurada o estructurada.
La ciencia de datos es el estudio de datos.
Al igual que las ciencias biológicas es un estudio de biología,
ciencias físicas, es el estudio de las reacciones físicas.
Los datos son reales, los datos tienen propiedades reales,
y tenemos que estudiarlos si vamos a trabajar en ellos.
La ciencia de datos involucra datos y algunos signos.
La definición o nombre surgió en
los años 80 y 90, cuando algunos profesores estudiaron el plan de estudios
estadístico,
y pensaron que sería mejor llamarlo ciencia de datos.
Pero, ¿qué es la ciencia de datos?
Vería la ciencia de datos como un intento de trabajar con datos,
para encontrar respuestas a las preguntas que están explorando.
En pocas palabras, se trata más de datos que de ciencia.
Si tienes datos y tienes curiosidad,
y trabajas con datos,
y lo estás manipulando, lo estás explorando,
el mismo ejercicio de analizar los datos,
Tratar de obtener algunas respuestas es ciencia de datos.
La ciencia de datos es relevante hoy porque tenemos toneladas de datos
disponibles.
Solíamos preocuparnos por la falta de datos.
Ahora tenemos una avalancha de datos.
En el pasado, no teníamos algoritmos, ahora tenemos algoritmos.
En el pasado, el software era costoso,
Ahora es de código abierto y gratuito.
En el pasado, no podíamos almacenar grandes cantidades de datos,
ahora por una fracción de un costo,
Podemos tener miles de millones de conjuntos de datos a un costo muy bajo.
Entonces, las herramientas para trabajar con datos,
la variabilidad de los datos,
y la capacidad de almacenar y analizar datos,
Todo es barato, todo está disponible,
Todo está en todas partes, está aquí.
Nunca ha habido un mejor momento para ser un científico de datos.
2 Los muchos caminos hacia la ciencia de datos
La ciencia de datos realmente no existía cuando era niño.
No es algo que alguna vez desperté y
dicho, quiero ser un científico de datos cuando sea grande.
No, no existía.
No sabía que estaría trabajando en ciencia de datos.
>> Cuando crecí, no existe ese campo llamado ciencia de datos.
Y creo que es realmente nuevo.
>> La ciencia de datos no existió hasta 2009, 2011.
Alguien como DJ Patil o Andrew Gelman acuñó el término.
Antes de eso, había estadísticas.
Y no quería ser ninguno de esos.
Quería estar en el negocio.
Y luego encontré la ciencia de datos muchísimo más interesante.
>> Estudié estadística, así empecé.
Pasé por muchas etapas diferentes en mi vida donde quería ser cantante y
Luego un médico.
Y luego me di cuenta de que era bueno en matemáticas.
Así que elegí un área centrada en el análisis cuantitativo.
Y desde entonces creo que quería trabajar con datos.
No necesariamente ciencia de datos como se la conoce hoy.
>> La primera vez que tuve contacto con la ciencia de datos,
cuando era mi primer año como ingeniero mecánico.
Y las empresas de consultoría estratégica, utilizan la ciencia de datos para
tomar decisiones.
Fue mi primer contacto con la ciencia de datos.
>> Tenía un problema complicado que necesitaba resolver, y
Las técnicas habituales que teníamos en ese momento no podían ayudar con
ese problema.
>> Me gradué con una licenciatura en matemáticas en el peor momento
posible,
justo después de la crisis económica, y realmente tenías que ser útil para
conseguir un trabajo.
Así que fui y obtuve un título en estadística.
Y luego trabajé suficientes trabajos que se llamaron científicos de datos que
De repente me convertí en uno.
>> Mi licenciatura era en negocios, y me especialicé en política,
filosofía y economía.
Y luego hice una maestría en análisis de negocios en
Universidad de Nueva York en la Stern School of Business.
Cuando dejé mi licenciatura, la primera compañía a la que me uní, resultó
que estaban analizando datos electrónicos de puntos de venta para
fabricantes minoristas.
Y lo que estábamos haciendo era ciencia de datos.
Pero solo comenzamos a usar ese término mucho más tarde.
De hecho, yo diría que hace cuatro o cinco años fue cuando comenzamos a
llamarlo análisis y
Ciencia de los datos.
>> Tenía varias opciones para mi pasantía aquí en Canadá.
Y una de las opciones era trabajar con la ciencia de datos.
Solía trabajar con el desarrollo de proyectos.
Pero creo que fue una buena elección.
Y luego comienzo mi pasantía con ciencia de datos.
>> Soy ingeniero civil por capacitación, por lo que todos los ingenieros
trabajan con datos.
Yo diría que el uso convencional de datos
La ciencia en mi vida comenzó con la investigación del transporte.
Comencé a construir modelos grandes tratando de pronosticar el tráfico en
las calles, intentando
para determinar la congestión y las emisiones de gases de efecto invernadero
o las emisiones del tubo de escape.
Así que creo que ahí fue donde comencé.
Y comencé a construir estos modelos cuando era un estudiante graduado en
La Universidad de Toronto.
Comenzó a trabajar con conjuntos de datos muy grandes, observando
muestras domésticas de,
digamos, 150,000 hogares de medio millón de viajes.
Y eso, también, estoy hablando desde mediados de los 90 cuando esto era
se supone que es un conjunto de datos muy grande, pero no en los términos
actuales.
Pero así es como empecé.
Seguí trabajando con eso.
Y luego me mudé a la Universidad McGill, donde era profesor de transporte.
Ingenieria.
Y construí modelos de datos aún más grandes que involucraban datos y
análisis.
Entonces diría que sí, la investigación del transporte me llevó a la ciencia de
datos.

3 Consejos para nuevos científicos de datos


Mi consejo para un aspirante a científico de datos es ser curioso,
extremadamente argumentativo y crítico.
La curiosidad es imprescindible.
Si no tiene curiosidad, no sabría qué hacer con los datos.
Juicioso porque si no tienes
nociones preconcebidas sobre cosas con las que no sabría por dónde
empezar.
Argumentativo porque si puedes discutir y si puedes defender un caso,
al menos puedes comenzar en algún lugar y luego aprender de los datos y
luego
modifique sus suposiciones e hipótesis y sus datos lo ayudarán a aprender.
Y podrías comenzar en el punto equivocado.
Puedes decir que pensé que creía esto,
pero ahora con datos lo sé.
Entonces, esto te permite un proceso de aprendizaje.
Entonces, la curiosidad de poder tomar una posición,
posición fuerte, y luego avanzar con ella.
La otra cosa que necesitaría el científico de datos es
cierta comodidad y flexibilidad con plataformas de análisis: algún software,
alguna plataforma informática, pero eso es secundario.
Lo más importante es la curiosidad y la capacidad de tomar posiciones.
Una vez que haya hecho eso, una vez que haya analizado,
entonces tienes algunas respuestas.
Y eso es lo último que necesita un científico de datos,
y esa es la capacidad de contar una historia.
Que una vez que tenga su análisis,
una vez que tengas tus tabulaciones,
ahora deberías poder contar una gran historia de ella.
Porque si no cuentas una gran historia,
tus hallazgos permanecerán ocultos,
permanecer enterrado, nadie lo sabría.
Pero su ascenso a la prominencia depende de su capacidad de contar
grandes historias.
Un punto de partida sería ver cuál es su ventaja competitiva.
¿Quieres ser un científico de datos en algún campo o en un campo
específico?
Porque, digamos que quieres ser un científico de datos y trabajar para
una empresa de TI o una empresa basada en la web o en Internet,
entonces necesitas un conjunto diferente de habilidades.
Y si quieres ser un científico de datos en la industria de la salud,
entonces necesitas diferentes conjuntos de habilidades.
Así que primero descubre lo que te interesa,
y cual es tu ventaja competitiva
Su ventaja competitiva no necesariamente serán sus habilidades analíticas.
Su ventaja competitiva es su comprensión de algún aspecto de
vida donde superas más allá de los demás en comprender eso.
Tal vez sea película, tal vez sea minorista,
tal vez sea salud, tal vez sean computadoras.
Una vez que haya descubierto dónde reside su experiencia,
entonces comienzas a adquirir habilidades analíticas.
Qué plataformas aprender y esas plataformas,
esas herramientas serían específicas para la industria que le interesa.
Y luego, una vez que tienes un poco de dominio de las herramientas,
lo siguiente sería aplicar tus habilidades a problemas reales,
y luego dile al resto del mundo qué puedes hacer con él.
4. Un día en la vida de un científico de datos
He creado un motor de recomendaciones antes como parte de una gran
organización y he trabajado
a través de todo tipo de ingenieros y contabilizando las diferentes partes del
problema.
Es uno de los que estoy más contento porque, en última instancia,
Se me ocurrió una solución muy simple que era fácil de entender desde todos
los niveles,
del estudio de ejecutivos, ingenieros y desarrolladores.
Finalmente, fue tan eficiente como algo realmente complejo,
y podrían haber pasado mucho más tiempo
De vuelta en la universidad,
Tenemos un problema que queríamos predecir la proliferación de algas.
Esta floración de algas podría causar un aumento en
toxicidad del agua y podría causar problemas a través de la empresa de
tratamiento de agua.
No podríamos predecir con nuestra formación en ingeniería química.
Entonces usamos redes neuronales artificiales para predecir cuándo
ocurrirán estas floraciones.
Entonces, las compañías de tratamiento de agua podrían manejar mejor este
problema.
En Toronto, el transporte público es operado por la Comisión de Tránsito de
Toronto.
Los llamamos TTC. Es uno de
Las autoridades de tránsito más grandes de la región, en América del Norte.
Y un día me contactaron y me dijeron: "Tenemos un problema".
Y yo dije: "Bien, ¿cuál es el problema?"
Ellos dijeron: "Bueno, tenemos datos de quejas,
y nos gustaría analizarlo, y necesitamos su ayuda ".
Le dije: "Bien, estaría muy feliz de ayudar".
Entonces dije: "¿Cuántas quejas tienes?"
Ellos dijeron: "Unos pocos". Dije,
"¿Cuántos?" Quizás medio millón.
Le dije: "Bueno, comencemos a trabajar con eso".
Entonces obtuve los datos y comencé a analizarlos.
Entonces, básicamente, han hecho un gran trabajo al mantener
algunos datos en formato tabular que eran datos no estructurados.
Y en ese caso, los datos tabulares fueron cuando llegó la queja,
quién lo recibió, cuál fue el tipo de queja,
fue resuelto, de quién fue la culpa.
Y la parte no estructurada era el intercambio de correos electrónicos y faxes.
Entonces, imagina mirar
cómo medio millón de intercambios de correos electrónicos y tratando de
obtener algunas respuestas de ellos.
Entonces comencé a trabajar con eso.
Lo primero que quería saber es por qué la gente se quejaría
¿Hay algún patrón o hay algunos días en que hay más quejas que otros?
Y miré los datos y los analicé en todos los formatos diferentes,
y no pude encontrar el ímpetu
para quejas que son más altas en cierto día y más bajas en otros.
Y continuó durante tal vez un mes más o menos.
Y luego, un día me bajaba del autobús en Toronto,
y todavía estaba pensando en eso.
Y salí sin mirar al suelo,
y me metí en un charco, charco de agua.
Y ahora, estaba como una especie de tobillo en el agua,
y solo tenía un pie mojado y el otro seco.
Y estaba extremadamente molesto.
Y estaba caminando de regreso y luego me di cuenta
y dije: "Bueno, espera un segundo.
Hoy llovió inesperadamente,
y no estaba preparado para eso.
Es por eso que estoy mojado y no tenía ganas ".
¿Qué pasaría si hubiera una relación entre
clima extremo y el tipo de quejas que recibe TTC?
Entonces fui al sitio web de Environment Canada,
y obtuve datos sobre lluvia y precipitación,
El viento y la luz.
Y allí, encontré algo muy interesante.
Los 10 días más excesivos para quejas.
Los 10 días en que la gente se queja más fueron los días en que el clima era
malo.
Fue una lluvia inesperada
una caída extrema de temperatura,
demasiada nieve, día muy ventoso.
Así que volví a los ejecutivos de TTC y dije:
"Tengo buenas y malas noticias".
Y la buena noticia es que
Sé por qué la gente se quejaría excesivamente en ciertos días.
Sé el motivo. La mala noticia es que
no hay nada que puedas hacer al respecto.

También podría gustarte