Está en la página 1de 15

FUNDAMENTOS DE LA CIENCIA DE DATOS

CIENCIA DE DATOS Y EXPLORACIÓN


FUNDAMENTOS DE LA CIENCIA DE DATOS
CIENCIA DE DATOS Y EXPLORACIÓN

Fundamentos de la ciencia de datos / Ciencia de datos y exploración 2


Fundamentos de la ciencia de datos / Ciencia de datos y exploración 3
ESCUELA DE NEGOCIOS

Directora de Escuela / Lorena Baus Piva

ELABORACIÓN

Experto disciplinar / José Fuentes

Diseñador instruccional / Rodrigo Rubio

VALIDACIÓN PEDAGÓGICA

Jefa de diseño instruccional / Alejandra San Juan Reyes

Experto disciplinar / Andrés Morales

DISEÑO DOCUMENTO

Didactic

Fundamentos de la ciencia de datos / Ciencia de datos y exploración 4


Contenido
APRENDIZAJE ESPERADO DE LA SEMANA:.....................................................................................................6
INTRODUCCIÓN .......................................................................................................................................................6
1. TIPOS DE DATOS .............................................................................................................................................6
2. FUENTES DE INFORMACIÓN.......................................................................................................................8
3. PROCESO DE RECOPILACIÓN.....................................................................................................................9
4. TÉCNICAS DE OBTENCIÓN DE DATOS .................................................................................................. 11
ÉTICA Y PRÁCTICAS DE SEGURIDAD RELACIONADAS A LA CIENCIA DE DATOS ........................... 13
IDEAS CLAVE ............................................................................................................................................................ 14
CONCLUSIONES ..................................................................................................................................................... 15
REFERENCIAS BIBLIOGRÁFICAS......................................................................................................................... 15

Fundamentos de la ciencia de datos / Ciencia de datos y exploración 5


APRENDIZAJE ESPERADO DE LA SEMANA:

Analizan requerimientos del proceso de recopilación de datos, considerando la ética y


prácticas de seguridad, en función de la resolución de problemas mediante ciencia de datos.

INTRODUCCIÓN
Toda organización cuenta con una gran cantidad de información de base, pero no todas sacan
provecho de ésta ni ven en los datos una oportunidad de crecimiento. Otro problema que se
les presenta, es la generación de conocimiento a partir de formas de trabajo heredadas o
símiles a la gran mayoría, ignorando o restando importancia al tipo de dato con que se cuenta
o genera, así como la fuente de la cual se obtiene.

Ya hemos visto en las semanas anteriores la diferencia que existe entre los tipos de datos, los
cuales son el insumo para cualquier análisis en una organización que quiere crecer o
afianzarse. Para esta semana se verá una clasificación más técnica de éstos, así como las
fuentes desde las cuales se pueden obtener y algunas técnicas de recopilación.

1. TIPOS DE DATOS

Recordemos que un dato es información concreta y representa un valor sobre un fenómeno


que se quiere analizar. La irrupción de la tecnología, y el uso de diversas plataformas y
aplicaciones, han llevado a nuevas clasificaciones de datos, existiendo actualmente el siguiente
consenso:

Datos estructurados

Son aquellos que se encuentran en un formato bien definido o especificado. Estos son los
datos que la gran mayoría de las organizaciones conocen y por lo general están concentrados
en bases de datos relacionales, hojas de cálculo u otro tipo de archivo, siendo fáciles de
trabajar.

Datos no estructurados

Son aquellos que no siguen una estructura definida. Corresponden a información obtenida de
archivos de audio, videos, fotografías, formatos de texto, correos electrónicos, etc. Este tipo de
datos no tiene campos fijos y por lo general no son fáciles de controlar y manipular.

Datos semi estructurados

Son aquellos que, pese a no tener formatos fijos, sí contienen alguna etiqueta o marcador que
permite su mejor comprensión. Como ejemplo podemos señalar las etiquetas XML y HTML.

Fundamentos de la ciencia de datos / Ciencia de datos y exploración 6


Figura 1. Tipos de datos.
Fuente: José Fuentes (2021), para módulo Fundamentos de la Ciencia de Datos, AIEP.

Las diferencias entre datos estructurados y no estructurados, se pueden reducir a tres áreas
como se muestra a continuación en el siguiente esquema:

Figura 2. Princiapales diferencias entre datos estructurados y no estructurados.


Fuente: José Fuentes (2021), para módulo Fundamentos de la Ciencia de Datos, AIEP.

Fundamentos de la ciencia de datos / Ciencia de datos y exploración 7


2. FUENTES DE INFORMACIÓN

Tradicionalmente las fuentes de información se clasificaron en primaria, secundaria o terciaria.


Lo cierto es que en ciencia de datos las fuentes de información están restringidas a su
procedencia. Es así que se distinguen 5 tipos de fuentes:

Biométrica

Se refiere a la identificación automática de un individuo entregando información como


características anatómicas o información personal.

Máquina a máquina

Este tipo de fuente tiene relación con internet. Consiste en aquella tecnología que permite
relacionar los diferentes dispositivos.

Transacciones u operaciones

Obedece a los sistemas de movimientos normales que son registrados como facturaciones, los
cuales son levantados a los respectivos departamentos de facturación. Otro tipo de dato
generado, son los reclamos, pagos por internet, etc.

Generados por personas

Son las grabaciones de atención al cliente. Hoy en día la gran mayoría de empresas de retail,
organizaciones del estado y otras cuentan con operadores que atienden a través de este
medio, conocido como call center. También incluye los registros médicos por medios
electrónicos.

Web y redes sociales

Son todos aquellos datos generados en la red. Es la fuente que provee mayor cantidad de
información. Cada clic, utilización de alguna plataforma o aplicación, enlace o búsqueda en las
redes, genera datos.

Fundamentos de la ciencia de datos / Ciencia de datos y exploración 8


Figura 3. Fuentes de información.
Fuente: José Fuentes (2021), para módulo Fundamentos de la Ciencia de Datos, AIEP.

3. PROCESO DE RECOPILACIÓN

El proceso de recopilación de datos, más que un paso a paso a seguir, consiste en una serie de
consideraciones a tener en cuenta desde la planificación de objetivos hasta el recabar
información para su posterior procesamiento, análisis y generación de resultados.

No debemos olvidar que los datos son los insumos que la organización tiene a su disposición y
que, a partir del análisis generará resultados que se convertirán en conocimiento para ésta.

Figura 4. Importancia de los datos.


Fuente: José Fuentes (2021), para módulo Fundamentos de la Ciencia de Datos, AIEP.

Fundamentos de la ciencia de datos / Ciencia de datos y exploración 9


Las consideraciones a tener en el proceso de recopilación de datos son las siguientes:

Definición de los objetivos de la investigación

La definición de los objetivos está directamente relacionada con la o las características a


estudiar, así como también la técnica de recopilación que se utilice.

Fuentes de información

Descritas en el punto 2 del apunte de esta semana.

Tipo de datos

Si son estructurados, no estructurados o semi estructurados.

Herramientas de almacenamiento y procesamiento.

Básicamente consiste en tener en cuenta si los equipos y procesadores con que se cuenta son
suficientes o será necesario actualizarlos o buscar nuevas herramientas para la manipulación
de la información.

Tiempo

Pocos consideran el tiempo como parte del proceso. Sin embargo, éste es el que circunscribe
o limita la duración de todo lo posterior al proceso de recolección de datos.

Recursos de personal

Determinar quién o quiénes serán los encargados del proceso. Siempre es importante en
cualquier estudio delimitar las tareas.

Recursos económicos

Considerar siempre que cualquier investigación requiere tiene un costo económico, que no
solo se relaciona con el pago de personal, sino también con la inversión en equipos y
procesadores si fuese necesario.

Metodología

Este punto se desarrollará en el siguiente apartado de técnicas de obtención de datos.

Fundamentos de la ciencia de datos / Ciencia de datos y exploración 10


Figura 5. Esquema de consideraciones en un proceso de recopilación de datos.
Fuente: José Fuentes (2021), para módulo Fundamentos de la Ciencia de Datos, AIEP.

4. TÉCNICAS DE OBTENCIÓN DE DATOS

Una técnica de recopilación de datos corresponde a los procedimientos utilizados por el o los
investigadores en su obtención. Deben proveerle de datos fiables para el análisis y cumplir con
los objetivos planteados.

Tradicionalmente, siempre las técnicas de recopilación obedecían a una secuencia claramente


definida:

• El investigador. El encargado del estudio.

• Los objetivos de la investigación. Definición de los alcances y fines de la investigación.

• La fuente de información. Primaria (encuesta, entrevista, observación, cuestionario,


paneles) o secundaria (biblioteca, revistas, diarios, etc)

• El instrumento a utilizar. Encuesta, entrevista, observación, paneles, focus group, etc.

• Validación del instrumento. Generalmente mediante focus group.

• Recopilación de la información. Implementación del instrumento.

Fundamentos de la ciencia de datos / Ciencia de datos y exploración 11


Figura 6. Esquema de una técnica tradicional de recopilación de datos.
Fuente: José Fuentes (2021), para módulo Fundamentos de la Ciencia de Datos, AIEP.

Si consideramos que tradicionalmente el investigador definía los objetivos y a partir de éstos,


confeccionaba el instrumento de recopilación que diera respuesta a esos objetivos, es decir, la
información obtenida, independiente del instrumento, era así como daba respuesta de forma
precisa a lo planteado (se preguntaba y el dato obtenido era una respuesta a esa pregunta).
Hoy, la forma la recopilar información es distinta. Si a lo anterior se le suma la tecnología
existente que permite un análisis continuo de la información, ese orden o secuencia lineal
necesita de nuevas técnicas.

Si bien, como se comentó en temas anteriores, no todas las investigaciones necesariamente se


realizan a través de metodologías de ciencia de datos, la gran mayoría de las organizaciones
siguen la forma tradicional de analizar datos. Sin embargo, por lo descrito a lo largo de la
unidad, es necesario abstraerse del pasado y tener una visión más actualizada.

Este enfoque nuevo nace desde que los datos ya están, y es a partir de éstos que el
planteamiento de los objetivos se enfoca en responder a la pregunta: ¿qué es importante de
estos datos para mi organización? Es así que dentro de la estructura y fuente, se encontrará
información que no es relevante, por lo que se deberá filtrar y depurar. Para ello, será
necesario, dependiendo del tipo de estudio, contar con herramientas de BigData, minería de
datos, inteligencia artificial para el análisis, modelación y la búsqueda de respuestas que
permitan generar conocimiento relevante a la organización.

Fundamentos de la ciencia de datos / Ciencia de datos y exploración 12


ÉTICA Y PRÁCTICAS DE SEGURIDAD RELACIONADAS A LA
CIENCIA DE DATOS

Dentro de los contenidos de la semana 3 se trataron los temas de privacidad y


confidencialidad de los datos. Seguramente a estas alturas puedan preguntarse ¿qué tan
seguros son?, ¿cuáles son los límites éticos de quién tiene acceso a nuestros datos?

Pues bien, la verdad es que con el aumento del uso de las redes sociales y la proliferación de
nuevas formas de comunicación, surge un problema e interrogante: ¿qué es privado?.

Imaginemos que a diario cada persona que tiene acceso a las redes sociales, de forma activa o
pasiva, genera información. Si a eso se suma que hay alguien que puede estar monitoreando
cada acción realizada por cada usuario con el fin de encontrar información que pueda ser
utilizada para generar un perfil que unidos a otros permita segmentar o clasificar a los usuarios
según un atributo que defina gustos, emociones u otras, ¿la falta de privacidad es culpa de la
tecnología o del usuario?

Lo cierto es que este debate se está dando en la actualidad y lo único claro es que la
tecnología no es culpable. ¿Por qué?, pues porque el desarrollo de la tecnología, técnicas de
BigData e inteligencia artificial, han contribuido a un gran desarrollo de la sociedad, yendo
desde la democratización de la información hasta contribuciones en el campo de la medicina,
organización de ayudas humanitarias, control de fraudes en transacciones bancarias, así como
la mejora de eficiencia en los diferentes procesos de las organizaciones.

Es por lo anteriormente descrito que la ética no solo se circunscribe a la obtención de


información con la aceptación del usuario y protección de su privacidad. Debe, además,
abarcar todo el ciclo de vida de los datos, incluyendo recolección, algoritmos utilizados y
propósito de los datos.

Fundamentos de la ciencia de datos / Ciencia de datos y exploración 13


Figura 7. Consideraciones éticas y de seguridad relacionadas en ciencia de datos.
Fuente: José Fuentes (2021), para módulo Fundamentos de la Ciencia de Datos, AIEP.

En síntesis, el progreso tiene sus costos. Así es como la tecnología tiene cosas positivas y otras
negativas, lo importante es reconocer que está, es parte de nuestra vida diaria y lo que queda
es saber convivir con ella.

IDEAS CLAVE
• Tipo de datos.

• Fuentes de datos.

• Proceso de recopilación y técnicas.

• Consideraciones éticas en ciencia de datos.

Fundamentos de la ciencia de datos / Ciencia de datos y exploración 14


CONCLUSIONES
Independiente de la investigación que se realice, siempre será necesario contar con la
información que proveen los datos y conocer de dónde se obtienen. Es importante diferenciar
dentro de la diversidad de aplicaciones y plataformas, las que están habilitadas para trabajar
con datos y que no necesariamente tienen una organización definida, como por ejemplo las
planillas de cálculo, pero también debemos recordar que existen otras en que el usuario puede
interactuar de una forma diferente, como, por ejemplo, Twitter, Instagram, etc.

Es necesario también considerar la fuente que provee los datos. Para ello revisamos 5
clasificaciones que resumen toda información según no solo los criterios de fuentes primarias
o secundarias, sino también incluyendo la tecnología, interacción y vinculación de estas nuevas
formas de relacionar información.

Finalmente, es necesario tener en cuenta en cada investigación, existen consideraciones éticas


respecto del uso de los datos que no solo se limitan a que los usuarios conozcan lo que se
hace con la información que entregan.

REFERENCIAS BIBLIOGRÁFICAS
Jones, H. (2019). Ciencia de los datos. Bravex Publications.

Fundamentos de la ciencia de datos / Ciencia de datos y exploración 15

También podría gustarte