Está en la página 1de 22

Datos y ciclo de vida • Semana 2

ESCUELA DE NEGOCIOS

Directora: Lorena Baus

ELABORACIÓN

Experto disciplinar: Juan Pablo Armijo

Diseñador instruccional: Hernán Apablaza

Editora instruccional: Rocío Gómez

VALIDACIÓN

Experto disciplinar: José Fuentes Morales

Jefa de Diseño Instruccional: Adriana Contreras

EQUIPO DE DESARROLLO

AIEP

AÑO

2022

2
Tabla de contenidos
Aprendizaje esperado de la semana ........................................................ 5

Introducción ......................................................................................... 6

1. Bases de datos ................................................................................. 7

1.1. Microsoft Excel ............................................................................. 8

1.2. Microsoft Access ......................................................................... 10

1.3. SQL ........................................................................................... 11

2. Variables ....................................................................................... 12

2.1. Variables categóricas .................................................................. 13

2.1.1. Variables categóricas ordinales............................................... 13

2.1.2. Variables categóricas nominales ............................................. 15

2.2. Variables numéricas .................................................................... 16

2.2.1. Variables numéricas discretas ................................................. 17

2.2.1. Variables numéricas continuas ................................................ 18

3
2.3. Variables de texto ....................................................................... 19

Cierre ............................................................................................... 21

Referencias bibliográficas..................................................................... 22

4
Aprendizaje esperado de la semana

Caracterizan el uso de bases de datos, considerando herramientas


informáticas para la gestión y elaboración del flujo de planificación a partir de
los datos.

Figura 1. Bases de datos


Introducción
¿Habías escuchado anteriormente acerca de las ‘bases de datos’?
¿En qué situaciones de tu vida diaria usas bases de datos?

En la semana anterior, vimos la clasificación de los datos de acuerdo con su


tipo y escalas de medición asociadas, pudiendo encontrarlos según cómo estos
pueden aparecer en las diferentes fuentes a las que acudimos en las respectivas
estructuras. Una vez que se conocen los tipos de datos, su forma y estructura,
debemos comprender que, cuando se almacenan en diferentes volúmenes, se
crea lo que se llama ‘base de datos’ (Oracle Chile, s.f.).

Las bases de datos permiten gestionar, ordenar y trabajar con los datos por
medio de consultas realizadas usando software especializados que buscan
patrones, tendencias u obtener información para análisis que nos faciliten el
trabajo y toma de decisiones.

A su vez, debemos hacer la distinción entre un dato y una variable, donde el


primero siempre es y será el mismo, mientras que la variable es algo que puede
cambiar, por lo tanto, cuando realizamos análisis desde una base de datos,
tomamos los datos y, al agruparlos por ciertas características, los interpretamos
como variables, de acuerdo con los objetivos que queramos lograr.

6
1. Bases de datos
Considerando lo anterior, es momento de hablar de cuando se agrupan los
datos y se almacenan de acuerdo con el tipo estructurado. Este
almacenamiento en volúmenes de diferente cuantía es lo que se conoce como
base de datos (Oracle Chile, s.f.).

Para poder almacenar los datos, se usa software especializado que permite
respaldar los datos en archivos de diferentes formatos, para su posterior lectura
por medio de programas específicos, que permitirán ordenar y gestionar los
datos para trabajar con ellos a partir de los objetivos que se tengan.

La base de datos más común presenta el formato de filas y columnas, lo que


permite recorrerla de forma eficaz, logrando, de este modo, una mejor
búsqueda y un mayor procesamiento de los datos, pues se debe tener presente
que, mientras más ordenada esté la base de datos, más sencillo es el trabajo
por desarrollar con ella.

7
Figura 2: Ejemplo de base de datos ordenada
Fuente: Colin, Schouwenaars y Carchedi (s.f.)

Como se están viendo conceptos básicos de manejo de datos, se debe


mencionar herramientas que acompañarán a diario en la labor como analistas
de datos. Estas son: Excel, Access y SQL.

1.1. Microsoft Excel

Excel es un software de hojas de cálculo creado por Microsoft, que se incluye


en el paquete básico de software Microsoft Office. Excel permite operar datos
en estructura fila y columnas, de acuerdo con una serie de celdas editables,
las que, al relacionarlas y aplicarles ciertas funciones, permiten desarrollar
diferentes cálculos y ordenar datos según la tarea que se esté realizando.

8
Para las bases de datos, lo ideal es encontrar aquellos que puedan ser
procesados por esta herramienta, pues Excel cuenta con un conocimiento más
transversal y con múltiples opciones, las que hacen sencillo el procesamiento
de datos.

La extensión de archivo más conocida de Excel es “.XLS”, y sus evoluciones, a


medida que el software se ha ido actualizando, también presentan aplicaciones
específicas para base de datos, como el formato “.CSV” (“Comma Separated
Values”), el cual ordena los datos en una tabla, donde las columnas son
separadas por comas, mientras que las filas son separadas por saltos de líneas.
Este formato es ideal para software estadísticos, pues interpretan los datos en
este tipo por defecto, haciendo más simple su procesamiento.

Figura 3: A la izquierda, archivo en formato CSV; a la derecha el archivo en formato XLS

Fuente: Aguirre (2016)

9
1.2. Microsoft Access

Más conocida como ‘Access’, es un software de gestión de base de datos


creada por Microsoft, también incluido en el paquete de versión completa de
Microsoft Office.

Access permite relacionar datos y, a partir de ello, realizar consultas,


desarrollar plantillas, crear aplicaciones e informes que ayuden a obtener
información útil para la toma de decisiones, u optimizando datos para
mantener un orden de los registros que se están considerando en el
funcionamiento de una entidad.

En relación con los negocios, Access es una herramienta útil que permite
administrar los datos y crear aplicaciones dentro de su interfaz para poder
realizar registros, inventarios, guías de proveedores, contabilidad, etc., y
almacenarlos en una base de datos para posteriores consultas, análisis y
manejo de los datos de la empresa, de manera de optimizar su operabilidad y
maximizar sus beneficios.

A diferencia de Excel, Access se enfoca directamente al procesamiento de


datos, es decir, estos se pueden almacenar, clasificar, ordenar, etc., en un
volumen mayor.

10
1.3. SQL

Cuando se manejan grandes volúmenes de bases de datos, o bien, las fuentes


de datos requieren algún tipo de conexión especial o tratamiento diferenciado,
las herramientas de Microsoft Office antes mencionadas no son las óptimas
para el manejo de la información a fin de obtener los resultados deseados.

Al enfrentarnos a grandes volúmenes de datos, las herramientas tradicionales


suelen presentar fallas en tiempo de procesamiento, capacidad de
almacenamiento y funcionamiento, por lo que es necesario acudir a un tipo de
lenguaje específico para la administración y gestión de datos.

SQL (‘Structure Query Language’) es un tipo de lenguaje de consulta


estructurado, que permite operar en las bases de datos y, de este modo,
gestionar relaciones entre los distintos datos que se encuentran en la base en
cuestión.

Es una herramienta de amplia aceptación, pues los mismos softwares antes


mencionados —y otros que puedan operar en el mercado con acciones
similares sobre gestión de bases de datos—, se sustentan en el lenguaje de
consultas que representa SQL.

Las consultas se realizan por medio de comandos, en donde relacionamos


atributos con indicaciones que nos permiten obtener la información que
deseamos desde la base de datos.

11
Figura 4: Ejemplo de manejo SQL por medio de SQL Server Management Studio
Fuente: Microsoft (2021)

2. Variables
Al manipular los datos, la agrupación que realizamos para poder interpretar
la información con la cual resolvemos problemas o tomamos decisiones, se
conoce como ‘variable’.

Los datos por sí solos no cambian, no obstante, cuando se quiere interpretar


los datos, hacer comparaciones, ver el comportamiento en el tiempo, hacer
proyecciones, comparaciones etc., se realiza por medio de variables, las cuales

12
sí pueden ser modificadas y permiten cumplir con las actividades ya
mencionadas.

Las variables, al igual que los datos, son clasificadas según si son variables
que representan datos cualitativos; o bien, datos cuantitativos. Y, a su vez,
agregamos las variables de texto que, a continuación, se detallan.

2.1. Variables categóricas

Las variables categóricas o también llamadas variables cualitativas hacen


referencia a características, cualidades, interpretación de datos que no pueden
ser medidas de forma numérica, por lo tanto, no permiten realizar operaciones
aritméticas sobre ellas.

Las variables categóricas o cualitativas son clasificadas en ordinales y


nominales.

2.1.1. Variables categóricas ordinales

Las variables categóricas ordinales son aquellas que no pueden ser


cuantificadas de forma numérica, pero presentan un orden en una
representación. Por ejemplo, en una competición olímpica, los mejores tres
puntajes llegan a un podio de premiación; quien logró el mejor rendimiento
obtiene la medalla de oro que representa el primer lugar, quien consigue el

13
segundo mejor rendimiento, obtiene una medalla de plata que representa el
segundo lugar, mientras que quien registre el tercer mejor rendimiento obtiene
una medalla de bronce que representa el tercer lugar.

Llegar en posiciones ordenadas desde el primer al tercer lugar, es una


representación de una variable categórica ordinal, es decir, no se puede sacar
un promedio de variables entre los tres primeros lugares, o sumar los tres
primeros lugares, pues no tiene sentido lógico, más bien, se ordenan las
variables para obtener las posiciones correspondientes y, así, obtener la
representación de premiación.

ID Nombre Apellido Posición Tiempo Podio


5 Diego Arenas 1º 01:11:17 Oro
8 Marcelo Avello 2º 01:11:35 Plata
15 Paulo Cornejo 3º 01:11:45 Bronce
14 Fabián Llantén 4º 01:12:01 -
9 Pablo Palacios 5º 01:12:20 -
2 Mariano Pérez 6º 01:12:49 -
4 Juan Quintero 7º 01:13:05 -
3 Elkin Ríos 8º 01:13:33 -
1 Edison Rivera 9º 01:13:42 -
13 Claudio Sánchez 10º 01:13:50 -
11 Antonio Silva 11º 01:14:01 -
10 Francisco Torres 12º 01:14:17 -
12 Rubén Valdebenito 13º 01:14:42 -
6 José Vargas 14º 01:14:55 -
7 Carlos Vidal 15º 01:15:12 -

Figura 5: Ejemplo base de datos categórica ordinal

14
La figura 5 muestra que, aunque el identificador de cada persona tiene una
secuencia, la posición en que llegó de acuerdo con el tiempo, por ejemplo, en
una carrera, es la que determina su podio final. En este caso, los participantes
5, 8 y 15 ocupan los tres primeros lugares, respectivamente.

2.1.2. Variables categóricas nominales

Las variables categóricas nominales son aquellas que no pueden ser


cuantificadas de forma numérica y, al mismo tiempo, no presentan un orden
en una representación.

Por ejemplo, se está haciendo un estudio sobre una población específica de


entre los 20 y 30 años, para saber cuál es su estado civil. Se realiza una
encuesta y se obtiene que, un cierto grupo son solteros; otro grupo son
casados; otros, separados y otros, viudos.

Se están agrupando datos y creando variables de acuerdo con su condición


civil. ¿Es posible sumar, por ejemplo, los estados civiles? La respuesta es no.
¿Se puede realizar un orden respecto a si va primero casado que soltero?
Tampoco.

En conclusión, se obtienen variables donde se pueden clasificar, pero no


ordenar como en el ítem de datos categóricos ordinales.

15
ID Nombre Apellido Estado Civil
1 Alonso Ureta Casado
4 Gustavo Toro Casado
5 Pedro Orellana Casado
11 Antonio Vargas Casado
12 Camila Luna Casado
3 Ana Martínez Divorciado
6 Andrea Hidalgo Divorciado
9 Verónica Riveros Divorciado
10 Raquel Isla Divorciado
13 Rubén Guzmán Divorciado
15 Carlos Pizarro Divorciado
2 Marcela Vílches Soltero
7 Patricio González Soltero
8 Josefina Piña Soltero
14 Isabel Rojas Soltero

Figura 6: Ejemplo de base de datos variable categórica nominal

En la figura 5, podemos ver una tabla que muestra el estado civil de un grupo
de personas. El ID no es quien ordena, pues, por consulta, se agrupan, por
una parte, los casados; en otro grupo, los divorciados y, finalmente, los
solteros.

2.2. Variables numéricas

Las variables numéricas —o también llamadas variables cuantitativas— son


aquellas en las que sí se pueden realizar mediciones numéricas, es decir, se
pueden operar aritméticamente sobre ellas.

Las variables numéricas o cuantitativas se clasifican en discretas y continuas.

16
2.2.1. Variables numéricas discretas

Son aquellas que se pueden contar y, por lo general, solo se representan con
números enteros.

Por ejemplo, cuando se realiza un censo, una pregunta típica es, ¿cuántas
personas componen este hogar? Y la respuesta dependerá claramente de la
cantidad de personas que habitamos en aquel lugar. O bien, cuando se realiza
el conteo de niños dentro de un aula de clases y surge la pregunta, ¿cuántos
son niños y cuántas son niñas? La respuesta no podría ser “son 15 y 2/3 niños”,
dado que eso no tiene ningún sentido. La respuesta esperada debe ser un
número entero que representa lo que se nos está consultando.

Lo anteriormente mencionado se refiere, entonces, a variables numéricas


discretas, es decir, se pueden contar, sumar, etc., pero no en fracciones.

ID Nombre Apellido Género


1 Tania Soto F
2 Catalina Suárez F
3 Gustavo Olivares M
4 Hernán Gatica M
5 Camilo Vera M
6 Amalia Garrido F
7 Silvia Jiménez F
8 Nicolás Retamal M
9 Oscar Aravena M
10 Ingrid Rozas F
11 Sandra Solari F
12 Gabriel Acevedo M
13 Osvaldo Falcón M
14 Daniel Murillo M
15 Iván Figueroa M
Número Mujeres 9
Númer Hombres 6
Total personas 15

Figura 7: Ejemplo de base de datos variable numérica discreta

17
En la figura 7, vemos un listado de personas con su respectivo género, donde
“M” es masculino y “F” femenino. Al realizar un conteo, podemos ver cuál
cantidad de esta base son hombres y cuántas son mujeres, así, podemos saber
el total de personas que se encuentran en la base, puesto que se utilizan
números enteros.

2.2.1. Variables numéricas continuas

Son aquellas que se pueden contar y, al mismo tiempo, asumir cualquier valor,
no siendo únicamente números enteros.

Por ejemplo, al medir la estatura de un grupo de personas, se dice, una mide


1 metro y la otra, 2 metros, sin valores intermedios. Por el contrario, se pueden
identificar valores como 1,82 metros, o una infinidad de números decimales
entre cifras. Lo mismo puede ocurrir con el peso u otra variable similar.

Estos son variables numéricas continuas, puesto que es posible cuantificarlas


y, a su vez, pueden tomar diferentes valores entre rangos.

18
ID Nombre Apellido Estatura
1 Alfonso Valdivia 1,85
2 Mariela Santos 1,75
3 Rodolfo Ríos 1,68
4 Eduardo Quintero 1,69
5 Rafaella Serrano 1,63
6 Antonella Céspedes 1,78
7 Pascuala Vidal 1,82
8 Julieta Avello 1,8
9 Ramón Cortés 1,77
10 Fernanda Torres 1,7
11 Alejandro Silva 1,69
12 Vicente Poblete 1,65
13 María Pérez 1,73
14 Valentina Molina 1,79
15 Ismael Reyes 1,83
Promedio 1,74
Moda 1,69

Figura 8: Ejemplo de base de datos variable numérica continua

En figura 8 se puede ver que, en este grupo de personas, aparece la estatura


de cada uno; así, a partir de ello, podemos saber, por ejemplo, la estatura
promedio del grupo (1,74 metros), así como también la estatura que más se
repite (1,69 metros). Debes notar que la presentación de resultados contempla
el uso de decimales, así, es posible realizar cálculos sobre ellos.

2.3. Variables de texto

Al utilizar herramientas de interpretación y gestión de datos, es posible que se


necesiten variables que contengan texto para poder asociar a otras variables,
o bien, para, por ejemplo, poder hacer un gráfico donde las columnas tengan
un nombre específico.

19
Dado esto es que, en la ciencia de datos, se puede identificar las variables de
texto tipo ‘string’ (o ‘cadena’) y las variables de texto tipo ‘chars’ (o ‘carácter’).

Las primeras permiten almacenar los datos de texto que pueden cambiar
mientras se procesan estos; por ejemplo, nombres, títulos, descripciones, etc.;
mientras que las variables de texto de tipo ‘chars’, son aquellas que almacenan
datos de texto, pero con caracteres de longitud fija; por ejemplo, un código,
un ID, una clave, etc.

ID Cliente Nombre Apellido


AU214 Andrés Urra
GT132 Gabriela Toledo
PO456 Pablo Ortíz
AV651 Agustina Villegas
CL901 Cristian López
AM345 Arturo Menares
AH123 Alma Hansen
VR021 Vanessa Robles
RI129 Rodrigo Ibarra
RG691 Raquel Gacitúa
CP348 Cecilia Puga
MV814 Miguel Valencia
PG091 Pietro Gómez
JP321 Jaime Padilla
IR346 Irma Román

Figura 9: Ejemplo de base de datos variable de texto

En la figura 9, en la primera columna, podemos ver un “ID cliente”, el cual es


un identificador de los clientes, por ejemplo, de una tienda, con la cual
podemos hacer consultas a la base de datos, en vez de escribir los nombres
enteros. Puede servir también para ocultar datos y trabajar en clave.

20
Cierre
Por medio del siguiente organizador gráfico, se destacan las ideas clave de
esta semana:

Ciencia de
datos

Base de datos Variables

Gestión de Variables Variables Variables de


base de datos categóricas numéricas texto

Nominales Discretas

Ordinales Continuas

21
Referencias bibliográficas
Aguirre, M. (9 de diciembre de 2016). Cómo abrir correctamente un archivo CSV en
Excel. Geeknetic. https://www.geeknetic.es/Noticia/11610/Como-abrir-
correctamente-un-archivo-CSV-en-Excel.html

Colin, R., Schouwenaars, F & Carchedi, N., s.f. Introduction to SQL. DataCamp.

Garriga, A. J. (2009). Introducción al análisis de datos. UNED - Universidad


Nacional de Educación a Distancia. https://elibro-
net.ezproxy.aiep.cl/es/lc/aiep/titulos/48460

Microsoft. (23 de julio de 2021). SQL Server Management Studio (SSMS) Query
Editor. https://docs.microsoft.com/en-us/sql/ssms/f1-help/database-
engine-query-editor-sql-server-management-studio?view=sql-server-
ver15

Oracle Chile. (s.f.). ¿Qué es una base de datos?


https://www.oracle.com/cl/database/what-is-database

Ricardo, C. M. (2009). Bases de datos. McGraw-Hill. https://www-ebooks7-24-


com.ezproxy.aiep.cl/?il=680

Vírseda, V., González, J. y Parra, F. (2019). Métodos de Data Science aplicados a


la Economía y a la Dirección y Administración de Empresas. UNED -
Universidad Nacional de Educación a Distancia. https://elibro-
net.ezproxy.aiep.cl/es/lc/aiep/titulos/122249

22

También podría gustarte