Está en la página 1de 12

Conozca las últimas innovaciones en el ecosistema de datos abiertos en Subsurface ™ ×

https://www.dremio.com/tutorials/working-with-your-first-dataset/
LIVE Summer 2021, del 21 al 22 de julio.
Detectar idioma
Aprende Más Español

Trabajando con su primer conjunto


de datos
Intro
En este tutorial trabajaremos con un conjunto de datos de muestra para darle una idea de las
formas en que Dremio facilita el trabajo con datos. Si bien Dremio está diseñado para agilizar el
trabajo con conjuntos de datos muy grandes para el procesamiento analítico, este tutorial
utiliza un pequeño conjunto de datos que representa un solo año de incidentes según lo
informado por el Departamento de Policía de San Francisco.
También hemos creado un video si desea sentarse y mirar.
Conozca las últimas innovaciones en el ecosistema de datos abiertos en Subsurface ™ ×
LIVE Summer 2021, del 21 al 22 de julio.
Aprende Más
Supuestos
Le recomendamos que participe en el tutorial de Orientación a Dremio anterior antes de
comenzar este tutorial. Para seguir este tutorial, debe tener acceso a una implementación de
Dremio , estar conectado a los datos de muestra en Amazon S3 y tener un espacio configurado
para este ejercicio. Si tiene preguntas en el camino, no dude en preguntar en el sitio de la
comunidad de Dremio .

Los datos
Dremio admite la mayoría de las fuentes de datos y muchos formatos de archivo. En este
tutorial trabajaremos con datos proporcionados por la ciudad y el condado de San Francisco .
La ciudad
10:54
mantiene muchos conjuntos de datos interesantes, incluidos los incidentes policiales
de cada año, a partir de 2003:
Campo Escribe Ejemplo
IncidentNum Cuerda 170512983
Categoría Cuerda ROBO DE VEHICULOS
Descripcion Cuerda AUTOMÓVIL ROBADO
Día de la semana Cuerda sábado
Fecha Cuerda 24/06/2017
Tiempo Cuerda 00:30
PdDistrict Cuerda DEL SUR
Resolución Cuerda NINGUNO
Dirección Cuerda 9TH ST / MISSION ST
X Cuerda -122.414714295579
Y Cuerda 37.7762310404758
Localización Cuerda (37.7762310404758 °,
-122.414714295579 °)
PdId Entero 17051298307021

Acceder a los datos con Dremio


Comencemos creando un nuevo espacio. Haga clic en el signo más junto a Spaces y agregue
un espacio llamado "SFIncidents":
Conozca las últimas innovaciones en el ecosistema de datos abiertos en Subsurface ™ ×
LIVE Summer 2021, del 21 al 22 de julio.
Aprende Más

Usaremos este espacio para trabajar con nuestros conjuntos de datos virtuales (VDS). A
continuación, comencemos a trabajar con los datos de incidentes policiales almacenados en
S3. Navegue a Muestras en la sección Fuentes en la parte inferior izquierda. Luego haga clic en
samples.dremio.com:

El icono de archivo blanco junto a cada archivo indica que Dremio sabe que se trata de un
archivo, pero aún no conoce su formato. A lo largo de esta serie de tutoriales de Dremio,
trabajaremos con un solo año de incidentes (SF_Incidents2016.json) que incluye
aproximadamente 150.000 registros. La ciudad proporciona años de datos históricos en caso
de que desee trabajar con un conjunto de datos más grande en un momento posterior.
Conozca las últimas innovaciones en el ecosistema de datos abiertos en Subsurface ™ ×
LIVE Summer 2021, del 21 al 22 de julio.
Aprende Más

Para identificar el formato, coloque el cursor sobre el archivo y, a la derecha, verá un ícono de
carpeta con una flecha que apunta a otra carpeta con una cuadrícula:

Una vez que haga clic en este icono, verá una muestra de los datos y un cuadro de diálogo
para confirmar el formato:

Dremio admite muchos tipos de archivos, incluidos Excel, JSON, Parquet y otros. Con algunos
formatos de archivo, hay configuraciones requeridas (por ejemplo, delimitador de campo,
delimitador de línea), pero debido a que JSON es autodescriptivo, simplemente podemos hacer
clicConozca
en "Guardar"
las y ver una
últimas muestra deenloseldatos
innovaciones presentados
ecosistema de en el abiertos
datos visor de conjuntos
en de datos
Subsurface ™ ×
de Dremio: LIVE Summer 2021, del 21 al 22 de julio.
Aprende Más

La siguiente sección navega y describe el contenido de esta pantalla.

Comprender el visor de conjuntos de datos


En la esquina superior izquierda hay un icono de conjunto de datos de color púrpura seguido
del nombre completo del conjunto de datos -
Samples.samples.dremio.com.SF_incidents2016.json - que sigue el modelo de espacio de
nombres jerárquico de Dremio: [nombre de la fuente]. [Nombre del espacio]. [Conjunto de
datos nombre].

El icono violeta indica que Dremio entiende que se trata de un conjunto de datos físicos.
También significa que ahora podemos consultar este conjunto de datos usando SQL desde
cualquier herramienta. Por ejemplo:

1
SELECT *

2
FROM Samples."samples.dremio.com"."SF_incidents2016.json"

Los datos todavía están en S3 y Dremio no ha realizado una copia ni ningún cambio en el
original, pero con solo unos pocos clics hemos abierto estos datos JSON a una amplia gama de
herramientas analíticas. Exploraremos esto con más detalle más adelante.
UnConozca
objetivo las
esencial de innovaciones
últimas Dremio es queen
loselusuarios
ecosistemapuedandepreparar
datos fácilmente
abiertos en los datos para™
Subsurface
satisfacer sus propias necesidades,
LIVE y hacerlo
Summer 2021,sindelhacer
21 copias
al 22 de gravar al departamento de TI. ×
nijulio.
Comencemos trabajando con tipos de datos y nombres
Aprende Más de columnas.

Construyendo su primer conjunto de datos virtual


Haga clic en "Descripción" en la parte superior de la tercera columna. Debería poder editar la
columna simplemente escribiendo "Descripción" y haciendo clic en regresar.

Ahora, el nombre de esta columna es "Descripción" para todas las consultas. Tenga en cuenta
que esto no hizo cambios en los datos de origen.

También puede notar que el ícono violeta ahora es verde y el nombre es "Nueva consulta". En
lugar de realizar cambios en el conjunto de datos físicos (PDS), estamos creando un conjunto
de datos virtual, donde puede aplicar cualquier cambio a los datos de forma dinámica, sin
alterar los datos originales y sin hacer una copia.
A continuación, la columna llamada "Fecha" es en realidad una cadena, así que cambiemos la
columna Fecha de una cadena a una fecha. En el lado izquierdo del encabezado de la columna,
haga clic en el icono "Abc" para abrir el menú de tipo de datos:
Conozca las últimas innovaciones en el ecosistema de datos abiertos en Subsurface ™ ×
LIVE Summer 2021, del 21 al 22 de julio.
Aprende Más

Haga clic en "Fecha ..." y verá una pantalla con muchas opciones que le ayudarán a convertir
esta cadena en una fecha. De la lista de formatos, la primera opción funciona para esta
columna. A continuación, puede ver una vista previa de los datos con el original en amarillo y la
columna convertida en azul:
Esta vista previa
Conozca las permiteinnovaciones
últimas comentarios inmediatos.
en el Si prueba
ecosistema de algunasabiertos
datos de las otras
en opciones, verá
Subsurface ™ ×
la actualización de la vista LIVE
previa.Summer
Puede asignar
2021, un 21
del nombre
al 22 adela julio.
nueva columna y,
opcionalmente, eliminar la columna original de su conjunto
Aprende Más de datos virtual o conservarla. En
este ejercicio reemplazaremos el original con nuestra nueva columna llamada Fecha que es un
tipo de datos. Haga clic en "Aplicar" y volverá a la pantalla del visor de conjuntos de datos.
Observe que el icono de tipo de datos en la columna Fecha reemplazó "Abc" con un calendario.
Hay algunos cambios más que hacer con este conjunto de datos. Cambie los tipos de las
columnas X e Y a Float y cámbieles el nombre a Lon y Lat, respectivamente. Después de aplicar
estos cambios, su conjunto de datos virtual debería verse así:

Notice along the upper right of the screen there is a series of gray dots with a yellow dot on the
top. This is the version history of your virtual dataset. Hover over each dot to see the changes
made along the way, and click on a dot to return to that step in the event you want to undo the
changes you’ve made to your virtual dataset.

Now let’s save our virtual dataset. Click “Save As…”


Conozca las últimas innovaciones en el ecosistema de datos abiertos en Subsurface ™ ×
LIVE Summer 2021, del 21 al 22 de julio.
Aprende Más

You’ll see a list of spaces. Call this VDS “Incidents,” select the “SFIncidents” space, and then
click “Save.”

Now the upper left displays a green dataset icon with the full name of this virtual dataset,
“SFIncidents.incidents”:
We’Conozca
ve successfully
las created
últimas our first virtual
innovaciones en eldataset, “SFIncidents.incidents.”
ecosistema de datos abiertosWithout
en making a™
Subsurface
copy of the source data or LIVE
writingSummer
any SQL,2021,
we’vdel
e changed
21 al 22thedenames
julio. of some of the columns ×
and changed some of the data types to suit our needs.
Aprende Más
This virtual dataset is a first-class relational object. You can query it with SQL, join it to other
physical or virtual datasets, perform aggregations, and more. For example, you can click the
New Query button at the top and query this virtual dataset with SQL:

1
SELECT Category, count(*) as "incident count"

2
FROM SFIncidents.incidents

3
WHERE DayOfWeek in ('Monday','Tuesday','Wednesday','Thursday')

4
GROUP BY Category

5
ORDER BY "incident count" DESC
6
LIMIT 5

This query asks for and displays the top five most frequent incidents that occur during
weekdays (be sure to click Run instead of Preview):

Conclusion
This tutorial worked with JSON files in Amazon S3, and in just a few minutes we were able to
connect Dremio to a public file and issue a SQL query, all without making a copy of the data or
writing any code. We explored physical and virtual datasets, which allow users to customize the
data they need for their own analytical jobs, without asking IT to first make a copy.

Next Steps
En nuestro próximo tutorial conectaremos una herramienta de BI a Dremio para explorar los
datos de incidentes policiales. Incluso si nunca ha utilizado Tableau, será fácil seguir
Visualizando su conjunto de datos con Tableau .
Conozca las últimas innovaciones en el ecosistema de datos abiertos en Subsurface ™ ×
LIVE Summer 2021, del 21 al 22 de julio.
Aprende Más
PLATAFORMA
Visión general
Nube Dremio
Software Dremio
Motor de consulta
Capa semántica
Seguridad
Innovación de código abierto
POR QUÉ DREMIO CLIENTES
Por qué Dremio Historias de clientes
SOCIOS
Socios de Dremio
APRENDER COMPAÑÍA
Subsuperficie Sobre nosotros
Subsurface Live Liderazgo
Recursos Sala de prensa
Blog Comunicados de prensa
Docs Carreras
Universidad Contáctenos
Comunidad

© 2021 Dremio Todos los derechos reservados


Política de privacidad
Legal
Conozca las últimas innovaciones en el ecosistema de datos abiertos en Subsurface ™ ×
LIVE Summer 2021, del 21 al 22 de julio.
Aprende Más

También podría gustarte