Está en la página 1de 3

Clase 24

Cloud: tendencia en data science. Nos permite ampliar capacidades para herramientas y
tecnologias.

Nosotros somos clientes. Luego nos conectamos a servicio, o en otro servidor que no
necesariamente esta en nuestra casa.
Permite acceder mediante un sistema remoto, al software de procesamiento de datos y
almacenamiento de archivos.
Ej: acceder a drive, email.

Tipos:
Nube publica: Google, AWS, Microsoft Azure disponibilizan servicios como drive. Accedemos al
software final.
Nube privada: propios servidores. Mi propio centro de datos.

Beneficios:
- Abaratamiento de costos
- Inmediatez: puedo acceder a múltiples RAM
- Capacidad de proceso
- Concurrencia: si quisiéramos compartir ese notebook, se lo podemos enviar y lo puede
trabajar en su jupyter local. archivos centralizados, trabajar en forma paralela
- Seguridad: info centralizada y no repartida en distintas partes

Permite aceleración y gestión de procesos computacionales, haciéndolo mas eficientes.

Ventas in-house (nube privada)


- Customización: personalización de recursos. Si sabemos que no vamos a almacenar
mas de 1 tb de info, no tenemos que pagar por recursos extras.
- Conocimiento: conocimiento de sistemas y datos queda en forma privada.
- Sin costos mensuales: al principio requiere inversión grande pero después es un
mantenimiento. Dependiendo recursos.

Desventajas in-house:
- Elasticidad: falta de elasticidad y escalabilidad. Estructura estática, no es fácil volverla
escalar. Si mas personas quieren acceder es un problema
- Costos de infraestructura: muy grandes al principio, instalación. Depende de
proveedor.
- Personal altamente capacitado: que conozca bien de infraestructura con conocimiento
alto. Que sepa administrar correctamente la infraestructura. Ya tienen sus propios
administradores.

Modelos de servicios en la nube:


- IaaS: Infraestructura como servicio
- PaaS: Plataforma como servicio
- SaaS: Software como servicio

IaaS: Imaginemos que alguien nos da una infraestructura en donde vamos a tener todas las
computadoras, servidores. Tendremos hardware en donde podemos hacer procesos como se
necesita. Contrato cubre hardware, no incluye software y nosotros trabajamos en esa
infraestructura. Tendremos gente que administre recursos.
PaaS: Tendremos serie de herramientas diferenciales. Contratamos infraestructura y entorno
en el cual nosotros podemos trabajar. Puede ser sistema operativo, plataforma en la cual
podemos trabajar, pero no vamos a tener software puntualmente. Podemos hacer desarrollos
a través de plataforma.

SaaS: es un Google sheet por ejemplo. Es como un Excel pero de Google en la nube. Nosotros
no tenemos que instalar nada. Hacemos el uso del software con capacidades que tiene, como
con Google colab. Un tableau en la nube, power bi en nube. Hacemos uso del software
inmediatamente. Nosotros no lo administramos pero pagamos para acceder a ese software.

Proveedores:
AWS: Tiene una gran variedad de servicios de infraestructura.
Azure: la ventaja es la rapidez.
Google cloud platform

¿Cuál elegir?
Requerimientos del negocio.
Costos.

BIG DATA
Colección de grandes volúmenes de datos y complejos, difíciles de procesar y gestionar por
herramientas tradicionales.

3V de big data: Volumen, Velocidad, Variedad.


También se puede nombrar: Valor, Veracidad.

Hadoop: framework implementando en java que permite almacenamiento y procesamiento


distribuido de datos estruct, no estruct. Diseñado para trabajar en clusters de harward (ej: 5
maquinas para trabajar de forma paralela). Buena tolerancia a fallas.

Sirve para almacenar archivos de manera distribuida y procesar.

Hive: software que facilita leer, escribir, manejar largos conjuntos de datos. Funciona con
algoritmo mapreduce. MR es un modelo de programación que facilita
ETL: proceso de compilación de datos a partir de un numero ilimitado de fuentes, su posterior
organización y su carga en un repositorio.

On-premise: Oracle. No son tantas de programar, funcionan en entornos gráficos.


Oracle es plataforma de integración completa de ETL. Se procesan mediante procesos de
transformación.

Pentaho: herramienta open source utilizada y conocida. Funciona de forma grafica. Permite
hacer analítica de datos. Tiene herramientas adicionales como ingeniería y análisis de datos.

SQL server

También podría gustarte