Está en la página 1de 5

Big Data

3 caracteristicas
Volumen: macro datos, son demasiados grandes. Ley de moore
Velosidad: Los datos entran rapidos, Los datos que hemos registrados no cambian.
Cluster: Conjunto de datos “iris”. Conjunto de datos de 4 medidas conjunto de estadística
R.
Twitter: Manguera de incendios de twitter, procesa 500 millones de tuits al días.
Transmision de datos de un sensor. Afluencia constante(transmisión de datos), el conjunto
de datos es un objetivo móvil.
Variedad: No tenemos los datos de manera ordenada. Estructurados y no estructurados.
El 80% de las empresas tiene los datos no estructurados.
NoSQL: No solo datos SQL, como graficos de estructuras.
Estudio: la variedad es el factor mas potente.

Como se utiliza.
Para consumidores:
Tenemos procesamiento lso resultados son tan puro que solo nos demuestra una parte de
la aplicación/resultados, que es prácticamente la que necesitamos.
Siri: puede llevar a cabo recomendaciones según lo que han dicho los otros usuarios.
Yelp: extrae millones de reservas de otros usuarios.
Spotify: Sugerencias.
Amazon: recomendaciones de libros
Netflix: Si alguien podría mejorar las sugerencias podría ganarse 1M.
Neighborland: Utiliza fotos API de twittwr, Google e instragram. Utilzia sistemas de
transitos y quejas en 311. (Este muestra la variedad de datos que es capaz de integrar a
partir de fuentes y formatos diferentes)
Google now: recomendaciones antes que se las pida, como calendario y trafico. Te
proporciona de manera anticipada la información.
Opera de manera invicible, y con gran cantidad de fuentes e información y la sintetiza en 2
o 3 elementos que son los que necesita

Big data para la empresa:


Ventas resultados de anuncios de Google, lo que obitienes publicidad.
Con tu sesión inciada, extrae todo lo que e buscado, l oobtiene información suficiente
disponible para personalziar la información de manera que sea pertinente para el
consumidor

Marketing predictivo:
Ayudar a decisidir quien prodia ser el publico destinatario de un producto incluso antes de
que sepa que lo necesite.
Predice hitos importantes: graduarse, casarse, trabajo nuevo, etc.
Se fija en el comportamiento del consumidor: Analiza cuantas veces a iniciado sesión en la
pagina
Utiliza información demográfica: distancia que vive a su tienda, tarjeta, paginas que
visitas. A que revistas a suscritos, si has ido a la universidad, etc.
Pueden comprar mas datos.

Prediccion de tendencias: Moda


EDITD, revela que colores estilos y marcas serán tendencias y cuando serán populares.

Deteccion de fraudes.
Punto de venta: como lleva a cabo la compra, que pagina web utilizas, geolocalicacion, en
eque lugar del mundo
Geolocalizacion y dirección IP
Inicio de sesión
Biometría

La investigación:

Google flutrends:
Se podían identificar brotes de gripes por las búsquedas, o en Wikipedia los hace con
mayor precisión.
The Brain Initiative
Telescopio Kepler: ubicar exoplanetas.
Investigacion psicológicas, tipos de personalidad en USA según las regiones.
Google books: analiza algunas palabras que hay en los libros.
El big data y la ciencia de datos.

Diferencia entre lso macrodatos y lso datos a menor escala.


Diferencia:
- Metas
- Loccalizacion: se guardan en una única ubicación. B. varios archivos y varios
servidores.
- Estructura de los datos: 1. Muy estructurados. 2. No estructurados, muchos
formatos y vinculados a otros recursos
- Preparacion: lo suele preparar el usuario final. 3. Los prepara un grupo de persona,
los analiza un 2do grupo y un 3er grupo los utiliza.
- Longevidad: 1. 2.Costo elevado, los datos se siguen utilziando y se añaden mas
conjuntos de datos, variables adicionales o se vincula con archivos distintos.
- Mediciones: 1. Se suelen medir un único protocolo. 2. Personal en diferentes
países y hay que realizar conversión.
- Reproducibildiad: 1. Si en el conjunto algo sale mal, se pueden reproducir en su
totalidad. 2. Puede que no sea posible empezar denuevo si es que fallo, ver que
partes son rpoblematicas
- Intereses: 1. Los costos son limitados. 2. Millones de dólares, perderlos o dañarlos
puede condenar el proyecto/organización.
- Introspeccion. 1. Ideal un triple. 3 datos. 2.No esta claros los datos, es posible que
hay información sin sentido o inocalizable.
- Analisis: 1. Normalmente es posible analizar desde 1 solo fichero/archivo. 2.
Magnitud es enrome, hay que recurrir a la extracción, revisión, reducion,
normalización, y transformación.

Las tres facetas de la ciencia de datos:

Para hacer ciencia de datos hay que


tener estas 3 habildiades.

1. Estadísticas:
Pueden ser contrario a la
intuición, pueden ser errores
como la paradoja de
cumpleaños. Los científicos de
datos buscan coincidencias y
asociaciones. Capaz de
determinar esas probabilidades.
2. Conocimientos de campo
Hadoop es mas fácil que aprender el negocio de una empresa.
3. Habilidad de programar.
Con saber algo de programación en Python es mucho. Capacidad de conbinar datos.
Pensamiento algorítmico, o racional paso a paso.

1-2 Investigacion tradicional:


Utilziacion herramientas comunes, extremadamente productivo. Analisis minimamente
suficiente.
1-3 Aprendizaje automatico: Machine learning
Algoritmo o programa evoluciona para ejecutar una tarea analítica especifica, ej: Spam
Si es spam, se va actualizando con cada información que recibe. Si solo buscas predicción,
puede ser efectivo.
3-2 Zona de peligro: por que se supone que tiene suficiente conocimiento que pude ser
peligroso. Categoria poco poblada.

Recuento de palabras, contar la frecuencia que ocurren las cosas.

Categorias y habilidades de la ciencia de datos:

“Analyzing the analyzers” Libro – gratis amazon.

Habilidades:
La ciencia de datos sin el big data:

También podría gustarte