Está en la página 1de 23

UNIVERSIDAD NACIONAL

AGRARIA LA MOLINA

FACULTAD DE ECONOMÍA Y
PLANIFICACIÓN

Big data
PROFESOR : Mg Sc Jaime Porras Cerrón

CURSO : Tópicos en Estadística

ALUMNOS : ARENAS CARDOZA VICTOR ROLANDO

GILVONIO CONDOR VIKY ROSARIO MOROTE

DE LA CRUZ ALVARO

RAMOS GOMEZ ROLY VIDAL

VERA ARRESE VICTOR DANIEL

FEBRERO- 2015
Cuarta Práctica Calificada de Tópicos en Estadística e Informática
Big Data

1.-Conceptos:

1.1.- ¿Qué es el Big Data?

El concepto de Big Data aplica para toda aquella información que no puede ser
procesada o analizada utilizando procesos o herramientas tradicionales. Sin embargo,
Big Data no se refiere a alguna cantidad en específico, es usualmente utilizado cuando
se habla en términos de petabytes y exabytes de datos.
La tendencia en el avance de la tecnología ha abierto las puertas hacia un nuevo
enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir
enormes cantidades de datos (estructurados, no estructurados y semi estructurados)
que tomaría demasiado tiempo y sería muy costoso cargarlos a un base de datos.

Esta acumulación masiva de datos la podemos encontrar en diversas industrias, las


compañías mantienen grandes cantidades de datos transaccionales, reuniendo
información acerca de sus clientes, proveedores, operaciones, etc…, de la misma
manera sucede con el sector público. En muchos países se administran enormes bases
de datos que contienen datos de censo de población, registros médicos, impuestos,
etc…, y si a todo esto le añadimos transacciones financieras realizadas en línea o por
dispositivos móviles, análisis de redes sociales, ubicación geográfica mediante
coordenadas GPS, etc…

Proyecciones según CISCO:

De acuerdo con un estudio realizado por Cisco[1], entre el 2011 y el 2016 la cantidad de
tráfico de datos móviles crecerá a una tasa anual de 78%, así como el número de
dispositivos móviles conectados a Internet excederá el número de habitantes en el
planeta. Las naciones unidas proyectan que la población mundial alcanzará los 7.5
billones para el 2016 de tal modo que habrá cerca de 18.9 billones de dispositivos
conectados a la red a escala mundial, esto conllevaría a que el tráfico global de datos
móviles alcance 10.8 Exabytes mensuales o 130 Exabytes anuales. Este volumen de
tráfico previsto para 2016 equivale a 33 billones de DVDs anuales o 813 cuatrillones de
mensajes de texto.
1.2.- ¿Qué es el Hadoop?

Como todas esas montañas de información han generado un costo potencial al no


descubrir el gran valor asociado, se ha creado una plataforma de código abierto llamado
Hadoop, para analizar enormes cantidades de información.

Hadoop está inspirado en el proyecto de Google File System(GFS) y en el paradigma de


programación MapReduce, el cual consiste en dividir en dos tareas (mapper – reducer)
para manipular los datos distribuidos a nodos de un clúster logrando un alto paralelismo
en el procesamiento.

Hadoop está compuesto de tres piezas:

 Hadoop Distributed File System (HDFS):

Los datos en el clúster de Hadoop son divididos en pequeñas piezas


llamadas bloques y distribuidas a través del clúster; de esta manera, las
funciones map y reduce pueden ser ejecutadas en pequeños subconjuntos y esto
provee de la escalabilidad necesaria para el procesamiento de grandes volúmenes.

Hadoop MapReduce 

MapReduce es el núcleo de Hadoop. El término MapReduce en realidad se refiere a


dos procesos separados que Hadoop ejecuta. El primer proceso map, el cual toma
un conjunto de datos y lo convierte en otro conjunto, donde los elementos
individuales son separados en tuplas(pares de llave/valor). El proceso reduce obtiene
la salida de map como datos de entrada y combina las tuplas en un conjunto más
pequeño de las mismas.

Hadoop Common.

Hadoop Common Components son un conjunto de librerías que soportan varios


subproyectos de Hadoop.

Características de esta plataforma:


a) Funcionalidad: Sin asomo de duda, Hadoop es actualmente la herramienta de Big
Data o análisis de datos que proporciona mayor funcionalidad. Muchas de las
herramientas alternativas solo cumplen una de las dos funcionalidades principales
que Hadoop ofrece. El resto de herramientas, a pesar de cubrir las dos
posibilidades, no presentan el mismo nivel de desarrollo y se encuentran en
versiones iniciales.

b) Escalabilidad: Hadoop es una plataforma de almacenamiento de datos con una


alta escalabilidad porque es capaz de guardar y distribuir grandes conjuntos de
datos entre cientos de computadores convencionales que operan en paralelo al
contrario que las bases de datos tradicionales. Además es muy sencillo aumentar la
capacidad del sistema, tan solo hace falta añadir más computadores al clúster para
tener mayor capacidad de procesamiento. Esto nos permite ejecutar aplicaciones en
cientos de nodos que involucran cientos de terabytes de datos.

c)Solución gratuita: Al contrario que algunas herramientas para el análisis de datos


(como SAS o SPSS), Hadoop es gratuito. Asimismo la construcción de un clúster
Hadoop se realiza con computadoras convencionales de poco precio, por tanto, se
trata de una solución rentable.

d)Flexibilidad: Hadoop permite fácil acceso a nuevas fuentes de datos así como
aprovechar tanto archivos estructurados como desestructurados. Esto lo hace
idóneo para análisis de archivos procedentes de redes sociales. Además al tratarse
de una plataforma libre existe una gran comunidad de desarrolladores que permite a
Hadoop mantenerse actualizado para analizar nuevas fuentes de datos.

e)Creciente desarrollo: Hadoop es una plataforma libre lo que permite que cualquier
persona pueda colaborar en su desarrollo. Aparte de la comunidad de
desarrolladores existen numerosas empresas privadas dedicadas al desarrollo de
Hadoop, entre las que destacan Hortonworks y Cloudera. Esto asegura que Hadoop
se mantenga en constante evolución y garantiza su uso en los próximos años.
2.-Instalación:

Instalación y configuración de Hadoop en entorno Linux

Como software de virtualización se ha elegido de nuevo VirtualBox y para el SO ubuntu-


12.04.4. Hadoop, como se ha comentado en la memoria, es una herramienta de código
libre y fue creada en un principio unicamente para ser utilizada en un SO Linux.
Actualmente, existe la posibilidad de instalar algunas versiones de Hadoop en otros SO
como OS X. Sin embargo, aún sigue siendo Linux la mejor opción para utilizar Hadoop. En
este apartado se va a realizar una instalación en modo pseudo-distribuido de Hadoop.
Todo el proceso se realizará paso a paso para que cualquier usuario pueda instalar
Hadoop sin problemas. Para poder instalar Hadoop es recomendable cumplir con los
siguientes requisitos técnicos:

a) Memoria RAM: 4GB como mínimo aunque este apartado se ha realizado con un PC con
8GB (que es lo recomendable).

b) Procesadores: 2 como mínimo es lo recomendable.

c) Espacio disco duro: Es conveniente reservar unos 30GB de disco duro para Hadoop
aunque depende del uso que se le dé podría ser necesario más.

Conexión de r y hadoop

Tres formas de vincular R y Hadoop son los siguientes :

• RHIPE
• RHadoop
• Hadoop streaming

Introducción a RHIPE
RHIPE se entiende como Entorno de Programación Integrada de R y Hadoop

El paquete RHIPE utiliza la técnica de Dividir y Recombinar, para realizar análisis de datos
sobre Big Data . En esta técnica , los datos se divide en subconjuntos , el cálculo se realiza
sobre los subconjuntos de operaciones específicas de análisis de R, y la salida se
combina . RHIPE principalmente ha sido diseñado para lograr dos objetivos que son como
sigue:
• Lo que le permite realizar un análisis en profundidad de los grandes, así como de los
pequeños datos.
• Permite a los usuarios realizar las operaciones de análisis dentro de R utilizando un
lenguaje de nivel inferior. RHIPE está diseñado con varias funciones que ayudan a realizar
un Sistema de Distribución de Carpetas de Hadoop (HDFS), así como las operaciones de
MapReduce utilizando una consola de R simple.

INSTALANDO RHIPE
Como RHIPE es un conector de R y Hadoop , necesitamos Hadoop y R instalado en
nuestra
máquina en la siguiente secuencia :

1.- Instalar Hadoop


2.- Instalar R
3.- Instalar buffers de protocolo
4.- Configurar las variables de entorno
5.- Instalar rJava
6.- Instalar RHIPE

1) Instalando Hadoop
Como estamos aquí para integrar R y Hadoop con la biblioteca paquete RHIPE ,
necesitamos instalar Hadoop en nuestra máquina . Será arbitraria, o bien ser una
instalación de solo un nodo o de varios nodos dependiendo del tamaño de los datos a
analizar.

2) Instalando R
Si utilizamos una arquitectura Hadoop multinodo , hay una serie de nodos TaskTracker
para ejecutar el trabajo MapReduce . Por lo tanto, necesitamos instalar R sobre todos estos
nodos TaskTracker. Estos nodos TaskTracker comenzarán proceso largo de los
subconjuntos de datos con mapa desarrollada y reducir la lógica con la consideración de
los valores fundamentales .

3) Instalando buffers de protocolo


Los Buffers de Protocolo sólo serializan los datos para hacer una plataforma independiente,
neutral , y robusta ( es utilizado principalmente para datos estructurados ) . Google utiliza el
mismo protocolo para el intercambio de datos. RHIPE depende de buffers de protocolo
2.4.1 para la serialización de datos por la red.

Esto se puede instalar con el siguiente comando :

## Para descargar el búfer de protocolo 2.4.1


wget http://protobuf.googlecode.com/files/protobuf-2.4.1.tar.gz

## Para extraer el buffer de protocolo


tar -xzf protobuf-2.4.1.tar.gz
## Para entrar en el directorio búfer protocolo extraído
cd protobuf-2.4.1

## Para hacer instalar el buffer de protocolo


./configure # --prefix=...
make
make install

4) Variables de Entorno
Para que RHIPE pueda compilar y funcionar correctamente, es mejor asegurarse de que
las siguientes variables de entorno están establecidas apropiadamente:
Para configurar las bibliotecas de Hadoop , tenemos que establecer dos variables,
PKG_CONFIG_
PATH y LD_LIBRARY_PATH, para el ~./bashrc carpeta de hduser (usuario Hadoop) para
que de forma automática se puede establecer cuando el usuario se conecta al sistema.
Aquí, PKG_CONFIG_PATH es una variable de entorno que contiene la ruta de la pkg-
config script para la recuperación de información acerca de las bibliotecas instaladas en el
sistema , y LD_LIBRARY_PATH es una variable de entorno que contiene la ruta de
bibliotecas compartidas nativas.

export PKG_CONFIG_PATH = /usr/local/lib


export LD_LIBRARY_PATH = /usr/local/lib

También puede configurar todas estas variables de la consola R, de la siguiente manera:

Sys.setenv(HADOOP_HOME="/usr/local/hadoop/")
Sys.setenv(HADOOP_BIN="/usr/local/hadoop/bin")
Sys.setenv(HADOOP_CONF_DIR="/usr/local/hadoop/conf")

Cuando HADOOP_HOME se utiliza para especificar la ubicación del directorio de Hadoop,


HADOOP_BIN se utiliza para especificar la ubicación de los archivos binarios de Hadoop ,
y HADOOP_CONF_DIR se utiliza para especificar los archivos de configuración de Hadoop
.

La configuración de las variables es temporal y válido hasta una sesión de R particular. Si


queremos hacer de esta variable permanente, ya que inicializa automáticamente cuando la
sesión R inicializa , tenemos que establecer estas variables a la /etc/R/Renviron presentar
como establecemos la variable de entorno en .bashrc de un perfil de usuario específico

5) Instalando el paquete rJava.


RHIPE es un paquete Java , actúa como un puente de Java entre R y Hadoop. RHIPE
serializa los datos de entrada a un tipo Java, que tiene que ser serializado sobre el clúster.
Se necesita una interfaz de bajo nivel para Java, que es proporcionada por rJava . Por lo
tanto, vamos a instalar rJava para permitir el funcionamiento de RHIPE.

## Para instalar el paquete rJava se utilizara el llamado de la librería Java de R

install.packages("rJava")

6) Instalando RHIPE
Ahora , es el momento de instalar el paquete de RHIPE desde su repositorio.
## Descargando el paquete RHIPE del repositorio RHIPE
Wget http://ml.stat.purdue.edu/rhipebin/Rhipe_0.73.1-2.tar.gz

## Instalando el paquete RHIPE in R via commandos CMD


R CMD INSTALL Rhipe_0.73.1.tar.gz

Ahora , estamos listos con un sistema de RHIPE para la realización de análisis de datos
con R y Hadoop
Principales comandos Hadoop:

Existen gamas de comandos dependiendo del componente de Hadoop del cual


necesitamos consultar información o manipular sus características. Los principales
comandos son aquellos que interactúan con el HDFS. A continuación, se presentan
algunos:
 mkdir: Crea un directorio en la ruta especificada.

hadoop fs -mkdir <paths>


 ls: muestra una lista de los archivos que hay en una ruta.

hadoop fs -ls <args>


 touchz: crea un archivo en la ruta especificada.

hadoop fs -touchz <path[filename]>


 cat: muestra el contenido de archivos de texto.

hadoop fs -cat <path[filename]>


 cp: copia archivos desde una fuente a un destino.

hadoop fs -cp <source> <dest>


 put: copia un archivo desde el sistema de archivos local al HDFS.

hadoop fs -put <source:localFile> <destination>


 get: copia un archivo desde el HDFS al sistema de archivos local.

hadoop fs -get <source> <dest:localFileSystem>


 mv: mueve un archivo desde una fuente a un destino.

hadoop fs -mv <src> <dest>


 rm: elimina el archivo especificado como argumento.

hadoop fs -rm <arg>


 text: elimina toma un archivo de entrada y retorna el archivo en formato de texto.

hadoop fs -text <src>


 expung: vacía la papelera.

hadoop fs –expunge

 getmerge: toma un directorio de entrada y un archivo y concatena los archivos en el


archivo local de destino.

hadoop fs -getmerge <src> <localdst> [addnl]

 jar: Ejecuta un programa contenido en un archivo jar.

hadoop jar <jar> [mainClass] <src> <localdst>


3.- Descripción de una big data:
Esta data contiene la información de reclamaciones de Medicare Carrier. La Línea Carrier
CMS BSA Artículos PUF es un archivo en línea en la que cada registro es una partida de
un reclamo Carrier efectuados por una muestra de 5 por ciento de los beneficiarios de
Medicare.

Algunas variables de elementos relacionados con la demografía y la línea se proporcionan


en este PUF como se detalla a continuación. Sin embargo, como no se proporcionan
identidades beneficiarios, no es posible vincular las afirmaciones de que pertenecen a un
mismo beneficiario en los elementos de línea Carrier CMS BSA PUF. Tampoco es posible
vincular partidas que pertenecen a la misma reclamación.

Variables:

BENE_SEX_IDENT_CD
Sexo del beneficiario:

Variable Value Formatted Value Frequency Frequency (%)


1 Male 29,066,890 41.493
2 Female 40,985,503 58.507

BENE_AGE_CAT_CD

Esta variable categórica se basa en la edad del beneficiario al final del año de referencia (2010).
En caso de fallecimiento del beneficiario durante el año de referencia, se utiliza la edad en la
fecha del fallecimiento.

Variable Value Formatted Value Frequency Frequency (%)


1 Under 65 11,414,343 16.294
2 65 ‐ 69 12,130,165 17.316
3 70 ‐ 74 12,885,504 18.394
4 75 ‐ 79 11,786,740 16.826
5 80 ‐ 84 10,546,272 15.055
6 85 and older 1,289,369 16.116

CAR_LINE_ICD9_DGNS_CD
Indica el diagnóstico del paciente, en relación con cada partida. Se ha creado usando los
códigos de diagnóstico de línea ICD-9 CM al ingreso (LINE_ICD9_DGNS_CD_1 ‐
LINE_ICD9_DGNS_CD_13).
CMS 2010 BSA Carrier Line Items PUF Data Dictionary and Codebook Page 1
Las frecuencias por intervalos de códigos CIE-9 diagnóstico de 3 dígitos se proporcionan a
continuación.

Variable Value Frequency


(1)
Formatted Value Frequency
Range (%)
001 ‐ 139 Infectious and parasitic diseases 958,466 1.368
140 ‐ 239 Neoplasms 4,542,224 6.485
Endocrine, nutritional and metabolic diseases,
240 ‐ 279 8,191,643 11.696
and immunity disorders
Diseases of the blood and blood‐forming
280 ‐ 289 2,414,833 3.448
organs
290 ‐ 319 Mental disorders 1,824,392 2.605
320 ‐ 359 Diseases of the nervous system 995,790 1.422
360 ‐ 389 Diseases of the sense organs 3,417,158 4.879
390 ‐ 459 Diseases of the circulatory system 10,297,161 14.702
460 ‐ 519 Diseases of the respiratory system 3,320,210 4.741
520 ‐ 579 Diseases of the digestive system 1,668,741 2.383
580 ‐ 629 Diseases of the genitourinary system 4,127,953 5.894
Complications of pregnancy, childbirth, and the
630 ‐ 679 9,944 0.014
puerperium
680 ‐ 709 Diseases of the skin and subcutaneous tissue 2,107,260 3.009
Diseases of the musculoskeletal system and
710 ‐ 739 9,746,659 13.916
connective tissue
740 ‐ 759 Congenital anomalies 49,840 0.071
Certain conditions originating in the perinatal
760 ‐ 779 470 0.001
period
780 ‐ 799 Symptoms, signs, and ill‐defined conditions 8,740,211 12.479
800 ‐ 999 Injury and poisoning 1,895,256 2.706
E codes External causes of injury and poisoning 5,054 0.007
Factors influencing health status and contact
V codes 5,725,622 8.175
with health services

Los diez más frecuentes de 3 dígitos de la CIE-9 códigos de diagnóstico y sus frecuencias se
proporcionan a continuación.

Variable Value Formatted Value Frequency Frequency (%)


250 Diabetes mellitus 3,588,238 5.122
401 Essential hypertension 3,305,221 4.718
272 Disorders of lipoid metabolism 2,478,634 3.538
Symptoms involving respiratory system
786 2,402,854 3.430
and other chest symptoms
Encounter for other and unspecified
1,942,870 2.773
V58 procedures and aftercare
427 Cardiac dysrhythmias 1,939,427 2.769
780 General symptoms 1,875,340 2.677
724 Other and unspecified disorders of back 1,651,152 2.357
719 Other and unspecified disorders of joint 1,643,469 2.346
Need for prophylactic vaccination and
V04 1,392,961 1.988
inoculation against certain viral diseases
‐ All other values 47,832,612 68.281

Note: Percentages may not add up to 100% due to rounding.

CAR_LINE_HCPCS_CD
El archivo de las reclamaciones de transporte utiliza una codificación de códigos (HCPCS)
Sistema procedimiento común Salud para identificar artículos y servicios. HCPCS se divide en
dos subsistemas: (1) Nivel I HCPCS códigos se Terminología códigos procesales actuales
numéricos (CPT) que identifican los servicios y procedimientos proporcionados por médicos y
(2) Nivel HCPCS médicos códigos II son códigos alfanuméricos que identifican los productos,
suministros , y los servicios no incluidos en los códigos CPT (como medicamentos y equipos
médicos biológico o duradero). Hay 4,736 códigos HCPCS únicas en el PUF. Los diez códigos
HCPCS más frecuentes se enumeran a continuación.

La mayoría de los códigos HCPCS en el PUF son códigos HCPCS Nivel I. Los diez códigos HCPCS
más frecuentes y sus frecuencias se proporcionan a continuación.

Variable Value Frequency Frequency (%)


99213 5,022,606 7.170
99214 3,909,359 5.581
36415 3,210,853 4.584

CMS 2010 BSA Carrier Line Items PUF Data Dictionary and Codebook Page 3
Variable Value Frequency Frequency (%)
99232 2,276,548 3.250
85025 1,582,429 2.259
80053 1,348,306 1.925
85610 1,088,579 1.554
97110 1,069,867 1.527
80061 1,042,930 1.489
99233 1,004,875 1.434
All other values 48,496,041 69.228

Note: Percentages may not add up to 100% due to rounding.

CAR_LINE BETOS_CD
CAR_LINE_BETOS_CD ofrece código de la línea de base a un acuerdo general sobre
agrupaciones clínicamente significativas de los procedimientos y servicios. Este campo se incluye
como una partida en la reclamación no institucional.

Los diez códigos Betos más frecuentes y sus frecuencias se proporcionan a continuación.

Variable Frequency
Formatted Value Frequency
Value (%)
M1B Office visits ‐ established 10,928,182 15.600
T1H Lab tests ‐ other (non‐Medicare fee schedule) 10,112,179 14.435
M2B Hospital visit ‐ subsequent 4,326,742 6.176
P6C Minor procedures ‐ other (Medicare fee schedule) 4,095,611 5.846
Lab tests ‐ routine venipuncture (non Medicare fee
T1A 3,210,853 4.584
schedule)
T1B Lab tests ‐ automated general profiles 1,990,740 2.842
I1A Standard imaging ‐ chest 1,988,898 2.839
M5C Specialist ‐ opthamology 1,955,902 2.792
T1D Lab tests ‐ blood counts 1,917,793 2.738
T2A Other tests ‐ electrocardiograms 1,613,246 2.303
‐ All other values 27,912,247 39.845

CMS 2010 BSA Carrier Line Items PUF Data Dictionary and Codebook Page 4
CAR_LINE_PRVDR_TYPE_CD
Identifica el tipo de proveedor de amueblar el servicio para la línea.

Variable Frequency
(1) Formatted Value Frequency
Value (%)
Clinics, groups, associations, partnerships, or
0 3,314,665 4.732
other entities
Physicians or suppliers reporting as solo
1 51,133,927 72.994
practitioners
3 Institutional provider 1,438,396 2.053
5 Clinics (multiple specialties) 12,817,445 18.297
7 Other entities 770,684 1.100
Other entities for whom EI numbers are used in
8 coding the ID field or proprietorship for whom EI 577,276 0.824
numbers are used in coding the ID field.

Note: Percentages may not add up to 100% due to rounding.


(1) Values of 2 (suppliers (other than sole proprietorship)), 4 (independent laboratories), and 6 (groups (single
specialty)) do not appear in the PUF.

CAR_LINE_SRVC_CNT
Proporciona el recuento del número total de servicios elaborados para la línea (procedimiento
HCPCS) en la afirmación de portadora.

Frequency
Variable Range Value Frequency
(%)
0‐99 69,965,361 99.876
100‐199 49,240 0.070
200‐299 18,667 0.027
300‐399 9,634 0.014
400‐499 2,428 0.003
500‐999 7,063 0.010

Note: Percentages may not add up to 100% due to rounding.

CMS 2010 BSA Carrier Line Items PUF Data Dictionary and Codebook Page 5
CAR_LINE_CMS_TYPE_SRVC_CD
Indica el tipo de servicio para la partida individual.

Variable Frequency
Formatted Value Frequency
Value (%)
1 Medical care 29,349,853 41.897
5 Diagnostic laboratory 23,552,501 33.621
4 Diagnostic radiology 6,252,578 8.926
2 Surgery 4,390,395 6.267
V Pneumococcal/flu vaccine 1,544,228 2.204
D Ambulance 1,387,418 1.981
T Outpatient mental health limitation 1,004,921 1.435
Q Vision items or services 973,245 1.389
7 Anesthesia 544,533 0.777
6 Therapeutic radiology 457,410 0.653
Ambulatory surgical center (facility usage for
F 336,193 0.480
surgical services)
K Hearing items and services 109,815 0.157
8 Assistant at surgery 53,968 0.077
9 Other medical items or services 47,428 0.068
3 Consultation 24,178 0.035
P Lump sum purchase of DME, prosthetics, orthotics 14,004 0.020
S Surgical dressings or other medical supplies 8,889 0.013
G Immunosuppressive drugs 704 0.001
N Kidney donor 115 0.000
0 Whole blood only 17 0.000

Note: Percentages may not add up to 100% due to rounding.

CAR_LINE_PLACE_OF_SRVC_CD
Indica el lugar de servicio para la línea.

Frequency
Variable Value Formatted Value Frequency
(%)
0 Invalid Place of Service Code 227,695 0.325
1 Office (pre 1992) 440 0.001

CMS 2010 BSA Carrier Line Items PUF Data Dictionary and Codebook Page 6
Frequency
Variable Value Formatted Value Frequency
(%)
11 Office 36,447,964 52.030
12 Home 382,872 0.547
21 Inpatient hospital 8,744,876 12.483
22 Outpatient hospital 4,719,012 6.736
23 Emergency room ‐ hospital 2,198,519 3.138
24 Ambulatory surgical center 778,732 1.112
31 Skilled nursing facility 874,162 1.248
32 Nursing facility 1,192,588 1.702
33 Custodial care facility 75,964 0.108
34 Hospice 54 0.000
41 Ambulance ‐ land 1,385,188 1.977
42 Ambulance ‐ air or water 2,230 0.003
50 Federally qualified health centers 1,905 0.003
51 Inpatient psychiatric facility 87,550 0.125
52 Psychiatric facility partial hospitalization 11,949 0.017
53 Community mental health center 83,032 0.119
54 Intermediate care facility/mentally retarded 5,260 0.008
56 Psychiatric residential treatment center 287 0.000
60 Mass immunizations center 598,183 0.854
61 Comprehensive inpatient rehabilitation facility 65,507 0.094
65 End stage renal disease treatment facility 147,095 0.210
71 State or local public health clinic 24,129 0.034
72 Rural health clinic 3,158 0.005
81 Independent laboratory 11,988,407 17.113
99 Other unlisted facility 5,632 0.008

Note: Percentages may not add up to 100% due to rounding.

CMS 2010 BSA Carrier Line Items PUF Data Dictionary and Codebook Page 7
CAR_HCPCS_PMT_AMT
Esta variable contiene el pago efectuado por Medicare para la partida individual. Los
valores se proporcionan después de redondear a la unidad más cercana.

(1)
Variable Value ($) Frequency Frequency (%)
0 3,740,839 5.340
5 10,180,597 14.533
10 8,243,055 11.767
15 4,826,334 6.890
20 4,033,333 5.758
25 4,113,912 5.873
30 2,992,285 4.271
35 2,071,517 2.957
40 1,645,300 2.349
45 1,552,873 2.217
50 3,631,005 5.183
55 4,133,528 5.901
60 2,482,050 3.543
65 867,351 1.238
70 750,955 1.072
75 1,650,048 2.355
80 2,349,125 3.353
85 1,217,237 1.738
90 990,718 1.414
95 494,631 0.706
100 1,485,973 2.121
125 1,412,416 2.016
150 1,514,673 2.162
175 1,058,256 1.511
200 479,586 0.685
225 287,961 0.411
250 206,883 0.295
275 182,895 0.261
300 208,774 0.298
325 216,074 0.308
350 107,815 0.154
375 82,705 0.118
(1)
Variable Value ($) Frequency Frequency (%)
400 66,513 0.095
425 48,731 0.070
450 46,480 0.066
475 31,205 0.045
500 99,889 0.143
600 114,151 0.163
700 108,577 0.155
800 73,024 0.104
900 42,664 0.061
1000 107,816 0.154
2000 74,646 0.107
3000 15,478 0.022
4000 9,326 0.013
5000 2,277 0.003
6000 387 0.001
7000 242 0.000
8000 9 0.000
9000 4 0.000
10000 65 0.000
11000 17 0.000
12000 1 0.000
13000 38 0.000
14000 8 0.000
15000 3 0.000
16000 13 0.000
17000 19 0.000
18000 1 0.000
19000 3 0.000
20000 4 0.000
21000 9 0.000
22000 9 0.000
23000 6 0.000
24000 4 0.000
25000 5 0.000
26000 17 0.000
(1)
Variable Value ($) Frequency Frequency (%)

27000 2 0.000

29000 3 0.000

31000 6 0.000

32000 1 0.000

33000 6 0.000

35000 4 0.000

36000 1 0.000

37000 3 0.000

39000 2 0.000

41000 3 0.000

42000 3 0.000

43000 7 0.000

44000 7 0.000

Página de la data:

http://www.cms.gov/Research-Statistics-Data-and-Systems/Statistics-Trends-and-
Reports/BSAPUFS/Carrier_Line_Items.html
CMS 2010 BSA Carrier Line Items PUF Data Dictionary and Codebook Page 10

4.- Ejemplo de aplicación de Big Data:


Hacia la psicohistoria: Descubrir los patrones de la historia del mundo
con Google BigQuery (Publicado el 13 de agosto del 2014)

En junio del 2014 se dio a conocer en Google BigQuery un proyecto para el


acceso a la totalidad de un cuarto de billón de registro de base de datos
GDELT Evento, que monitorea información web de todo el mundo de más de
100 idiomas y utiliza algoritmos informáticos sofisticados para codificar lo que
esta pasando en todo el mundo. En esencia GDELT construye un catalogo
computable continuamente actualizada de día de la sociedad humana por día
compilado a partir de los medios de comunicación del mundo.

Uno de los aspectos más emocionantes de tener GDELT en BigQuery es que


además de consultas en tiempo real y el resumen de un registro de cuartos de
millones de dólares, de BigQuery calcula la correlación y de esta manera ofrece
la tentadora posibilidad de utilizar GDLET para buscar los patrones
subyacentes básicos de la sociedad humana global. En pocas palabras se
podría pronosticar lo que sucederá después de Egipto mediante la búsqueda
en toda la historia del mundo durante periodos de tiempo similares a los
conflictos ocurridos en aquel país africano en el año 2011. En esencia mirando
a periodos anteriores similares en el pasado se desea estimar el futuro.

Precisamente el 27 de enero del 2011 Egipto se vio afectada por protestas


contra el gobierno y que esta tratando de averiguar lo que podría suceder a
continuación. El algoritmo seria empezar por crear una línea de tiempo de la
intensidad de los disturbios en Egipto por día durante los dos meses anteriores
(28 de noviembre de 2010 hasta el 27 de enero del 2011). Sería entonces
buscar el historial completo desde 1979 presente de todos los países del
mundo en una ventana deslizante de 60 días y compararlo con los dos últimos
meses utilizando una correlación adecuada. Por ejemplo comenzando con
Afganistán que seria una línea de tiempo de disturbios del 1 de enero de 1972 -
2 de marzo de 1979 y comparar contra Egipto 28 de noviembre 2010 hasta 27
de enero 2011. Entonces seria comparar Afganistán 2 de enero 1973 a 3 de
marzo 1973 contra Egipto de nuevo y así sucesivamente en una ventana de
rodar en los últimos 35 años de la historia de Afganistán capturados por
GDELT luego repetir el proceso para todas los demás países y de esta manera
identificar los periodos anteriores en la historia del mundo que son mas
similares a los dos últimos meses de Egipto. Finalmente se necesitarían los
mejores de varios históricos más similares de lo que sucedió en los dos mese
siguientes a cada uno de ellos en el pasado y ofrecer esto como una posible
previsión de lo que pueda suceder en Egipto en los próximos meses.

Por su parte el supuesto básico es que se asume que la historia del mundo se
repite en un conjunto finito de patrones temporales. Es por ello que GDELT que
almacena 300 categorías de eventos de todos los países ofrece la posibilidad
de probar esta hipótesis.

Para utilizar este recurso comience abriendo BigQuery para GDELT. A


continuación crear una vista sobre la base de datos completa que resume el
volumen total de la cobertura de noticias de las actividades de “Materiales de
Conflictos” en cada país durante el día y el nombre que se encuentra
codificado. En tan solo una consulta se pide a BigQuery mirar el volumen de la
cobertura de noticias por día de los acontecimientos de conflicto en Egipto en el
tiempo de interés. Para ello se utiliza la ventana de 60 días y correlación de
Pearson para compararlo con cada periodo de 60 días en los últimos 35 años
de todos los países del mundo para finalmente devolver todos los periodos de
la historia del mundo que son estadísticamente similares.

Alrededor de 2,5 minutos se debe ver una lista de todos los periodos de la
historia que son más similares a los de Egipto dos meses antes de su
revolución. Esto equivale a calcular cerca de 1 millón de correlaciones por
minuto. En total BigQuery encontró 23 461 periodos de la historia del mundo
que tienen ya sea una correlación estadísticamente significativa positiva o
negativa con lo sucedido en Egipto. Los periodos mas altamente
correlacionados son Alemania 07/08/2009 a 09/06/2009 (r=0.86) y Suecia
10/04/2010 a 12/03/2010 (r=0.82). En la grafica se muestra a ambos países en
verde contra Egipto que esta en rojo, con el eje X que es en el periodo dado.

Como se puede apreciar existe una situación similar en los periodos


correspondientes. Para probar la hipótesis de que mirar al pasado podría
ofrecer predicciones sobre el futuro de hoy el grafico se divide en dos mitades
por una línea de negro y espeso. A la izquierda de la línea es el periodo de
tiempo de 60 días que en realidad se utilizó para la correlación (esta es la única
parte que BigQuery procesa). Ala derecha es lo que sucedió en los 60 días
siguientes a ese periodo para Alemania y Suecia en comparación con lo que
ocurrió en Egipto. Las líneas de tiempo son similares a Egipto (r=0.32 para
Alemania y r=0.36 para Suecia).
Aunque es poco probable construir un verdadero sistema de predicción de
riesgo político en un enfoque de manera sencilla si sugiere que la historia del
mundo al menos según nos informan los medios de comunicación es altamente
cíclico y previsible. Ahora bien aún falta detallar si es que esos patrones se
mantienen para cada país o durante cierto periodo. Asimismo falta averiguar si
esto funciona mejor justo antes de un conflicto o solo en sus primeros días. O
quizás demuestra el poder sin precedentes que tiene el periodismo sobre
nuestra comprensión de los acontecimientos mundiales debido a las grandes
cantidades de información.

5.-Conclusiones y Recomendaciones:
Una de los propósitos de poseer datos abundantes es tratar de predecir de
manera más exacta. En nuestro ejemplo se ha utilizado los datos del Google
BigQuery cuya base de datos está en GDELT quien construye un catálogo
computable continuamente actualizado diariamente, compilado a partir de los
medios de comunicación del mundo. Busca los eventos similares a los que se
desea averiguar en un lapso de tiempo definido menor a 225 días usando la
correlación de Pearson. Este dato ayudará para la prevención de los hechos
futuros asumiendo la repetitividad de hechos a lo largo de la historia.

Dado que se cuentan con abundante información deben adecuarse las técnicas
estadísticas para su comprensión.

También podría gustarte