Está en la página 1de 20

I.

- INTRODUCCIÓN

Contenidos: La Estadística como disciplina científica. Origen histórico. Importancia. El rol de la


Estadística en la Economía y los negocios. El análisis estadístico de los datos. Naturaleza metodológica
de la investigación estadística. Los pilares fundamentales del estudio estadístico. Estadística en
perspectiva: Grandes Datos (Big Data) y Aprendizaje Automático (Machine Learning). La necesidad de
una teoría matemática.

1.1.- LA ESTADÍSTICA COMO DISCIPLINA CIENTÍFICA


Existen muchas definiciones y aproximaciones al concepto de lo que representa la
Estadística como disciplina. En general, podríamos decir que el término “Estadística”
engloba tres aproximaciones conceptuales diferentes:

a) LA ESTADÍSTICA EN SU EXPRESIÓN MÁS COMUN O VULGAR, que no es


más que una colección de datos numéricos ordenados y clasificados según un
determinado criterio. Así nos referimos a este significado, cuando hablamos de
estadísticas de producción, estadísticas demográficas, estadística de precios, etc.
Todos estos casos son ejemplos de una expresión reducida del término sinónimo
“Series estadísticas”. En el mencionado contexto, en el siglo XVII se refería a la
compilación de datos y documentos útiles para la administración de los estados,
aunque ya antes, en tiempos del Imperio Romano se habían realizado censos y
contado riquezas, soldados, navíos, tierras, rentas públicas, población, etc.

b) LA ESTADÍSTICA MATEMÁTICA. En la segunda presentación, “Estadística”


es la ciencia que, utilizando como instrumento a la Matemática y, en particular,
el cálculo de probabilidades, estudia las leyes de comportamiento de aquellos
fenómenos que, no estando sometidos a leyes rígidas o determinísticas como las
de las ciencias aplicadas (Física, Química, Biología), dependen
fundamentalmente del azar. Los iniciadores de esta corriente fueron: J.Bernoulli
con “la ley de los grandes números”, Laplace con “la teoría analítica de las
probabilidades”, Quetelec, Galton, Mendel, K.Pearson, Mills, Fisher, Kendall,
Crámer, entre otros.

c) LA ESTADÍSTICA DESCRIPTIVA. Estadística finalmente significa, la técnica o


método que se sigue para recolectar, organizar, resumir, presentar, analizar,
generalizar y contrastar los resultados de las observaciones de los fenómenos
reales. Caben aquí pues, los métodos utilizados por la “Estadística descriptiva”
y también los de la “Estadística Inductiva”, que luego analizaremos.

1
El autor español Alfonso Barbancho, presenta la palabra “Estadística” bajo dos
dimensiones o significados:

a) Estadística (En minúscula) como sinónimo de “Colección de datos numéricos”.


Es el significado más inmediato de la palabra “Estadística”. Sin embargo, una
información numérica cualquiera no constituye en sí misma una estadística. Sólo
lo es en la medida que los datos constituyan un conjunto coherente, organizados
de manera sistemática según algún criterio de ordenamiento.

b) ESTADÍSTICA (En mayúscula) como sinónimo de “Ciencia”. En este sentido, la


Estadística estudia el comportamiento de los fenómenos de masa. Busca las
características generales de un colectivo (o selección de datos) y prescinde de las
particularidades de cada elemento de dicho conjunto. La cualidad esencial, por
lo tanto, es que la Estadística no se detiene a estudiar el comportamiento de un
caso aislado, estudia siempre grupos, conjuntos o colectivos de casos. El
propósito según este criterio es hallar regularidades en los fenómenos de masa,
regularidades que, además de servir para la descripción del fenómeno, pueden
utilizarse con fines predictivos. La regularidad o estabilidad se obtiene o alcanza
cuanto mayor sea el tamaño del grupo o selección de casos que se estudia.1

El autor argentino que ha sido y seguirá siendo muy referente en la materia, Fausto
Toranzos ha preferido no definir a la Estadística, porque los fenómenos fundamentales
no tienen, según su criterio, una definición explícita o, si la tienen, no es ella lo
suficientemente clara como para darnos una idea acabada de su significado.
Concordando con Barbancho, Toranzos ha asegurado que el objeto de los estudios
estadísticos está en los fenómenos que se refieren a poblaciones muy numerosas,
formada por individuos semejantes respecto a un atributo. Como los métodos
deterministas son inaplicables al estudio de estos fenómenos, los que se encuentran
profundamente influenciados por el azar, la forma de abordarlos es mediante el uso de
la “teoría de las probabilidades” y una metodología estadística apropiada para obtener
conclusiones válidas acerca del atributo de la población que se pretenda estudiar.

Con un razonamiento similar, pero mucho más reciente en el tiempo, un referente


importante de la Estadística moderna, Stephen Stigler, considera que definir qué se
entiende por Estadística, ha constituido una pregunta recurrente en el tiempo desde
mediados del siglo XIX (1834 año en el cuál se creó la Royal Statistical Society). Y agrega,
“la persistencia de la pregunta y la variedad de las respuestas que se le han dado a lo
largo de los años son por sí mismas un fenómeno notable”. Los cambios y avances
logrados a través de su evolución nos dejan perplejos si deseamos alcanzar una
definición única y universalmente aceptada. Desde sus inicios, cuando se reunían datos
sin siquiera analizarlos, hasta los actuales aportes que hace la Estadística a las distintas
fases de la investigación interdisciplinaria; tomando un rol activo generando los datos o
bien obteniéndolos como recolector pasivo, no debe sorprendernos que el concepto de
lo que es y no es la Estadística siga estando en el centro del debate hasta nuestros días.

1
Barbancho hace referencia al “colectivo” como sinónimo de selección de casos o muestra, el que se utiliza con el
objeto de estudiar “fenómenos o regularidades de masa”, concepto que se aproxima al de Población estadística.

2
Esta variedad de motivaciones ha inclinado a Stigler a preocuparse más en definir los
fundamentos o núcleos duros (los llamados “pilares” en su obra) que esforzarse por
definirla siempre con algún tipo de reparo u objeción.

Definiciones más concretas, podemos encontrarlas en otros autores. Cayetano


Capriglioni la define en los siguientes términos: “Estadística es la disciplina científica
que crea, desarrolla y aplica los adecuados métodos de recopilación de datos, y su
evaluación, para transformarlos en información con las cuáles se describa, de manera
objetiva, las distintas situaciones investigadas, se analice el comportamiento de
determinadas características que poseen los individuos (o unidades experimentales) y
se tomen decisiones en condiciones de incertidumbre”. La variabilidad que presentan
los datos constituyen las bases de cualquier estudio estadístico. Para Sheldon Ross, la
Estadística es “el arte de aprender a partir de los datos y se relaciona con su recopilación,
su descripción y análisis, la que nos permite extraer conclusiones respecto de una
hipótesis o planteo de investigación”.

En definitiva, definiendo en forma tácita o explícita a la Estadística, la misma se ocupa


de dar respuesta a interrogantes que pueden ser explicados a partir del estudio y análisis
de datos en referencia a alguna (o algunas) característica(s) que presentan las unidades
de observación, utilizando un método o estructura formal de investigación. La
variabilidad que presentan los datos constituye una verdadera riqueza para obtener las
conclusiones deseadas en el estudio.

1.2.- ORIGEN HISTÓRICO DE LA ESTADÍSTICA


La Estadística se estructuró, como disciplina científica, en el siglo XIX, pero ya se conocía
y aplicaba en forma rudimentaria desde la antigüedad. Existen básicamente cuatro
antecedentes importantes que confluyen en la obra de Laplace (considerado como el
punto de partida científico para la disciplina) y que a partir de su obra se unifican en un
cuerpo de doctrina y una metodología. Estos antecedentes son:

1. Los relevamientos estadísticos antiguos. En Egipto, debido a las inundaciones


del Nilo, se efectuaban anualmente trabajos censales y catastrales que permitían
conocer el reparto de la propiedad y de los bienes para que ellos fueran
restituidos después de las mismas. En Israel, como bien nos señala la Biblia, hay
antecedentes de censos del pueblo hebreo. En Grecia Antigua, los griegos
también realizaban censos demográficos y de la propiedad. Finalmente, en
épocas del Imperio Romano, se realizaban censos de bienes y de personas de
todos los pueblos sometidos el yugo romano, con el objeto de aplicar un régimen
impositivo.
En la época moderna, la técnica censal se ha convertido en una importante
herramienta de los gobiernos, a punto tal que la etimología de la palabra
“Estadística” (introducida por Achenwall en el siglo XVIII) hace alusión a la
“Ciencia de las cosas que pertenecen al Estado”, llamando Estado a cualquier
sociedad civil que reside en un determinado territorio, con todo lo que se
encuentra de activos o propiedad. Así, la Estadística se ocupa de estudiar los
fenómenos que pueden favorecer o defender la prosperidad del Estado. La

3
Política enseña cómo deben ser los Estados y la Estadística explica cómo éstos
realmente son.

2. El segundo antecedente histórico, lo encontramos a mediados del Siglo XVII. Los


estudios estadísticos inferenciales reciben un aporte de gran importancia, los
cuáles pueden ser considerados como el punto de partida de la actual
conformación de la Estadística como método de investigación. Nos referimos
fundamentalmente a los trabajos realizados por J.Graunt quien, utilizando datos
demográficos reunidos en las parroquias de Londres logró realizar estudios que
le permitieron descubrir, por inferencias, relaciones y leyes demográficas de
validez permanente llegando incluso a estimar con buena aproximación por un
camino indirecto, la población de Londres y otras ciudades inglesas. La
importancia de estos estudios radica en la obtención de leyes que rijan el
comportamiento de poblaciones numerosas frente a atributos de tipo
demográficos, económicos y sociales. Graunt es, por lo tanto, el verdadero
precursor de los trabajos de campo de la Estadística. Sus seguidores más
importantes fueron W.Petty y Susmilch.

3. Paralelamente al desarrollo de la Estadística como disciplina científica, pero de


manera independiente, se desarrolla en el siglo XVII, el cálculo de
probabilidades. Sus iniciadores son los matemáticos italianos y franceses de este
siglo, particularmente Fermat y Pascal, quienes iniciaron los estudios de
probabilidades intentando resolver problemas de juegos de azar propuestos por
el caballero De Meré. En este contexto, Bernoulli obtuvo el teorema que se conoce
con su nombre y que permitió estructurar al cálculo de probabilidades como
disciplina orgánica. Posteriormente, los trabajos de Laplace, Poisson y Gauss,
entre otros, proveyeron de recursos matemáticos que habrían de llevar a la
Estadística a un grado de perfeccionamiento que la hace apta para las
aplicaciones en diversos campos de la mayoría de las ciencias experimentales y
del comportamiento. A partir de la obra de Laplace, las dos disciplinas “Cálculo
de probabilidades” y “Estadística” que hasta entonces habían permanecido
separadas, se fusionan de manera tal que el cálculo de probabilidades se
convierte en el andamiaje matemático de la Estadística. El aporte de la
Matemática a la Estadística le da impulso teórico y la lleva a alcanzar un
extraordinario desarrollo y perfeccionamiento a lo largo de los últimos tres
siglos.

4. Conjuntamente con el Cálculo de Probabilidades y ligado a él, se desarrolla la


Teoría de los Errores, especialmente a partir de los aportes de Gauss, Bessel y
Laplace, en menor medida. La mayor contribución sin duda es el método de los
mínimos cuadrados como procedimiento matemático de ajuste que permite
resolver el problema fundamental de la teoría de los errores. El desarrollo de la
teoría de los errores es un valioso antecedente para la Estadística ya que sus
conclusiones y métodos sirvieron de modelos a los trabajos realizados por
Quetelec y Galton en el siglo XIX. Más apropiadamente, diremos que la teoría de
los errores constituye la primera rama de la Estadística que pudo constituirse
como una estructuración teórico- matemática.

4
En 1835 aproximadamente, la Estadística se circunscribía prácticamente al capítulo que
hoy conocemos como “Series de frecuencias” y dentro de este capítulo, únicamente se
utilizaban las aproximaciones de la función normal de Gauss. Fue con el aporte de Lexis
que, a partir de los estudios encaminados por Quetelec se probó que no era solamente la
curva normal la que servía como marco referencial en la modelización de una serie de
frecuencias. Pearson y Charlier luego completan la obra iniciada por Lexis.

Los capítulos más importantes de la Estadística Moderna, son además del estudio
descriptivo de las series de frecuencias, la teoría de la regresión y correlación, la teoría
de las muestras y el estudio de series de tiempo y los procesos estocásticos. Todas estas
teorías más recientes se iniciaron en los trabajos de la escuela estadística inglesa
fundamentalmente por los aportes de Galton, Pearson y en especial, Fisher. Con Fisher
la Estadística se orienta rápidamente al estudio de diseños de experimentos,
metodología fundamental para las ciencias aplicadas y básicas. Fue Fisher y sus
discípulos quienes desarrollaron y estructuraron de manera muy particular la teoría de
las pequeñas muestras y adquiere cierta fisonomía de contenidos a la que hoy
medianamente conocemos. Es por este motivo que suele asignársele a Fisher el rol de
padrinazgo de la Estadística Moderna o actual.

Sucediendo la obra de Fisher, en los años sesenta y setenta se desarrollaron importantes


aportes. Particularmente, hubo avances significativos en estudios estadísticos que
involucraban muchas variables (estudios multivariados) y, a fines de los años setenta, se
desarrollan innovadoras técnicas de remuestreo (bootstraping) para obtener las
distribuciones de ciertos estadísticos de prueba utilizando únicamente información
contenida en la muestra original. Tales avances ya habían sido iniciados con Fisher
mediante las distribuciones de aleatorización y con Hastie y Efron, se profundiza este
tipo de análisis. Sin embargo, el alcance de los aportes mencionados, pudieron realmente
capitalizarse a partir de los años noventa y ya entrado este siglo, con los avances
extraordinarios en materia de la informática y el acceso masivo a grandes bases de datos.
De esta manera, aparece un nuevo horizonte para los estudios estadísticos de datos, que
forman parte de toda una disciplina denominada “ciencia de datos” basada en el estudio
de grandes y diferentes caudales de información (conocido con el nombre de “Big Data”)
sobre los que se aplican ciertos algoritmos para procesarla, clasificarla y tomar decisiones
casi en forma inmediata. El resultado es una técnica denominada “machine learning” o
su traducción, no del todo muy feliz, de “aprendizaje automático”. Al finalizar el
presente capítulo comentaremos algunos detalles más específicos de los mencionados
enfoques.

1.3.- IMPORTANCIA DE LA ESTADÍSTICA


Un autor muy clásico de la materia, William Cochrane, resume la importancia de la
Estadística refiriéndose exclusivamente al campo de la Estadística Inferencial. Asegura
que cuando la población resulta muy grande, la observación de todos los elementos se
ve imposibilitada por el enorme costo que conllevaría la observación de las
características de cada individuo, la gran cantidad de trabajo y el tiempo asociado para
llevar a cabo un análisis exhaustivo. Los inconvenientes mencionados pueden ser

5
superados si se diseña una muestra lo suficientemente representativa de la población
utilizando algún método de selección estadística. Si bien, la era de la informática, ha
reducido sustancialmente los costos de obtener información relativa a las poblaciones y
han permitido obtener mayor precisión de las estimaciones, aun así, lo que logramos
obtener, son casi siempre muestras de poblaciones de referencia.

En términos más generales, William Stevenson resume la importancia que tiene el


estudio de la Estadística en los siguientes puntos:

1. Los métodos estadísticos se emplean frecuentemente tanto para estudiar


cuestiones del sector privado como público, de manera que una persona que
disponga de conocimientos en Estadística se encuentra mejor posicionado para
promocionarse en su cargo, o incluso promover su ascenso.
2. Los directores y gerentes requieren saber Estadística para tomar decisiones
acertadas y evitar ser abrumados por la presentación de datos estadísticos
inconexos. Los software o sistemas que manejan información dentro de las
compañías, por lo general, responden de manera poco integrada. La finalidad y
el uso de la información están basados en diferentes objetivos (contables,
impositivos, comerciales, financieros, etc). Por consiguiente, se requiere de
profesionales que sean capaces de armonizar el enorme caudal de datos que
circulan en las compañías, las ordenen y permitan suministrar la información
deseada que ayude a la toma de decisiones a cada uno de los diferentes actores.
3. En la mayoría de las revistas profesionales, trabajos de investigación y otro tipo
de literatura calificada, se hace continua referencia a estudios estadísticos. Lo
interesante es que la mayoría de estos estudios no son estrictamente de
naturaleza estadística, pero sí requieren de su aporte para presentar los
resultados de las investigaciones logradas o cuantificar los efectos de su alcance.
4. Las noticias proporcionadas por los medios masivos de comunicación contienen
datos estadísticos, lo mismo sucede con las experiencias cotidianas. Estamos
continuamente asediados por datos estadísticos, algunos constituyen simples
números sin mayor relevancia; otros, representan información relevante para
tomar decisiones casi instintivas. Así, por ejemplo, cuando nos informan que son
las 7.15 de la mañana, este dato tendrá mayor o menor utilidad en términos de la
referencia a nuestras obligaciones. O si la temperatura exterior es de 30 grados,
la misma será de mayor o menor utilidad pensando el tipo de actividad que
desarrollaremos. De igual forma, que nos informen el tipo de cambio de la
moneda será un simple dato si no pensamos realizar alguna operación económica
inmediata o bien, tendrá un valor informativo fundamental si deseamos viajar o
comprar un producto importado.

1.4.- EL ROL DE LA ESTADÍSTICA EN LA ECONOMÍA Y LOS NEGOCIOS


Si bien la ciencia Económica ha evolucionado con el devenir del tiempo y de los avances,
aún hay un componente subjetivo importante en las recomendaciones de política y
estrategia. El estado dominante depende del punto de vista del autor o escuela que se
estudie o considere. Esta situación no se condice con la idea estricta de las “leyes
científicas” que exige la objetividad como condición primordial. La razón fundamental

6
porqué ello ocurre, reside en que los fenómenos económicos son de naturaleza
fundamentalmente aleatoria o hay en ellos una combinación de dos componentes:
sistemáticos o aleatorios en distintas proporciones.

Desde hace alrededor de un siglo se ha desarrollado un intenso movimiento dentro de


la Economía con el objeto de aproximarla a la Estadística y a la Matemática. De esta
forma se ha gestado una disciplina dentro de la Economía denominada “Econometría”,
la que se encuentra en continuo desarrollo, habiéndose obtenido resultados de interés
que refuerzan el campo doctrinario de la teoría económica. El fundamento de la
Econometría reside en una vieja idea, enunciada casi hace dos siglos por el economista
francés Cournot, quien proponía partir de las observaciones de los fenómenos
económicos y obtener a partir de ellos, mediante un camino inferencial, las leyes del
comportamiento económico de las variables. El método propuesto por Cournot presenta
dos características que le proporcionan categoría de procedimiento científico: Objetividad
y precisión. La objetividad se alcanza toda vez que el estudio se apoya en la comprobación
de los hechos realizados mediante procedimientos estadísticos. La segunda
característica, es decir la precisión, es resultante de los procedimientos estadístico-
matemáticos empleados. Ambas características convenientemente utilizadas parecían
estar destinadas a cumplir el ideal de Cournot de entonces, el de encuadrar a la
Economía en el rango de metodología científica.

Para la mayoría de los economistas, la Teoría Económica antecede y precede a la


Econometría. La última sólo entra en escena como una orientación para medir variables
individuales, estimar relaciones entre ellas y juzgar la validez de la teoría. La
Econometría presenta información relevante para las políticas que siguen los gobiernos
en materia económica. La necesidad de cuantificar los efectos favorables y desfavorables
de las políticas económicas sobre grupos de personas representa el reto más importante
de la Econometría. La economía agrícola, la economía laboral, los problemas monetarios
y bancarios, las finanzas públicas, el análisis del ingreso nacional, el estudio de los ciclos
económicos, la economía del consumo, el comercio internacional, entre otras
especializaciones constituyen sólo algunas de las ramas de la Economía donde puede ser
utilizada la medición económica y el estudio de la relación entre variables.

Como bien sabemos, el estudio del comportamiento de las unidades económicas


individuales se denomina Microeconomía. En contraste, en Macroeconomía se analizan
las relaciones e interacciones económicas de los grandes agregados del ingreso y la
riqueza nacional. Siguiendo el mismo criterio se denominan micro-variables a las
variables que reflejan el comportamiento de una unidad económica individual y, macro-
variables a las magnitudes asociadas al agregado de las unidades económicas en una
región, nación o sector de la economía. Los registros familiares comprenderán, en el
curso de un período (por ejemplo, un año) miles de transacciones económicas. De esta
forma, la mayor parte de las actividades económicas de una familia pueden medirse
como los precios, las cantidades, sumas de dinero pagadas y recibidas, activos líquidos
poseídos, etc. Los datos estadísticos constituyen la materia de estudio de los
econometristas. Además, la mayoría de las empresas comerciales, de todo volumen y
tamaño, a su vez llevan un registro detallado de sus operaciones comerciales y
financieras. Las variables agregadas son simples sumas a partir de los registros
individuales representados por familias, empresas, instituciones sin fines de lucro y

7
gobiernos. La elaboración de las cuentas nacionales de ingreso y producto para un país
determinado requieren la equiparación, el empalme y la conciliación de las estimaciones
y registros económicos de diversas fuentes.

Dado que la mente humana es limitada en cuanto a la capacidad de almacenamiento e


interpretación de los movimientos económicos, habitualmente se ordenan y resumen las
operaciones básicas antes de utilizarlas para el análisis económico. Un resumen de las
operaciones individuales entrañaría probablemente la suma de todos los bienes
consumidos o disponibles durante un período. En primer lugar, podríamos reunir las
diferentes marcas de tomates en latas (por ejemplo) adquiridas por una familia a lo largo
de un año. Si luego dividimos el total de las erogaciones en la compra por el total de
unidades compradas obtendremos un precio promedio que es una abstracción aún
mayor que la anterior porque la “marca promedio de latas de tomates” que corresponde
al precio promedio no existe en la realidad. En algunos casos puede resultar necesario
avanzar hacia niveles superiores de agregación de los bienes, tales como por ejemplo,
todos los vegetales en latas, todos los vegetales en general, todas las frutas y vegetales,
y todos los alimentos. Las clasificaciones mencionadas suelen utilizarse para presentar
cuentas de ingresos y producto nacional. Así, la Econometría podría estudiar la relación
existente entre el “precio promedio de los tomates en lata” y la “cantidad promedio de
latas de tomates compradas por las familias”. Podríamos incluso observar que una
reducción en el precio promedio puede ser acompañada por un aumento en la cantidad
promedio comprada. Sin embargo, debe quedar bien en claro que esto no
necesariamente significa que una reducción en el precio de las latas de tomates de la
marca “A” llevará a un incremento en la cantidad adquirida de tomates de esa marca.
Tampoco podemos deducir que la aparente relación entre el “precio promedio” y la
“cantidad promedio comprada” ha de mantenerse en todos los casos. Así se advierte que
la importancia de la Econometría resulta mayor cuanto mayor sean los agregados
promedios que hagamos de las variables bajo estudio. El libro de Teoría Microeconómica
de Charles E. Ferguson muestra claramente la relación que guarda la Teoría Económica
y la Econometría (y/o la Estadística Económica). El cuadro 1.1. muestra esta relación.

Cuadro Nro.1.1. Relación entre el modelo lógico y el modelo empírico.


Explicación de las conclusiones para el mundo real. Extraído de Teoría
Microeconómica, C.E. Ferguson & J.P. Gould.

8
Vamos a referirnos ahora brevemente al rol que cumple la Estadística en la empresa y la
Administración. Tomaremos como referencia el libro de F. Mills, “Métodos Estadísticos
aplicados a la Economía y a los negocios”. En general podemos decir que las tareas con
las que se enfrentan los hombres de negocios pueden dividirse en tres clases:

• Actividades relacionadas con el Proceso de Producción. Consistente en la


ingeniería para manejar el uso de las materias primas, los procesos industriales
y controlar los factores de producción.
• Organización y Administración Interna. Las diferentes funciones técnicas que
exige la satisfacción de las necesidades humanas se realizan con la intervención
de diferentes unidades de negocios que el empresario debe coordinar a efectos
de solucionar los problemas diarios que se le presentan.
• Operaciones comerciales, financieras y actividades de mercado. Son todas
aquellas actividades las cuáles se manifiestan en variables de precios o
nominales.

De acuerdo con F. Mills, el comerciante moderno se encuentra sitiado por los precios. La
palabra “sitiado” no resulta en este contexto inadecuada pues el mundo de precios en el
que el comerciante se desenvuelve constituye un sistema coherente, consistente y bien
articulado de diferentes partes interdependientes que envuelve toda su actividad
comercial. Puesto que el sistema se halla fuera del control del individuo, será el
empresario quien deberá adaptarse a éste basando sus actividades en base a un
conocimiento amplio ya que sin el mismo se le dificultará aún más la resolución de los
problemas comerciales. De los tres problemas que hemos distinguido, Mills sólo estudia
los dos últimos, no porque el primero no pueda estudiarse con métodos estadísticos sino
por ser estos especialmente apropiados para análisis monetarios. Sin embargo, respecto
a los conceptos englobados en la primera categoría es importante destacar que son
fundamentalmente los ingenieros los que desarrollan e implementan muchos
procedimientos estadísticos tendientes a estudiar relaciones físicas de insumos o
establecer valores de referencia para juzgar si un proceso estadístico se encuentra bajo
control y la calidad de los productos reúnen las especificaciones deseadas.

Cuando F. Mills se refiere a la aplicación de los métodos estadísticos a la Administración


Interna el problema es que siempre hay que manejar grandes cantidades de datos: Un
problema básicamente de compilación y análisis, de compilación y simplificación (para
que el hombre de negocios pueda manejar los datos dentro de la natural limitación de
sus capacidades) y de análisis y comparación (para que puedan ser diferenciados los
elementos que intervienen en el problema que se examina y pueda el investigador
apreciar el significado de cada uno de ellos). Con la finalidad de facilitar la síntesis y el
análisis de los grandes volúmenes de datos cuantitativos fueron diseñados los métodos
estadísticos. En resumen, los métodos pueden ser aplicados a cualquier rama de la
Administración Interna de un negocio como un suplemento a los métodos de la
Contabilidad y también para ampliar el conocimiento que la dirección debe tener sobre
los negocios que coordina y hacer más eficaz el control de las operaciones comerciales.

En los casos en los que el empresario se enfrenta con el mercado para realizar
operaciones comerciales aparecen nuevos problemas. Es común que el empresario se
enfrente al fenómeno de los ciclos comerciales y se vea obligado a adaptar su política

9
comercial a la oscilación de dichos períodos, por lo cual tiene la necesidad de realizar un
análisis de tales fenómenos empleando instrumentos apropiados para esta tarea. Otro
factor de relevancia es el efecto que tiene la depreciación de la moneda sobre la marcha
y rentabilidad de los negocios. Buena parte de los estudios dirigidos a saber si realmente
la empresa obtiene beneficios frente a la inflación, constituyen aportes basados en
métodos de naturaleza estadística.

Algo más distante de los intereses directos de los empresarios, pero llenos de interés
para un administrador o economista, se haya presente en el problema relativo al proceso
económico de distribución y logística y de la asignación de los beneficios entre los
factores que intervienen en la producción. El problema citado de determinación de
precios y valores es de naturaleza fundamentalmente cuantitativa y para su tratamiento
se requiere comúnmente de los métodos estadísticos de investigación.

1.5.- EL ANÁLISIS ESTADÍSTICO DE LOS DATOS


Los datos constituyen expresiones cuantitativas y cualitativas que se obtienen con la
intención de aplicar sobre los mismos un estudio de tipo estadístico. La definición
brindada es muy amplia y tiene un sinnúmero de referencias y comentarios que deben
tenerse presente y que se continuarán desarrollando a lo largo de todo el curso.

En primer lugar, un dato es la manifestación de una propiedad o característica que


presentan las unidades de análisis u observación estadística. Todo individuo presenta
una enorme cantidad de propiedades que lo identifican, que lo describen y que lo
diferencian de cualquier otro. Esa propiedad lo hace único, aún dentro de su especie.
Ejemplo: Un determinado producto generado en serie, por más parecido que sea a otro,
tiene alguna particularidad que lo diferencia (una mayor dimensión, capacidad de
llenado, tiempo de fabricación, fecha de elaboración o vencimiento). Una persona, tendrá
rasgos físicos, emocionales, etc que lo diferencien de otra. Aún en cosas que
consideremos idénticas, siempre existirá alguna propiedad diferenciadora. Cada una de
estas propiedades las denominaremos en el capítulo siguiente como “variable
estadística” y nos permitirá realizar los estudios que se consideren convenientes u
oportunos. Los datos así, en esta primera aproximación, son realizaciones concretas de
valores de variables.

En segundo lugar, los datos pueden ser expresados en magnitudes numéricas o a través
de propiedades cualitativas. El peso, la edad, la altura o el coeficiente intelectual de las
personas son algunos ejemplos del primer caso. En tanto, el color de ojos, de cabello, el
estado de ánimo, su nivel educativo, son algunos casos de propiedades cualitativas. Con
la aparición de las nuevas técnicas de captación de datos, muchas de estas magnitudes
o propiedades pueden ser obtenidas sin la necesidad de escribir o ver plasmada esa
magnitud en una planilla. La dinámica ubicación a través del GPS de un celular, por
ejemplo, permite saber dónde está ubicada esa persona, situación que cambiará en
segundos una vez que esa persona se desplace. La ubicación “on line” de una persona,
de un vehículo, etc. también son datos estadísticos, aunque no se vean plasmados en una
matriz de datos.

10
Un tercer aspecto a tenerse muy en cuenta es la “actitud” que tiene el investigador o
estadístico frente a los datos. Los mismos pueden ser recolectados a partir del natural
comportamiento que presenten los individuos o las unidades de análisis. Se podría
indagar a una persona sobre su edad, sexo, barrio de residencia, cantidad de personas
con las que convive, entre otras cuestiones. De esta manera, por más que se generen
instrumentos para la captación de los datos (encuestas, por ejemplo) el investigador
cumple un rol pasivo sin poder influir en esos valores: Obtiene los datos, los procesa y
los analiza estadísticamente. Si nos referimos a la naturaleza, la compilación de datos
que se observan (dado que el hombre no los puede controlar) se denomina “fenómenos”.
No obstante, hay otro tipo de captación de datos y representan los que se obtienen
cuando se someten a las unidades de estudio a un estudio de carácter experimental. Al
igual que lo haría un físico o un químico, se podrían obtener datos sobre la reacción que
tienen las personas a cierto tipo de medicamento, o al comportamiento que presentan
ciertas semillas cuando se las trata de hacer germinar bajo diferentes condiciones
ambientales. En ambos casos, la participación del estadístico impone las condiciones y
diseña un experimento capaz de generar datos que luego son analizados y estudiados
con diversas herramientas estadísticas. Estos experimentos se denominan justamente
“experimentos estadísticos” o “diseño experimental”.

En los experimentos estadísticos, se deben observar muchas cuestiones y alertar sobre


las condiciones en las que los mismos se realizan para evitar cometer errores o sesgos.
Por ejemplo, si a todo un grupo de personas se les suministra un cierto medicamento y
todos ellos mejoran de una cierta enfermedad que padecen, se podría caer en la tentación
de concluir que el medicamento resulta exitoso, cuando en realidad las personas podrían
verse mejoradas por otros factores como, por ejemplo, las condiciones del tiempo, la
alimentación, un relajamiento o falta de estrés, etc. Así, se dirá que los efectos del
tratamiento “se confunden” con las reacciones que presentan los individuos. Con
animales, plantas, productos, etc, se podría experimentar sin grandes reparos, pero a
veces, en seres humanos, la experimentación encuentra límites éticos, religiosos o
morales que imposibilitan la realización de experimentos y, por ende, el alcance de los
ensayos. Ejemplo: Para ver cuál es el efecto que tiene un nuevo método de radioterapia
sobre un cáncer, los investigadores deberían practicar con una serie de pacientes que lo
reciben y otros no. En el caso de querer probar la eficacia de una vacuna, un grupo
debería ser vacunado y otro no. En algunas situaciones se busca eliminar el “efecto
placebo” es decir, evitar situaciones donde el paciente se recupera sólo por el hecho de
ser vacunado (aunque no sea con la vacuna tendiente a combatir la enfermedad). El tema
en cuestión es muy amplio y se debería profundizar mucho más para tratar de
comprenderlo cabalmente. Por este motivo, se sugiere a los interesados la lectura de los
dos primeros capítulos del libro de Freedman, Pisani y Purves, donde se plantean casos
y aspectos a tener presente en el diseño.2

Finalmente, una cuarta observación consiste en apuntar que no toda la información


cuantitativa disponible pueda ser considerada como un dato estadístico. La información
cuantitativa apropiada para llevar adelante un análisis estadístico debe basarse o
fundamentarse en un conjunto de datos que muestren relaciones significativas. En otras

2
Freedman, D – Pisani, R – Purves, R – “Estadística”. Segunda Edición. Antoni Bosh Editor. Barcelona,
1993.

11
palabras, los datos estadísticos representan números que pueden ser comparados,
analizados e interpretados. Un número aislado que no se compara o que no muestra una
relación significativa con otro, no constituye un dato estadístico. Por ejemplo, la edad de
una persona por sí sola, no constituye un dato estadístico en la medida que no exista otra
medición para su comparación. De igual forma, las “estadísticas” de un paciente en una
serie de resultados clínicos no son datos estadísticos si no se dispone de patrones para
su comparación. Sin embargo, la información relativa a las estaturas (por ejemplo) de
todos sus pacientes dentro de un cierto período de tiempo sí son datos establecidos,
puesto que las estaturas pueden ser comparadas, analizadas e interpretadas de acuerdo
con sus relaciones con individuos.

Un aspecto muy importante a tener presente es que muchos de los fenómenos que se
refieren al comportamiento de las poblaciones numerosas no son susceptibles de tratarse
mediante un método científico que explique una relación del tipo causa-efecto. Por el
contrario, se manifiestan no sometidos a leyes sistemáticas y entonces, gobernados o
influenciados por el azar. Por lo tanto, podemos considerar estos fenómenos de
naturaleza aleatoria. La característica de los fenómenos aleatorios es que, en situaciones
idénticas, pueden obtenerse comportamientos diversos de los individuos, en contra del
principio determinista que exige idénticos resultados en situaciones idénticas. En esta
instancia es que se hacen presente los métodos estadísticos y probabilísticos, los cuáles
no buscan que se cumplan leyes o regularidades en el comportamiento de los individuos,
sino en el promedio para un gran número de ellos, donde se pueden evidenciar leyes
más estables que pueden ser la base para una estructuración científica más amplia que
la determinística causal.

La importancia de los métodos capaces de estudiar los fenómenos aleatorios, se hicieron


presente en la Física con Boltzman, en la Biología con Galton y Pearson, en la Economía
con Cournot y así fue, poco a poco, abarcando diversos campos del conocimiento. Su
eficacia se manifiesta toda vez que se trata o trabaja con poblaciones numerosas.

Una vez definido el problema que se desea analizar y el tipo de datos que se necesitan,
el método estadístico en su fase inicial, consistirá en recoger datos, generalmente en un
gran número de ellos, referidos al comportamiento de los individuos de la población
respecto del fenómeno que se estudia. Los datos, convenientemente clasificados y
tabulados, sirven de base para la elaboración de un estudio formal conducente a obtener
leyes y resultados que expresan modalidades características del comportamiento
promedio de la población. La Estadística cumple así su primer objetivo: Describir. A
menudo describir no es suficiente y se hace necesario predecir el comportamiento
promedio de una población en el futuro, apoyándose en el conocimiento del presente y
del pasado. El problema de la predicción resulta ser más difícil, pero en su tratamiento
por lo general se obtienen importantes resultados por vía de la inferencia. Esta parte de
la Estadística se conoce con el nombre de predicción estadística.

En los métodos estadísticos encontramos también procedimientos similares a la


inducción que se reconocen como teoría de las muestras, conjunto de técnicas que, por
un camino inferencial permiten establecer resultados válidos para las poblaciones
numerosas, partiendo de observaciones respecto al comportamiento de una pequeña

12
parte de la población (llamada muestra) la que bajo ciertas condiciones resulta ser
representativa de toda la población.

1.6.- NATURALEZA METODOLÓGICA DE LA ESTADÍSTICA


El gran volumen de datos que potencialmente se puedan disponer origina la necesidad
de contar con métodos sistémicos que permitan ser utilizados para organizar, presentar,
analizar e interpretar la información. De esta manera, pueden extraerse conclusiones
válidas y tomarse decisiones razonables mediante el uso de las herramientas estadísticas.

El contexto desde donde los datos estadísticos son recopilados es a partir de una
población o universo. Por otra parte, una población puede ser finita o infinita y la tarea
de compilar conjuntos de datos de una población finita pequeña puede resultar algo
sencillo. Si se desea obtener las edades de 25 estudiantes pertenecientes a una clase de
inglés, simplemente se podría preguntar a cada estudiante su edad y así obtener un
conjunto completo de datos. Sin embargo, recopilar los datos de una población finita
pero grande resulta muchas veces imposible o impracticable. A fin de evitar la tarea poco
práctica de obtener los datos completos de una población se recurre a obtener una
muestra de elementos representativos de la misma. Es entonces cuando las muestras son
utilizadas para el estudio estadístico y los resultados de la misma usadas para describir,
estimar o predecir las características de la población.

En el mencionado contexto es cuando surgen los métodos estadísticos. De acuerdo con


el orden de las aplicaciones de un estudio estadístico, los mismos presentan cinco pasos
básicos:

1. Recopilación de los datos


2. Organización de los datos.
3. Presentación de la información estadística.
4. Análisis de las relaciones.
5. Interpretación de los resultados.

Estrictamente hablando no hay una línea definitiva que separe los cinco pasos básicos
del análisis estadístico. Algunos de los métodos empleados pueden ser utilizados en más
de un paso. Sin embargo, la división nos proporciona un orden lógico para estudiar los
métodos estadísticos.

Recopilación de los datos. Después que el problema estadístico ha sido claramente


definido y entendido, ciertos hechos relevantes pueden ser presentados y recopilados.
De acuerdo a la localización o acceso, los datos estadísticos pueden ser clasificados en
dos tipos: (a) Datos internos; (b) Datos externos.

Cuando la información cuantitativa es obtenida dentro de la organización donde se


practica el estudio estadístico, los datos obtenidos se denominan internos. El sueldo de
los empleados, las ventas diarias, los tickets de caja, el registro de una transacción
bancaria son ejemplos de datos internos. De otra manera, cuando la información es
obtenida fuera de la organización, la misma se denomina datos externos. Los datos
externos son obtenidos usualmente de dos maneras: (1) A través de datos publicados o

13
(2) A través de encuestas de datos originales. La compilación de datos externos, por lo
general resulta de un proceso costoso, tedioso, que consume mucho tiempo y del cual se
debe estar muy convencido respecto a la veracidad de las fuentes consultadas.

Organización de los datos. El primer paso en organizar un grupo de datos es la


corrección. Los datos compilados deben ser corregidos muy cuidadosamente, de tal
manera que las omisiones, inconsistencias, respuestas irrelevantes y cálculos
equivocados en los resultados de la encuesta deben ser corregidos o ajustados. El
siguiente paso consiste en su clasificación. El propósito de este paso es decidir las
clasificaciones adecuadas en las cuáles los datos serán agrupados. Finalmente, el último
paso de esta fase consiste en la tabulación. Elementos semejantes son numerados y
registrados en este paso de acuerdo con las clasificaciones adecuadas.

Presentación de la información estadística. Existen básicamente tres formas de


presentar los datos recopilados.

a) Mediante enunciados.
b) Mediante tablas estadísticas.
c) Mediante gráficos.

Los enunciados resultan una forma práctica de presentar la información estadística sólo
en los casos donde se dispongan de poca cantidad. Las tablas estadísticas son apreciadas
por los lectores y existen varias formas de construirlas como se verá más adelante en el
curso. Finalmente, los gráficos o diagramas estadísticos resultan ser una presentación
que, siendo bien presentada puede ayudar a los usuarios de la información a adquirir
muchos conocimientos de sólo un vistazo. Sin embargo, un gráfico usualmente
proporciona al lector un valor aproximado de los hechos. Si se desea un valor exacto es
preferible hacerlo mediante el uso de una tabla estadística o de ciertos indicadores
estadísticos calculados a partir de ésta.

Análisis de las relaciones. Los métodos empleados en analizar datos estadísticos son
múltiples. Partiendo desde la simple observación de los datos hasta llegar a métodos
complicados y de investigación con fuerte sesgo matemático. Algunos de estos métodos
serán estudiados a lo largo del desarrollo del curso.

Interpretación de los resultados. La interpretación correcta nos guiará a una conclusión


válida del estudio y así ayudarnos a tomar decisiones. Por conveniencia el trabajo de
interpretación seguirá al de análisis para cada estudio en particular.

1.7.- LOS PILARES FUNDAMENTALES DEL ESTUDIO ESTADÍSTICO


Aun considerando que resulte prematuro señalarlos al inicio del curso, estos constituyen
los fundamentos más relevantes que se han consolidado el conocimiento estadístico. Se
trata de los descubrimientos más notorios a lo largo de la historia en la disciplina y que
permiten edificar sobre los mismos cualquier técnica o herramienta de la que se haga

14
uso. Los mismos fueron explicitados por Stephen M. Stigler, justamente en su libro “Los
siete pilares de la sabiduría estadística”.3

Primer pilar: Agregación. El mismo puede ser resumido diciendo que algunos criterios
utilizados para la reducción de datos pueden traer aparejados mayor conocimiento
estadístico. De esta manera, resumir información en tablas estadísticas o calcular
promedios puede implicar mayor conocimiento que disponer todos los datos en bruto.

Segundo pilar: Información. Basado en el principio de los rendimientos marginales


decrecientes, la contribución marginal que se obtiene producto de disponer de mayor
cantidad de datos resulta decreciente. El rendimiento decreciente se mide en términos
de la precisión lograda de los estimadores estadísticos que se obtienen.

Tercer pilar: Verosimilitud. Las inferencias estadísticas se valen del uso del concepto de
probabilidad. Hay hipótesis de investigación que pueden ser aceptadas o rechazadas
mediante el uso apropiado del concepto de probabilidad.

Cuarto pilar: Intercomparación. Un conjunto de datos puede ser plenamente descripto en


base a esos datos mismos, sin requerir de información externa o dicho en términos del
mismo Stigler “las comparaciones estadísticas no necesitan realizarse respecto de un
estándar externo, sino que frecuentemente se pueden llevar a cabo dentro de los propios
datos”.

Quinto pilar: Regresión. Las implicancias de este punto son múltiples y, algunas de ellas,
escapan al alcance de este material introductorio. Pero, rescatando aquellos puntos más
relevantes diremos que, en Estadística, la extrapolación tiene alcance muy limitado.
Basado en la regla de tres simple, la suposición de valores aplicando dicho concepto se
ve opacado por la variabilidad muestral. De esta manera, la mayoría de las relaciones
estadísticas que se pueden describir con los datos por más correlacionados que los
mismos se encuentren, lejos están de presentarse como causales. El quinto pilar tiene
implicancias en las distribuciones bi y multivariadas de probabilidad, inferencias de tipo
bayesianas y causales.

Sexto pilar: Diseño. Si bien la mayoría de los estudios estadísticos en ciencias sociales
(Economía, Administración, Finanzas, etc) son de naturaleza observacional, algunos
aspectos relacionados con la planificación y ejecución en la que los experimentos
estadísticos son realizados en las ciencias básicas pueden ser utilizados, aún para el
proceso de obtener y compilar los datos. Los principios del diseño experimental que son:
formación de bloques, aleatorización, control de los factores y análisis de sus
interacciones deberían tenerse presente en algunas etapas de la investigación de las
ciencias sociales.

Séptimo pilar: Residuo. Todo lo que un modelo estadístico no logra explicar o capturar,
se considera como residuo estadístico y constituye la base para la formulación de un
modelo en sí mismo. La utilización de modelos de regresión por etapas o secuenciales,
anidamiento y/o inclusión de variables no contempladas en el modelo original
constituyen herramientas estadísticas tendientes a reducir al máximo exponente los
residuos que origina el modelo ensayado. El mejor modelo que explica el

3
Stigler, S. “Los siete pilares de la sabiduría estadística”. Editorial Grano de Sal, México, 2017.

15
comportamiento de los datos es aquel que, con la menor cantidad de variables posible,
logra explicar en mayor medida las variaciones de la variable que se pretende estudiar.

En las conclusiones de su libro, Stigler explica cómo estos pilares inciden uno en otro y
cómo deberían interpretarse en el contexto de la nueva era de la Estadística, con la
aparición del Big Data y el Aprendizaje Automático que seguidamente se citará. Los
pilares de la Estadística son los fundamentos de los cuáles no se puede prescindir,
dejando la posibilidad que aparezca un octavo pilar, al que el mencionado autor no
descarta pero que lo considera como bastante inverosímil, atendiendo el grado de
madurez y avance que ha tenido la disciplina a lo largo de los siglos. Puede considerarse
como “inoportuna” la intervención de este punto a esta altura del estudio de la materia,
pero debería volverse una y otra vez, incluso leyendo la obra original de Stigler cada vez
se avance con el desarrollo de los temas.

1.8.- ESTADÍSTICA EN PERSPECTIVA: GRANDES DATOS (BIG DATA) Y


APRENDIZAJE AUTOMÁTICO (MACHINE LEARNING)
En los primeros años de la década de los noventa comenzaron a suceder algunos cambios
significativos en el uso de las herramientas estadísticas. El acceso a la tecnología
informática comenzó a ser más accesible para el público en general, y no con
exclusividad para los laboratorios o centros de investigación de las universidades.
Cuando hablamos de tecnología informática no sólo hacemos referencia a las
computadoras personales sino también a los softwares, en general. Aproximadamente
en 1993 comenzó a hacerse uso intensivo de las primeras versiones de las planillas
electrónicas (Lotus 123 y Quattro Pro, las versiones preliminares de Excel), de las
primeras herramientas para la gestión y almacenamiento de las bases de datos (dBASE,
la versión preliminar de Access) y algunos programas estadísticos muy específicos, tales
como el Micro TSP, Minitab y el tradicional “Statistical Analysis System” (SAS), entre
otros. Sin embargo, el alcance a estos últimos softwares fue bastante limitado, por cierto,
dado el costo elevado que tenía adquirir las licencias de uso, incluso para entidades
públicas, como las Universidades. Por otro lado, la enseñanza de la Estadística estaba un
poco “fragmentada” en el sentido que muchos conceptos que incluían los textos de
entonces (traducciones del inglés) asumían conocimientos teóricos imposibles de
abordar sin el uso de un software (tal es el caso, por ejemplo, de algunos conceptos tales
como el criterio de la máxima verosimilitud o el análisis multivariado, que sólo se podía
abordar desde un plano teórico). Existía además otro gran inconveniente, y era el acceso
a la información. Las series estadísticas de datos resultaban escasas, especialmente las
que correspondían a micro-unidades, tales como empresas y familias, siendo
prácticamente la única forma de obtener datos, organizando encuestas, las cuáles debían
ser manuales, sobre un base endeble y poco homogénea de realización, limitado
fundamentalmente por los costos de ejecución. En cuanto a la enseñanza en sí de la
disciplina, los ejercicios se realizaban sobre la base de calculadoras científicas y las tablas
de distribuciones de probabilidad que los libros de texto, en su gran mayoría, aún
conservan como anexos en la parte final de los mismos. La difusión masiva de las
computadoras personales sin duda benefició la expansión en el uso de la disciplina,
aunque a un ritmo moderado. Sin embargo, con el inicio del nuevo milenio, los cambios

16
que se sucedieron fueron más profundos y radicales. Por un lado, la aparición de los
motores de búsqueda de datos asociados al uso de la red de información y, por el otro,
a la aparición de nuevos dispositivos inteligentes que se agregaron a las computadoras
personales (tales como celulares, tablets, notebooks, agendas electrónicas, entre otros
tantos). La explosión de dispositivos comenzó a generar importante caudal de
información de todo tipo y con ello, lo que antes resultado escaso y privativo, comenzó
a manifestarse en una faceta completamente distinta. Grandes volúmenes de datos que
podían ser organizados fueron requiriendo estructuras de análisis y programas cada vez
más sofisticados. No solamente los aplicativos de Windows fueron actualizándose e
incorporando nuevas e ingeniosas funciones, sino también la competencia de muchos
softwares en Estadística y Econometría, fueron abaratando y haciendo más accesible su
llegada a diferentes tipos de usuarios, incluyendo empresas y personas. De esta manera,
aparecen softwares como el “Statistical Package for the Social Sciences (SPSS)” cuyos
principales demandantes fueron empresas quienes contrataban su licencia para la
realización de planes de marketing, mercadotecnia, finanzas corporativas, etc. Junto al
SPSS y el siempre vigente y robusto SAS, surgieron también STATA, EVIEWS, nuevas
versiones del MINITAB,… La mayoría de estos softwares comparten un elemento
común: la familiaridad con el entorno Windows. Sin embargo, al continuo crecimiento
de los datos, las mismas planillas de datos comenzaron a resultar incómodas y hasta
pequeñas. Las primeras versiones de excel contaban con 256 columnas y 65.536 filas.
Actualmente, cuentan con 16.384 columnas y 1.048.576 filas y, aun así, a veces resultan
un tanto limitadas. Con el desarrollo del SAS y, fundamentalmente de los programas
ejecutados en lenguaje de código abierto, como por ejemplo el MATLAB, se comenzó a
incorporar ciertos lenguajes de programación para trabajar el manejo de datos masivos.
Tanto SAS como MATLAB son lenguajes en código abierto, pero arancelados. A
mediados de la primera década del nuevo milenio, comenzaron a difundirse programas
en lenguaje en código abierto más específicos, flexibles, muy compatibles con las
versiones aranceladas y, fundamentalmente, no arancelados. El fenómeno generó una
expansión vertiginosa en el uso de los mismos, particularmente de GNU-OCTAVE (la
versión gratuita del MATLAB) y de R y Python (la versión gratuita y familiar del SAS).
Los primeros de ellos asociados al uso de la Matemática y el Álgebra; el segundo grupo,
asociados al manejo de datos, la Estadística y la Econometría.

Los lenguajes en código abierto traen aparejados otras grandes ventajas, además de su
flexibilidad: generan comunidad. De esta manera, los desarrollos logrados por
investigadores, universidades y público en general, son ofrecidos, en calidad de
paquetes complementarios a la versión básica general. Estos son los avances, de manera
muy resumida, que han acontecido en los instrumentos tecnológicos más allá de las
calculadoras científicas básicas que se utilizaban para la mayoría de los estudios
estadísticos de fines de los años ochenta.

La explosión tecnológica tuvo su impacto profundo en la enseñanza y material


bibliográfico relacionado a la materia. No sólo los manuales de uso de estos programas
comenzaron a generar contenido estadístico teórico, sino que los libros de Estadística y
Econometría comenzaron a ser escritos teniendo en cuenta los softwares existentes. Por
tal motivo, comenzaron a suministrar ejercitación en bases de datos de grandes
dimensiones y, además, en agregar nuevos avances en la medida que la abundancia de
los datos era una realidad. Las famosas tablas estadísticas contenidas en los libros,

17
fueron gradualmente reemplazadas por diversos dispositivos de cálculo, tales como
Apps y funciones estadísticas propias, tanto en las planillas de cálculo como en los
softwares. El acceso bibliográfico se hizo mucho más masivo e inmediato, con
innumerable cantidad de obras, producciones tutoriales, publicación de casos, artículos
de contenido científico, entre otras modalidades.

En el nuevo escenario es donde comienza a gestarse algo que se conoce como “ciencia
de datos”. Un contenido disciplinar que parecería querer adoptar una modalidad propia
e incluso, en ocasiones, divorciada de los preceptos de la estadística tradicional. La
ciencia de datos podríamos decir que incluye dos grandes temas, no del todo
independientes uno del otro. Por un lado, el manejo de los grandes datos (conocidos con
el nombre de “Big Data”). Grandes datos, significa muchas cosas en realidad. Por un
lado, implican series estadísticas extensas. Tradicionalmente antes superar el límite de
los 30 o 50 datos era considerado trabajar con muestras grandes, basado en una vieja
idea de convergencia de los modelos probabilísticos. Sin embargo, hoy hablar de ese
volumen de datos es casi irrisorio. Hablamos de series con más de millones de
observaciones. Por otro lado, los datos lejos de dejar su registro histórico o ser estáticos,
se comportan de manera dinámica. Por ejemplo, imaginemos el volumen de llamadas
que realiza un conjunto determinado de personas desde su celular y consideremos tal
serie como una variable estadística de interés. No solamente tendremos como cantidad
un enorme conjunto de personas contactadas, sino que esa serie permanentemente
cambie, instante a instante. El “big data” no es sólo un problema de extensión de la serie
sino también de momento o instante de medición. Muchos de los datos dinámicos,
cambian de manera “on line” y los modelos deben ajustarse permanentemente a esos
cambios, si es que se pretendan tengan una mayor utilidad. Otra dimensión más del “big
data” es la forma en que se manifiesta el dato. El dato dejó ya de ser “el registro
contenido en una planilla” para convertirse en cualquier propiedad o característica
inmediata que presente una unidad de estudio, incluso aquellas que pueden llegar a ser
“no observables”. En este sentido, una variable puede ser una clasificación del “estado
anímico actual de la persona” sin que exista registro del dato en ningún lugar. La
expresión de una foto, los colores de una imagen, el relieve de una superficie presentada
de manera dinámica, la ubicación y desplazamiento de una unidad vehicular, son datos
y no necesariamente presentados o compilados en alguna base de dato o registro escrito.

El segundo ingrediente de la propagación de datos en la era tecnológica, lo constituye el


“aprendizaje automático” (o “machine learning”, de su traducción no del todo feliz del
idioma inglés). El aprendizaje hace referencia a la capacidad de generar algoritmos
matemáticos que conviertan la captación inteligente de los datos en respuestas o
decisiones, basados en la fundamentación de un modelo de funcionamiento. La idea
central es trabajar con un esquema de “estímulo-respuesta” en donde el estímulo
represente el dato capturado y, la respuesta, consista en una decisión. Un ejemplo de
ello, son las recomendaciones que hacen diversas plataformas sobre propuestas
complementarias o relacionadas de las que estamos haciendo uso actualmente. De esta
manera, articulan los motores de búsqueda automáticos que tienen las plataformas como
“Youtube” o “Netflix”, cuando recomiendan o sugieren alternativas relacionadas,
tomando como insumos los movimientos actuales o pasados o la temática de interés.
Muchas de las herramientas en las que se basan la “ciencia de datos”, en estas dos
dimensiones descriptas, constituyen herramientas de naturaleza estadística.

18
1.7.- NECESIDAD DE UNA TEORÍA MATEMÁTICA
Cualquier intento de describir los fenómenos observados lleva implícita cierta
idealización de los datos reales observados. Las fórmulas matemáticas proporcionan un
modelo matemático simplificado del mundo real, una especie de cuadro idealizado de
los rasgos característicos del fenómeno que se investiga.

Los modelos matemáticos se utilizan en muchas disciplinas como la Geometría


Analítica, la Mecánica teórica y diversos campos de la Física. Mediante la medida de
varias cantidades físicas podemos comprobar ciertas regularidades que se cumplen más
o menos exactamente para los valores observados. De manera similar al geómetra, el
físico introduce un modelo matemático idealizado en el que los valores experimentales
observados de varias constantes físicas se sustituyen por valores hipotéticos ciertos,
quedando postulada la validez exacta de las leyes físicas de estos fenómenos aplicados.

El que dicha teoría matemática pueda considerarse como un modelo satisfactorio de los
fenómenos realmente observados es una cuestión que sólo puede decidir la experiencia.
La respuesta dependerá del grado de concordancia existente entre las consecuencias de
la teoría matemática y nuestras observaciones concretas. Cuando, por ejemplo, decimos
que la geometría euclidiana nos proporciona un modelo matemático de la realidad
completamente adecuado a todos los fines prácticos, nos encontramos con una
afirmación que, por la naturaleza de las cosas, no puede ser ni demostrada ni refutada
mediante el razonamiento matemático, sino solamente por la experiencia. Si bien es
sabido que la experiencia confirma plenamente esta afirmación.

19
REFERENCIAS BIBLIOGRÁFICAS

BARBANCHO, A. “ESTADÍSTICA ELEMENTAL MODERNA”. EDITORIAL ARIEL ECONOMÍA.


ISBN: 8434401401. MADRID, 1978.
COCHRANE, W. “SAMPLING TECHNIQUES”. TERCERA EDICIÓN. JOHN WILEY & SON INC.
ISBN 0-471-16240-X. NEW YORK, 1977.
FERGUSON, C – GOULD, J. “TEORÍA MICROECONÓMICA”. FONDO DE CULTURA
ECONÓMICA. ISBN: 9505570007. MÉXICO, 1992.
FREEDMAN, D – PISANI, R – PURVES, R. “ESTADÍSTICA”. SEGUNDA EDICIÓN. ANTONI
BOSCH EDITOR. ISBN: 84-85855-68-X. BARCELONA, 1993.
LEVIN, R – RUBIN, D. “ESTADÍSTICA PARA ADMINISTRACIÓN Y ECONOMÍA”. SÉPTIMA
EDICIÓN. PEARSON EDUCACIÓN. ISBN: 970-26-0497-4. MÉXICO, 2004.

MILLS, F. “MÉTODOS ESTADÍSTICOS APLICADOS A LA ECONOMÍA Y A LOS NEGOCIOS”.


AGUILAR. ISBN: 8460531955. MADRID, 1962.
ROSS, S. M. “INTRODUCCIÓN A LA ESTADÍSTICA”. EDITORIAL REVERTÉ. ISBN: 978-84-
291-5191-6. BARCELONA, 2014.
STEVENSON, W. “ESTADÍSTICA PARA ADMINISTRACIÓN Y ECONOMÍA: CONCEPTO Y
APLICACIÓN”. HARLA, ALFAOMEGA. ISBN: 9701510826. MÉXICO, 2005.
STIGLER, S. “LOS SIETE PILARES DE LA SABIDURÍA ESTADÍSTICA”. EDITORIAL GRANO DE SAL.
ISBN: 9786079773205. MÉXICO, 2017.
TORANZOS, F. “TEORÍA ESTADÍSTICA Y APLICACIONES”. EDICIONES MACCHI. ISBN: 950-
537-404-6. BUENOS AIRES, 1997.

20

También podría gustarte