Documentos de Académico
Documentos de Profesional
Documentos de Cultura
- INTRODUCCIÓN
1
El autor español Alfonso Barbancho, presenta la palabra “Estadística” bajo dos
dimensiones o significados:
El autor argentino que ha sido y seguirá siendo muy referente en la materia, Fausto
Toranzos ha preferido no definir a la Estadística, porque los fenómenos fundamentales
no tienen, según su criterio, una definición explícita o, si la tienen, no es ella lo
suficientemente clara como para darnos una idea acabada de su significado.
Concordando con Barbancho, Toranzos ha asegurado que el objeto de los estudios
estadísticos está en los fenómenos que se refieren a poblaciones muy numerosas,
formada por individuos semejantes respecto a un atributo. Como los métodos
deterministas son inaplicables al estudio de estos fenómenos, los que se encuentran
profundamente influenciados por el azar, la forma de abordarlos es mediante el uso de
la “teoría de las probabilidades” y una metodología estadística apropiada para obtener
conclusiones válidas acerca del atributo de la población que se pretenda estudiar.
1
Barbancho hace referencia al “colectivo” como sinónimo de selección de casos o muestra, el que se utiliza con el
objeto de estudiar “fenómenos o regularidades de masa”, concepto que se aproxima al de Población estadística.
2
Esta variedad de motivaciones ha inclinado a Stigler a preocuparse más en definir los
fundamentos o núcleos duros (los llamados “pilares” en su obra) que esforzarse por
definirla siempre con algún tipo de reparo u objeción.
3
Política enseña cómo deben ser los Estados y la Estadística explica cómo éstos
realmente son.
4
En 1835 aproximadamente, la Estadística se circunscribía prácticamente al capítulo que
hoy conocemos como “Series de frecuencias” y dentro de este capítulo, únicamente se
utilizaban las aproximaciones de la función normal de Gauss. Fue con el aporte de Lexis
que, a partir de los estudios encaminados por Quetelec se probó que no era solamente la
curva normal la que servía como marco referencial en la modelización de una serie de
frecuencias. Pearson y Charlier luego completan la obra iniciada por Lexis.
Los capítulos más importantes de la Estadística Moderna, son además del estudio
descriptivo de las series de frecuencias, la teoría de la regresión y correlación, la teoría
de las muestras y el estudio de series de tiempo y los procesos estocásticos. Todas estas
teorías más recientes se iniciaron en los trabajos de la escuela estadística inglesa
fundamentalmente por los aportes de Galton, Pearson y en especial, Fisher. Con Fisher
la Estadística se orienta rápidamente al estudio de diseños de experimentos,
metodología fundamental para las ciencias aplicadas y básicas. Fue Fisher y sus
discípulos quienes desarrollaron y estructuraron de manera muy particular la teoría de
las pequeñas muestras y adquiere cierta fisonomía de contenidos a la que hoy
medianamente conocemos. Es por este motivo que suele asignársele a Fisher el rol de
padrinazgo de la Estadística Moderna o actual.
5
superados si se diseña una muestra lo suficientemente representativa de la población
utilizando algún método de selección estadística. Si bien, la era de la informática, ha
reducido sustancialmente los costos de obtener información relativa a las poblaciones y
han permitido obtener mayor precisión de las estimaciones, aun así, lo que logramos
obtener, son casi siempre muestras de poblaciones de referencia.
6
porqué ello ocurre, reside en que los fenómenos económicos son de naturaleza
fundamentalmente aleatoria o hay en ellos una combinación de dos componentes:
sistemáticos o aleatorios en distintas proporciones.
7
gobiernos. La elaboración de las cuentas nacionales de ingreso y producto para un país
determinado requieren la equiparación, el empalme y la conciliación de las estimaciones
y registros económicos de diversas fuentes.
8
Vamos a referirnos ahora brevemente al rol que cumple la Estadística en la empresa y la
Administración. Tomaremos como referencia el libro de F. Mills, “Métodos Estadísticos
aplicados a la Economía y a los negocios”. En general podemos decir que las tareas con
las que se enfrentan los hombres de negocios pueden dividirse en tres clases:
De acuerdo con F. Mills, el comerciante moderno se encuentra sitiado por los precios. La
palabra “sitiado” no resulta en este contexto inadecuada pues el mundo de precios en el
que el comerciante se desenvuelve constituye un sistema coherente, consistente y bien
articulado de diferentes partes interdependientes que envuelve toda su actividad
comercial. Puesto que el sistema se halla fuera del control del individuo, será el
empresario quien deberá adaptarse a éste basando sus actividades en base a un
conocimiento amplio ya que sin el mismo se le dificultará aún más la resolución de los
problemas comerciales. De los tres problemas que hemos distinguido, Mills sólo estudia
los dos últimos, no porque el primero no pueda estudiarse con métodos estadísticos sino
por ser estos especialmente apropiados para análisis monetarios. Sin embargo, respecto
a los conceptos englobados en la primera categoría es importante destacar que son
fundamentalmente los ingenieros los que desarrollan e implementan muchos
procedimientos estadísticos tendientes a estudiar relaciones físicas de insumos o
establecer valores de referencia para juzgar si un proceso estadístico se encuentra bajo
control y la calidad de los productos reúnen las especificaciones deseadas.
En los casos en los que el empresario se enfrenta con el mercado para realizar
operaciones comerciales aparecen nuevos problemas. Es común que el empresario se
enfrente al fenómeno de los ciclos comerciales y se vea obligado a adaptar su política
9
comercial a la oscilación de dichos períodos, por lo cual tiene la necesidad de realizar un
análisis de tales fenómenos empleando instrumentos apropiados para esta tarea. Otro
factor de relevancia es el efecto que tiene la depreciación de la moneda sobre la marcha
y rentabilidad de los negocios. Buena parte de los estudios dirigidos a saber si realmente
la empresa obtiene beneficios frente a la inflación, constituyen aportes basados en
métodos de naturaleza estadística.
Algo más distante de los intereses directos de los empresarios, pero llenos de interés
para un administrador o economista, se haya presente en el problema relativo al proceso
económico de distribución y logística y de la asignación de los beneficios entre los
factores que intervienen en la producción. El problema citado de determinación de
precios y valores es de naturaleza fundamentalmente cuantitativa y para su tratamiento
se requiere comúnmente de los métodos estadísticos de investigación.
En segundo lugar, los datos pueden ser expresados en magnitudes numéricas o a través
de propiedades cualitativas. El peso, la edad, la altura o el coeficiente intelectual de las
personas son algunos ejemplos del primer caso. En tanto, el color de ojos, de cabello, el
estado de ánimo, su nivel educativo, son algunos casos de propiedades cualitativas. Con
la aparición de las nuevas técnicas de captación de datos, muchas de estas magnitudes
o propiedades pueden ser obtenidas sin la necesidad de escribir o ver plasmada esa
magnitud en una planilla. La dinámica ubicación a través del GPS de un celular, por
ejemplo, permite saber dónde está ubicada esa persona, situación que cambiará en
segundos una vez que esa persona se desplace. La ubicación “on line” de una persona,
de un vehículo, etc. también son datos estadísticos, aunque no se vean plasmados en una
matriz de datos.
10
Un tercer aspecto a tenerse muy en cuenta es la “actitud” que tiene el investigador o
estadístico frente a los datos. Los mismos pueden ser recolectados a partir del natural
comportamiento que presenten los individuos o las unidades de análisis. Se podría
indagar a una persona sobre su edad, sexo, barrio de residencia, cantidad de personas
con las que convive, entre otras cuestiones. De esta manera, por más que se generen
instrumentos para la captación de los datos (encuestas, por ejemplo) el investigador
cumple un rol pasivo sin poder influir en esos valores: Obtiene los datos, los procesa y
los analiza estadísticamente. Si nos referimos a la naturaleza, la compilación de datos
que se observan (dado que el hombre no los puede controlar) se denomina “fenómenos”.
No obstante, hay otro tipo de captación de datos y representan los que se obtienen
cuando se someten a las unidades de estudio a un estudio de carácter experimental. Al
igual que lo haría un físico o un químico, se podrían obtener datos sobre la reacción que
tienen las personas a cierto tipo de medicamento, o al comportamiento que presentan
ciertas semillas cuando se las trata de hacer germinar bajo diferentes condiciones
ambientales. En ambos casos, la participación del estadístico impone las condiciones y
diseña un experimento capaz de generar datos que luego son analizados y estudiados
con diversas herramientas estadísticas. Estos experimentos se denominan justamente
“experimentos estadísticos” o “diseño experimental”.
2
Freedman, D – Pisani, R – Purves, R – “Estadística”. Segunda Edición. Antoni Bosh Editor. Barcelona,
1993.
11
palabras, los datos estadísticos representan números que pueden ser comparados,
analizados e interpretados. Un número aislado que no se compara o que no muestra una
relación significativa con otro, no constituye un dato estadístico. Por ejemplo, la edad de
una persona por sí sola, no constituye un dato estadístico en la medida que no exista otra
medición para su comparación. De igual forma, las “estadísticas” de un paciente en una
serie de resultados clínicos no son datos estadísticos si no se dispone de patrones para
su comparación. Sin embargo, la información relativa a las estaturas (por ejemplo) de
todos sus pacientes dentro de un cierto período de tiempo sí son datos establecidos,
puesto que las estaturas pueden ser comparadas, analizadas e interpretadas de acuerdo
con sus relaciones con individuos.
Un aspecto muy importante a tener presente es que muchos de los fenómenos que se
refieren al comportamiento de las poblaciones numerosas no son susceptibles de tratarse
mediante un método científico que explique una relación del tipo causa-efecto. Por el
contrario, se manifiestan no sometidos a leyes sistemáticas y entonces, gobernados o
influenciados por el azar. Por lo tanto, podemos considerar estos fenómenos de
naturaleza aleatoria. La característica de los fenómenos aleatorios es que, en situaciones
idénticas, pueden obtenerse comportamientos diversos de los individuos, en contra del
principio determinista que exige idénticos resultados en situaciones idénticas. En esta
instancia es que se hacen presente los métodos estadísticos y probabilísticos, los cuáles
no buscan que se cumplan leyes o regularidades en el comportamiento de los individuos,
sino en el promedio para un gran número de ellos, donde se pueden evidenciar leyes
más estables que pueden ser la base para una estructuración científica más amplia que
la determinística causal.
Una vez definido el problema que se desea analizar y el tipo de datos que se necesitan,
el método estadístico en su fase inicial, consistirá en recoger datos, generalmente en un
gran número de ellos, referidos al comportamiento de los individuos de la población
respecto del fenómeno que se estudia. Los datos, convenientemente clasificados y
tabulados, sirven de base para la elaboración de un estudio formal conducente a obtener
leyes y resultados que expresan modalidades características del comportamiento
promedio de la población. La Estadística cumple así su primer objetivo: Describir. A
menudo describir no es suficiente y se hace necesario predecir el comportamiento
promedio de una población en el futuro, apoyándose en el conocimiento del presente y
del pasado. El problema de la predicción resulta ser más difícil, pero en su tratamiento
por lo general se obtienen importantes resultados por vía de la inferencia. Esta parte de
la Estadística se conoce con el nombre de predicción estadística.
12
parte de la población (llamada muestra) la que bajo ciertas condiciones resulta ser
representativa de toda la población.
El contexto desde donde los datos estadísticos son recopilados es a partir de una
población o universo. Por otra parte, una población puede ser finita o infinita y la tarea
de compilar conjuntos de datos de una población finita pequeña puede resultar algo
sencillo. Si se desea obtener las edades de 25 estudiantes pertenecientes a una clase de
inglés, simplemente se podría preguntar a cada estudiante su edad y así obtener un
conjunto completo de datos. Sin embargo, recopilar los datos de una población finita
pero grande resulta muchas veces imposible o impracticable. A fin de evitar la tarea poco
práctica de obtener los datos completos de una población se recurre a obtener una
muestra de elementos representativos de la misma. Es entonces cuando las muestras son
utilizadas para el estudio estadístico y los resultados de la misma usadas para describir,
estimar o predecir las características de la población.
Estrictamente hablando no hay una línea definitiva que separe los cinco pasos básicos
del análisis estadístico. Algunos de los métodos empleados pueden ser utilizados en más
de un paso. Sin embargo, la división nos proporciona un orden lógico para estudiar los
métodos estadísticos.
13
(2) A través de encuestas de datos originales. La compilación de datos externos, por lo
general resulta de un proceso costoso, tedioso, que consume mucho tiempo y del cual se
debe estar muy convencido respecto a la veracidad de las fuentes consultadas.
a) Mediante enunciados.
b) Mediante tablas estadísticas.
c) Mediante gráficos.
Los enunciados resultan una forma práctica de presentar la información estadística sólo
en los casos donde se dispongan de poca cantidad. Las tablas estadísticas son apreciadas
por los lectores y existen varias formas de construirlas como se verá más adelante en el
curso. Finalmente, los gráficos o diagramas estadísticos resultan ser una presentación
que, siendo bien presentada puede ayudar a los usuarios de la información a adquirir
muchos conocimientos de sólo un vistazo. Sin embargo, un gráfico usualmente
proporciona al lector un valor aproximado de los hechos. Si se desea un valor exacto es
preferible hacerlo mediante el uso de una tabla estadística o de ciertos indicadores
estadísticos calculados a partir de ésta.
Análisis de las relaciones. Los métodos empleados en analizar datos estadísticos son
múltiples. Partiendo desde la simple observación de los datos hasta llegar a métodos
complicados y de investigación con fuerte sesgo matemático. Algunos de estos métodos
serán estudiados a lo largo del desarrollo del curso.
14
uso. Los mismos fueron explicitados por Stephen M. Stigler, justamente en su libro “Los
siete pilares de la sabiduría estadística”.3
Primer pilar: Agregación. El mismo puede ser resumido diciendo que algunos criterios
utilizados para la reducción de datos pueden traer aparejados mayor conocimiento
estadístico. De esta manera, resumir información en tablas estadísticas o calcular
promedios puede implicar mayor conocimiento que disponer todos los datos en bruto.
Tercer pilar: Verosimilitud. Las inferencias estadísticas se valen del uso del concepto de
probabilidad. Hay hipótesis de investigación que pueden ser aceptadas o rechazadas
mediante el uso apropiado del concepto de probabilidad.
Quinto pilar: Regresión. Las implicancias de este punto son múltiples y, algunas de ellas,
escapan al alcance de este material introductorio. Pero, rescatando aquellos puntos más
relevantes diremos que, en Estadística, la extrapolación tiene alcance muy limitado.
Basado en la regla de tres simple, la suposición de valores aplicando dicho concepto se
ve opacado por la variabilidad muestral. De esta manera, la mayoría de las relaciones
estadísticas que se pueden describir con los datos por más correlacionados que los
mismos se encuentren, lejos están de presentarse como causales. El quinto pilar tiene
implicancias en las distribuciones bi y multivariadas de probabilidad, inferencias de tipo
bayesianas y causales.
Sexto pilar: Diseño. Si bien la mayoría de los estudios estadísticos en ciencias sociales
(Economía, Administración, Finanzas, etc) son de naturaleza observacional, algunos
aspectos relacionados con la planificación y ejecución en la que los experimentos
estadísticos son realizados en las ciencias básicas pueden ser utilizados, aún para el
proceso de obtener y compilar los datos. Los principios del diseño experimental que son:
formación de bloques, aleatorización, control de los factores y análisis de sus
interacciones deberían tenerse presente en algunas etapas de la investigación de las
ciencias sociales.
Séptimo pilar: Residuo. Todo lo que un modelo estadístico no logra explicar o capturar,
se considera como residuo estadístico y constituye la base para la formulación de un
modelo en sí mismo. La utilización de modelos de regresión por etapas o secuenciales,
anidamiento y/o inclusión de variables no contempladas en el modelo original
constituyen herramientas estadísticas tendientes a reducir al máximo exponente los
residuos que origina el modelo ensayado. El mejor modelo que explica el
3
Stigler, S. “Los siete pilares de la sabiduría estadística”. Editorial Grano de Sal, México, 2017.
15
comportamiento de los datos es aquel que, con la menor cantidad de variables posible,
logra explicar en mayor medida las variaciones de la variable que se pretende estudiar.
En las conclusiones de su libro, Stigler explica cómo estos pilares inciden uno en otro y
cómo deberían interpretarse en el contexto de la nueva era de la Estadística, con la
aparición del Big Data y el Aprendizaje Automático que seguidamente se citará. Los
pilares de la Estadística son los fundamentos de los cuáles no se puede prescindir,
dejando la posibilidad que aparezca un octavo pilar, al que el mencionado autor no
descarta pero que lo considera como bastante inverosímil, atendiendo el grado de
madurez y avance que ha tenido la disciplina a lo largo de los siglos. Puede considerarse
como “inoportuna” la intervención de este punto a esta altura del estudio de la materia,
pero debería volverse una y otra vez, incluso leyendo la obra original de Stigler cada vez
se avance con el desarrollo de los temas.
16
que se sucedieron fueron más profundos y radicales. Por un lado, la aparición de los
motores de búsqueda de datos asociados al uso de la red de información y, por el otro,
a la aparición de nuevos dispositivos inteligentes que se agregaron a las computadoras
personales (tales como celulares, tablets, notebooks, agendas electrónicas, entre otros
tantos). La explosión de dispositivos comenzó a generar importante caudal de
información de todo tipo y con ello, lo que antes resultado escaso y privativo, comenzó
a manifestarse en una faceta completamente distinta. Grandes volúmenes de datos que
podían ser organizados fueron requiriendo estructuras de análisis y programas cada vez
más sofisticados. No solamente los aplicativos de Windows fueron actualizándose e
incorporando nuevas e ingeniosas funciones, sino también la competencia de muchos
softwares en Estadística y Econometría, fueron abaratando y haciendo más accesible su
llegada a diferentes tipos de usuarios, incluyendo empresas y personas. De esta manera,
aparecen softwares como el “Statistical Package for the Social Sciences (SPSS)” cuyos
principales demandantes fueron empresas quienes contrataban su licencia para la
realización de planes de marketing, mercadotecnia, finanzas corporativas, etc. Junto al
SPSS y el siempre vigente y robusto SAS, surgieron también STATA, EVIEWS, nuevas
versiones del MINITAB,… La mayoría de estos softwares comparten un elemento
común: la familiaridad con el entorno Windows. Sin embargo, al continuo crecimiento
de los datos, las mismas planillas de datos comenzaron a resultar incómodas y hasta
pequeñas. Las primeras versiones de excel contaban con 256 columnas y 65.536 filas.
Actualmente, cuentan con 16.384 columnas y 1.048.576 filas y, aun así, a veces resultan
un tanto limitadas. Con el desarrollo del SAS y, fundamentalmente de los programas
ejecutados en lenguaje de código abierto, como por ejemplo el MATLAB, se comenzó a
incorporar ciertos lenguajes de programación para trabajar el manejo de datos masivos.
Tanto SAS como MATLAB son lenguajes en código abierto, pero arancelados. A
mediados de la primera década del nuevo milenio, comenzaron a difundirse programas
en lenguaje en código abierto más específicos, flexibles, muy compatibles con las
versiones aranceladas y, fundamentalmente, no arancelados. El fenómeno generó una
expansión vertiginosa en el uso de los mismos, particularmente de GNU-OCTAVE (la
versión gratuita del MATLAB) y de R y Python (la versión gratuita y familiar del SAS).
Los primeros de ellos asociados al uso de la Matemática y el Álgebra; el segundo grupo,
asociados al manejo de datos, la Estadística y la Econometría.
Los lenguajes en código abierto traen aparejados otras grandes ventajas, además de su
flexibilidad: generan comunidad. De esta manera, los desarrollos logrados por
investigadores, universidades y público en general, son ofrecidos, en calidad de
paquetes complementarios a la versión básica general. Estos son los avances, de manera
muy resumida, que han acontecido en los instrumentos tecnológicos más allá de las
calculadoras científicas básicas que se utilizaban para la mayoría de los estudios
estadísticos de fines de los años ochenta.
17
fueron gradualmente reemplazadas por diversos dispositivos de cálculo, tales como
Apps y funciones estadísticas propias, tanto en las planillas de cálculo como en los
softwares. El acceso bibliográfico se hizo mucho más masivo e inmediato, con
innumerable cantidad de obras, producciones tutoriales, publicación de casos, artículos
de contenido científico, entre otras modalidades.
En el nuevo escenario es donde comienza a gestarse algo que se conoce como “ciencia
de datos”. Un contenido disciplinar que parecería querer adoptar una modalidad propia
e incluso, en ocasiones, divorciada de los preceptos de la estadística tradicional. La
ciencia de datos podríamos decir que incluye dos grandes temas, no del todo
independientes uno del otro. Por un lado, el manejo de los grandes datos (conocidos con
el nombre de “Big Data”). Grandes datos, significa muchas cosas en realidad. Por un
lado, implican series estadísticas extensas. Tradicionalmente antes superar el límite de
los 30 o 50 datos era considerado trabajar con muestras grandes, basado en una vieja
idea de convergencia de los modelos probabilísticos. Sin embargo, hoy hablar de ese
volumen de datos es casi irrisorio. Hablamos de series con más de millones de
observaciones. Por otro lado, los datos lejos de dejar su registro histórico o ser estáticos,
se comportan de manera dinámica. Por ejemplo, imaginemos el volumen de llamadas
que realiza un conjunto determinado de personas desde su celular y consideremos tal
serie como una variable estadística de interés. No solamente tendremos como cantidad
un enorme conjunto de personas contactadas, sino que esa serie permanentemente
cambie, instante a instante. El “big data” no es sólo un problema de extensión de la serie
sino también de momento o instante de medición. Muchos de los datos dinámicos,
cambian de manera “on line” y los modelos deben ajustarse permanentemente a esos
cambios, si es que se pretendan tengan una mayor utilidad. Otra dimensión más del “big
data” es la forma en que se manifiesta el dato. El dato dejó ya de ser “el registro
contenido en una planilla” para convertirse en cualquier propiedad o característica
inmediata que presente una unidad de estudio, incluso aquellas que pueden llegar a ser
“no observables”. En este sentido, una variable puede ser una clasificación del “estado
anímico actual de la persona” sin que exista registro del dato en ningún lugar. La
expresión de una foto, los colores de una imagen, el relieve de una superficie presentada
de manera dinámica, la ubicación y desplazamiento de una unidad vehicular, son datos
y no necesariamente presentados o compilados en alguna base de dato o registro escrito.
18
1.7.- NECESIDAD DE UNA TEORÍA MATEMÁTICA
Cualquier intento de describir los fenómenos observados lleva implícita cierta
idealización de los datos reales observados. Las fórmulas matemáticas proporcionan un
modelo matemático simplificado del mundo real, una especie de cuadro idealizado de
los rasgos característicos del fenómeno que se investiga.
El que dicha teoría matemática pueda considerarse como un modelo satisfactorio de los
fenómenos realmente observados es una cuestión que sólo puede decidir la experiencia.
La respuesta dependerá del grado de concordancia existente entre las consecuencias de
la teoría matemática y nuestras observaciones concretas. Cuando, por ejemplo, decimos
que la geometría euclidiana nos proporciona un modelo matemático de la realidad
completamente adecuado a todos los fines prácticos, nos encontramos con una
afirmación que, por la naturaleza de las cosas, no puede ser ni demostrada ni refutada
mediante el razonamiento matemático, sino solamente por la experiencia. Si bien es
sabido que la experiencia confirma plenamente esta afirmación.
19
REFERENCIAS BIBLIOGRÁFICAS
20