Está en la página 1de 19

Business Analytics

Nociones básicas de estadística

Sesión 1
Business Analytics

ÍNDICE

1. Repaso de conceptos básicos de estadística y correlaciones........................................................ 3

1.1. Repaso de conceptos básicos de estadística......................................................................3

1.2. Correlaciones..................................................................................................................12

1.3 Tipos de datos..................................................................................................................18

Referencias................................................................................................................................... 19

Sesión 1 2
Business Analytics

1. Repaso de conceptos básicos de estadística y correlaciones

En las organizaciones se gesta una gran cantidad de datos, los cuales necesitan ser organizados, analizados, resumi-
dos y clasificados. Es importante recordar que los datos representan la realidad que viven las empresas, ya que, a
través de éstos, se puede conocer el nivel de ventas, la cantidad de unidades producidas, las mermas que se generan
en un periodo de tiempo determinado, entre otros datos que son de suma importancia para la toma de decisiones.

Lo anterior, parece una tarea compleja y difícil de realizar, afortunadamente se puede recurrir a la estadística para
manejar la información de manera óptima.

1.1. Repaso de conceptos básicos de estadística

En palabras de Laguna (2014) la estadística:

Se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades
y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca
de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a
la toma de decisiones y en su caso formular predicciones (pp. 1-2).

La estadística no sólo puede aplicarse al mundo de los negocios, por el contrario, se puede aplicar en diversas áreas
de conocimiento, tal y como se muestra en la siguiente figura.

Sesión 1 3
Business Analytics

Figura 1. Aplicaciones de la Estadística.

Negocios Realizar pronósticos financieros

Controlar estadísticamente la calidad

Medicina Medir la evolución de enfermedades


Aplicaciones de la estadística

Determinar los índices de mortalidad

Economía Estimar la demanda

Calcular el índice de precios al consumidor

Psicología Validar la consistencia de las pruebas psicométricas

Identificar las tendencias de una población

Educación Cuantificar la desercion, eficiencia terminal, reproba-


ción y aprobación en un determinado nivel escolar

Generar datos demógraficos (edad, sexo, etcétera)

Sesión 1 4
Business Analytics

La estadística suele clasificarse en dos categorías.

Figura 2. Tipos de Estadística.

Tipos de
estadística Descriptiva

Inferencial

Para fines prácticos de esta asignatura, profundizaremos un poco en la estadística descriptiva. En la experiencia
de Lind, Marchal y Wathen (2012, p. 6) la estadística descriptiva es definida como “[…] los métodos para organizar,
resumir y presentar datos de manera informativa”. Con este tipo de estadística se pueden describir y graficar un
conjunto de datos en específico. Por ejemplo, una empresa podría realizar un pronóstico de ventas mediante el
uso de la correlación (tema que revisarás más adelante) con éste se puede predecir el posible nivel de ventas en
años venideros, utilizando la proyección de los datos históricos. Para comprender como describir o correlacionar la
información, es necesario que revises los siguientes conceptos básicos.

Población
El primer concepto a revisar es la población, de acuerdo con el Instituto Nacional de Estadísticas (ine) (s.f.) la po-
blación “[…] se refiere al conjunto de elementos que se quiere investigar, estos elementos pueden ser objetos,
acontecimientos, situaciones o grupo de personas”. Por ejemplo, en Ecuador el Instituto Nacional de Estadísticas y
Censos (inec) realiza cada 10 años un censo poblacional, donde se encuesta a toda la población para determinar las
características económicas, sociales y demográficas del país.

Muestra
Existen escenarios donde resulte imposible trabajar con todos los individuos que conforman una población, en este
caso, se sugiere trabajar con lo que se conoce como Muestra. Desde el punto de vista de Lind, Marchal y Wathen
(2012, p. 7) la Muestra es “[…] la porción o parte de la población de interés”.

Para facilitar la comprensión de este tema revisa el siguiente ejemplo: Un centro escolar tiene una población escolar
de 3000 alumnos, por lo que realizar una investigación a toda la población escolar sobre las causas de la deserción
de sus alumnos, podría ser muy costoso en términos de tiempo y economía. Ante este escenario, se puede utilizar
una muestra que ayude a representar el comportamiento general de la población.

Sesión 1 5
Business Analytics

Son dos los principales tipos de muestreo:

• Muestreo probabilístico
• Muestreo no probabilístico

En el caso de este último, éste se divide en los siguientes tipos:

• Muestreo aleatorio simple


• Muestreo sistemático
• Muestreo estratificado

Muestreo aleatorio simple

A juicio de Laguna (2014) el muestreo aleatorio simple es: “[…] aquel en el que cada unidad de muestreo de la po-
blación tiene la misma probabilidad de ser seleccionado. La probabilidad que tiene cada individuo de pertenecer a
la muestra se le denomina fracción de muestreo: f= n/N” (p. 9).

Supongamos que una empresa va a realizar una encuesta sobre clima laboral; su población es de 500 trabajadores,
por lo que han decidido realizar un muestreo aleatorio simple. Para esto se han colocado los nombres en una hoja
de cálculo capaz de generar números aleatorios, los 50 números generados por el programa serán aquellos que
servirán para realizar la encuesta.

Muestreo sistemático

El muestreo sistemático se realiza:

Cuando los elementos de la población están ordenados en una lista, [y] podemos muestrear de la
siguiente forma:

• En primer lugar, se calcula la constante de muestreo k=N/n.


• Se elige aleatoriamente un número de arranque r entre 1 y k, donde k es la parte entera
de N/n.
• Se le suma a r (primera unidad elegida) la constante k, sucesivamente hasta completar el
tamaño de la muestra (Laguna, 2014, p. 9).

Sesión 1 6
Business Analytics

Imagina que en la empresa del ejemplo anterior han decidido usar el muestreo sistemático, y trabajan directamen-
te con la lista de trabajadores y definen su constante de muestreo en k=10. Esto implica que comenzarán desde
el número 1 de la lista (número de arranque) y que seleccionarán un trabajador cada 10, hasta que se complete la
muestra que de 50 trabajadores.

Muestreo estratificado

Finalmente, el muestreo estratificado se emplea:

Cuando se desea asegurar la representatividad de determinados subgrupos o estratos de la po-


blación, la alternativa más sencilla es seleccionar por separado distintas submuestras dentro de
cada estrato. Los estratos han de definir subgrupos de población que sean internamente homo-
géneos con respecto a la característica o parámetro de interés y, por tanto, heterogéneos entre sí.

Para la selección de una muestra estratificada de tamaño n, la población de N unidades se divide


en L estratos de tamaños N1, N2, ..., NL, cuya suma es igual a N.

• Decidir el número de variables elegidas para la estratificación.


• Elegir las variables de la estratificación e indicar el orden de estas variables, escogiendo
como primera la que más discrimina.
• Distribuir la muestra en cada estrato: afijación.
• Que la muestra sea representativa de cada estrato y que cada estrato esté suficientemen-
te representado para poder tomar como válidos los resultados obtenidos (Laguna, 2014,
p. 10).

Para comprender lo anterior, imagina una empresa armadora de vehículos, la cual va a realizar un diagnóstico de
necesidades de capacitación (DNC) en los departamentos de pintura, hojalatería y motores. La población total de
estos tres departamentos es de 3000 trabajadores, por tal razón se ha decidido dividir por estratos (decidir el número
de variables para la estratificación) quedando de la siguiente manera:

• Pintura: 1300
• Hojalatería: 1100 Elegir las variables de la estratificación e indicar el orden de
• Motores: 600 estas variables, escogiendo como primera la que más discrimina.

Sesión 1 7
Business Analytics

Tomando en cuenta las recomendaciones de Laguna, hay que distribuir la muestra en cada estrato y procurar que la
muestra sea representativa de cada uno, y que cada estrato esté suficientemente representado para tomar como
válidos los resultados obtenidos. Para facilitar la compresión de este punto será necesario que revises el siguiente
cuadro:

Cuadro 1. Muestra por estratos.

Estrato Trabajadores Porcentaje Muestra

43 %
Pintura 1300 (1300 / 3000 = 0.43) 43
(0.43*100 =43 %)

36.6 %
Hojalatería 1100 (1100/3000 = 0.366 ~ 0.37) 37
(0.37*100= 37%)

20%
Motores 600 (600/3000= 0.2) 20
(0.2 *100 = 20%)

Sumando las muestras por cada estrato, puedes conformar la muestra total que sería de 100 trabajadores.

El muestreo no probabilístico se subdivide de la siguiente manera:

• Muestreo por conveniencia


• Muestreo por cuotas
• Muestreo de bola de nieve
• Muestreo discrecional

Como ya se mencionó, sólo se profundizará en el muestreo probabilístico, ya que el muestreo no probabilístico tiene
como desventaja que no puede representar al total de la población. Vale la pena que profundices en otras fuentes
a fin de conocer más, ya que este tipo de muestreo es ampliamente utilizado en la investigación social.

Sesión 1 8
Business Analytics

Medidas de tendencia central

Ahora que conoces como se representan los datos, ha llegado el momento de analizar las Medidas de tendencia
central, que de acuerdo con Quevedo (2011) son […] medidas estadísticas que pretenden resumir en un solo valor
a un conjunto de valores. Representan un centro en torno al cual se encuentra ubicado el conjunto de los datos. Las
medidas de tendencia central más utilizadas son: media, mediana y moda (p. 1).

Media

La media o promedio aritmético es la medida de tendencia central más utilizada, y se calcula como la suma del con-
junto de valores dividida entre n valores. La siguiente fórmula resume este proceso.

Figura 3. Fórmula de media aritmética

X
Es importante recordar que la media es un punto de equilibrio dentro de un conjunto de datos, tal y como lo puedes
apreciar a través de la siguiente figura.

Figura 4. Punto de equilibrio que brinda la media.

Elaborado a partir de Lind, Marchal y Wathen (2012).

Sesión 1 9
Business Analytics

La media tiene un sinfín de aplicaciones en diferentes disciplinas científicas. Por ejemplo, la Empresa X desea deter-
minar el promedio de producción diaria El siguiente cuadro muestra las unidades producidas:

Cuadro 2. Unidades producidas por la empresa X.

Día Unidades producidas

1 58

2 48

3 55

4 51

5 50

6 50

7 53

8 49

9 40

10 51

Si empleas la fórmula que aparece en la Figura 3, obtendrás que el promedio de producción diaria es de: 56.4 uni-
dades diarias.

Mediana

La mediana, en palabras de Lind, Marchal y Wathen (2012), es el “[…] punto medio de los valores una vez que se han
ordenado de menor a mayor o de mayor a menor” (p. 64). Para comprender este concepto, lee el siguiente ejercicio:

Una tienda departamental desea conocer la mediana de la lista de precios que maneja. El Producto 1 tiene un precio
de $275,000; el Producto 2, $80,000; el Producto 3, $60,000; el Producto 4, $65,000; y el Producto 5, $70,000.

Como primer paso tienes que ordenar los datos, de menor a mayor o viceversa. La mediana será el número que se
encuentre a la mitad de la lista, en este caso sería $70, 000. Observa la siguiente figura para visualizar el proceso.

Sesión 1 10
Business Analytics

Figura 5. Proceso para calcular la mediana

Lista de Precios (ordenada de menor a mayor)

$60,000

$65,000

$70,000

$80,000

$275,000 La mediana sería $70,000.00

En el ejemplo anterior, la mediana se calculó de acuerdo con una cantidad impar de datos. En el caso de una canti-
dad de datos par, se debe encontrar el par central de números y después calcular su promedio. La siguiente figura
te muestra el proceso.

Figura 6. Proceso para calcular la mediana (cantidad de datos par).

3, 13, 7, 5, 21, 23, 23, 40, 23, 14, 12, 56, 23, 29
• Si ordenamos los números:
3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 40, 56
• Ahora hay catorce números, así que no tenemos solo uno en el medio, sino un par:
3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 40, 56
• En este ejemplo los números intermedios son 21 y 23.
• Para calcular el valor medio de ambos, se suman y el resultado se divide entre 2:
21 + 23 = 44
luego 44 + 2 = 22
• La Mediana es 22.

Elaborado a partir de Disfruta las matemáticas (s.f.).

Sesión 1 11
Business Analytics

Moda

La Moda se define, de acuerdo con las afirmaciones de Lind, Marchal y Wathen (2012, p. 65), como el “[…] valor de
la observación que aparece con mayor frecuencia.” Supongamos que un determinado producto de una empresa ha
tenido cierta variación semanal en sus precios: $35.00, $37.00, $40.00, $40.00, $40.00, $42.00 y $39.00

Retomando la definición anterior, tenemos que observar y seleccionar aquel número que se repite la mayor cantidad
de veces (frecuencia). En este caso, la moda sería $40.00. La siguiente figura muestra el proceso.

Figura 7. Cálculo de la Moda

$35 $37 $40 $40 $40 $42 $39

Moda = $40

Ahora que conoces los conceptos básicos de la estadística descriptiva, ha llegado el momento de que te adentres en
el método de correlación, con el que podrás cuantificar el grado de relación entre dos variables.

1.2. Correlaciones

En las organizaciones existen situaciones donde se analiza la relación entre dos variables; por ejemplo, se puede
analizar la relación entre la motivación del personal de acuerdo con sus condiciones salariales o bien, discriminar la
relación entre las ventas y la inversión que se realiza en publicidad. Los ejemplos anteriores son una muestra de la
utilidad que tiene la correlación en el ámbito laboral.

Para Vinuesa (2016) la correlación es:

Es una medida de la relación (covariación) lineal entre dos variables cuantitativas continuas
(x, y). La manera más sencilla de saber si dos variables están correlacionadas es determinar si
covarían (varían conjuntamente). Es importante hacer notar que esta covariación no implica
necesariamente causalidad, la correlación puede ser fortuita, como en el caso clásico de la
correlación entre el número de venta de helados e incendios, debido al efecto de una tercera
variable, la temperatura ambiental (p. 2).

Sesión 1 12
Business Analytics

En otras palabras, el análisis de correlación consiste en establecer (predecir) una relación de una variable (Y) a partir
de otra (X). La relación puede ser directa o indirecta, tal y como lo muestra la siguiente figura.

Figura 8. Relación inversa y directa

X Relación directa X Relación inversa

Pendiente Pendiente

(+) (-)

Y Y
Variable independiente Variable independiente

Elaborado a partir de unam (s.f., p. 3).

Para que realizar un análisis de correlación, en primera instancia se establece la relación de las variables, es decir se
analiza cuál será la variable independiente, simbolizada con una X, y cual la variable dependiente, que se simbolizará
con la letra Y; ésta variable cambiará en relación con la variable independiente.

Otro aspecto fundamental del análisis recae en el coeficiente de correlación. Desde la posición de Lind, Marchal y
Wathen (2012) este coeficiente:

Describe la fuerza de la relación entre dos conjuntos de variables en escala de intervalo o de


razón. Se designa con la letra r, y con frecuencia se le conoce como r de Pearson y coeficiente
de correlación producto-momento. Puede adoptar cualquier valor de -1.00 a +1.00, inclusive.
Un coeficiente de correlación de -1.00 o bien de +1.00 indica una correlación perfecta (p. 465).

El coeficiente de correlación, expresado mediante la letra r o R, indica la fuerza y la confiabilidad que tiene el análisis
de correlación. La siguiente figura lo ejemplifica.

Sesión 1 13
Business Analytics

Figura 9. Coeficiente de correlación

Fuerte Moderada Débil Débil Moderada Fuerte


negativa negativa negativa positiva positiva positiva

-1 -0.9 -0.5 0 0.5 0.9 1

Perfecta No existe Perfecta


Negativa Correlación Positiva

Elaborado a partir de Ingeniería Industrial Online (s.f.).

A continuación, se presenta un ejemplo, con el que podrás analizar paso a paso cómo resolver un problema de co-
rrelación:

El gerente del departamento de ventas revisó los datos históricos de la empresa. A éste le interesaba indagar sobre
la relación de las ventas anuales con respecto a los años de experiencia que tienen sus vendedores. Derivado de la
revisión, obtuvo lo siguiente.

Cuadro 3. Datos históricos para realizar el análisis de correlación.

X (Años de experiencia- Y (Ventas – Variable dependiente)


Vendedor
Variable independiente) Expresada en miles
Juan 1 80
Sofía 2 97
Jesús 3 92
Pedro 4 102
Luis 6 103
Karen 8 111
Andrea 10 119
Alexandra 10 123
Mónica 11 117
Raúl 13 136

La variable dependiente es el monto de las ventas de cada vendedor (X), ya que éstas dependen de la cantidad de
años de experiencia de cada vendedor (Y).

Sesión 1 14
Business Analytics

Para resolver el problema anterior, puedes utilizar la hoja de cálculo de Excel, activando las funciones especiales de
la hoja de cálculo (Herramientas para análisis).

Te recomendamos visitar el sitio oficial de Microsoft para activarlas. En el siguiente enlace podrás hacerlo.

https://support.microsoft.com/es-es/office/usar-las-herramientas-para-an%C3%A1lisis-para-realizar-an%C3%A-
1lisis-de-datos-complejos-6c67ccf0-f4a9-487c-8dec-bdb5a2cefab6

Una vez que hayas activado la Herramienta para análisis de Excel, captura la información del Cuadro 3, en la hoja
de cálculo.

Posteriormente, ve a la pestaña datos de Excel, da clic en la opción Análisis de datos. Cuando abra la ventana, selec-
ciona la opción Regresión. Si lo haces de manera correcta, abrirá una ventana, como la que muestra la siguiente figura:

Figura 10. Ventana de regresión en Excel.

Y (Ventas –
X (Años de
Variable
experiencia-
Vendedor dependiente)
Variable
Expresada
independiente)
en miles
Juan 1 80
Sofía 2 97
Jesús 3 92
Pedro 4 102
Luis 6 103
Karen 8 111
Andrea 10 119
Alexandra 10 123
Mónica 11 117
Raúl 13 136

Ahora bien, en la opción Rango Y de entrada, colocarás los datos que corresponden a la variable dependiente (rango
de datos), es decir las ventas. En la opción Rango X de entrada, colocarás los datos (rango de datos) que corresponden
a la variable dependiente (años de experiencia). Finalmente, selecciona en las Opciones de salida que los resultados
se presenten En una hoja nueva.

Sesión 1 15
Business Analytics

La siguiente figura muestra el proceso.

Figura 11. Ventana de regresión con datos ingresados.

Y (Ventas –
X (Años de
Variable
experiencia-
Vendedor dependiente)
Variable
Expresada
independiente)
en miles
Juan 1 80
Sofía 2 97
Jesús 3 92
Pedro 4 102
Luis 6 103
Karen 8 111
Andrea 10 119
Alexandra 10 123
Mónica 11 117
Raúl 13 136

Si lo haces de manera correcta, aparecerá una nueva hoja con los resultados del análisis. En la parte de resultados
aparecerá un apartado que dice Coeficientes, donde aparecen los siguientes resultados:

• Intercepción = 80
• Variable: X1 = 4

Además, en las estadísticas de regresión aparecerá el coeficiente de correlación (R) el cual tiene un valor de 0.96

Sesión 1 16
Business Analytics

La siguiente figura muestra los resultados enunciados en líneas anteriores.

Figura 12. Datos proporcionados por la opción regresión de Excel.

Ahora bien, si deseas conocer el nivel de productividad de un vendedor con siete años de experiencia, tendrás que
sustituir los valores (Coeficientes) que obtuviste en Excel, en la ecuación de regresión lineal simple:

Y^ = bo + b1x (Ecuación de Regresión Lineal Simple)

Siendo

bo: Constante

b1: La variable independiente

Sustituyendo con los valores obtenidos en coeficientes, se tiene:

Y^ = 80 + 4(7) (7 representa los 7 años de experiencia)

Y^ = 108,000 ventas anuales (recuerda que las cantidades se expresaron en miles)

El resultado obtenido es válido, ya que el coeficiente de correlación R= 0.96 implica que las variables Experiencia
laboral y Monto de ventas tienen una relación fuerte.

Sesión 1 17
Business Analytics

1.3 Tipos de datos

En el mercado existen aplicaciones de software para uso de datos estadísticos, programas como SPSS, Minitab y
Tableau hacen uso de variables estadísticas para generar resultados. En la siguiente sesión, conocerás Tableau,
herramienta especializada para realizar analítica de negocios. Antes de iniciar con el estudio de esta aplicación será
necesario revisar el tipo de variables estadísticas que se pueden manejar y cuáles son sus principales características.

• Variable cuantitativa. Estas se pueden expresar mediante cantidades numéricas con las que se puede hacer
operaciones matemáticas.
• Variable cualitativa. Permiten representar categorías que son mutuamente excluyentes, aunque se utilicen
valores numéricos para representarlas, no siempre necesitan cantidades.

Las variables cualitativas se pueden dividir de la siguiente manera:

• Nominales. Este tipo de variables no tiene relación entre las categorías. Las variables nominales se pueden
dividir en:
• Dicotómicas (binaria): hombre y mujer (género)
• Politómicas (varias categorías): País de origen (México, Canadá, E.U, etcétera)
• Ordinales. Sus posibles categorías están ordenadas y jerarquizadas. Ejemplo: La calificación de un estudian-
te bajo un modelo de competencias: no competente, competente, domina la competencia.

En el caso de las variables cuantitativas existen dos tipos:

• Discretas: Utilizan exclusivamente valores de tipo entero: número de hijos.


• Continuas: Pueden tomar un número infinito de valores: peso de una persona.

Las variables antes mencionadas pueden emplearse en programas que realizan cálculos estadísticos (SPSS) o en
programas enfocados en la analítica de datos (Business Analytics) como Tableau.

Sesión 1 18
Business Analytics

Referencias

Disfruta las matemáticas. (s.f.). Cómo calcular la mediana. Recuperado de

Ingeniería Industrial Online. (s.f.). Pronóstico de la demanda. Recuperado de

Instituto Nacional de Estadísticas [INE]. (s.f.). ¿Qué es población? Recuperado de

Laguna, C. (2014). Introducción a la estadística. España: IACS. Recuperado de

Lind, D., Marchal, W. y Wathen, S. (2012). Basic Statistics for business economics. New York: McGraw-Hill Education.
[Recuperado de la base de datos eBooks7-24 (McGraw-Hill) en la biblioteca UEES]

Quevedo, F. (2011). Medidas de tendencia central y dispersión. MedWave, 11 (3), pp. 1-6.

Universidad Nacional Autónoma de México [unam]. (s.f.). Regresión y Correlación Lineal Simple. Recuperado de

Vinuesa, P. (2016). Correlación: Teoría y práctica. México: unam. Recuperado de

Sesión 1 19

También podría gustarte