¿Cómo funciona el Machine Learning?

Una palabra que oirás mucho últimamente es Machine Learning, un concepto proveniente de Arthur Samuel en 1959, lo que lo definió como «la habilidad de aprender una computadora sin ser explícitamente programada». Este concepto tan genérico que a día de hoy parece novedoso, ya tiene más de 50 años, y como toda disciplina científica ha evolucionado de una manera agigantada en estos últimos años debido a la mejora exponencial de las capacidades de computación.

Al fin y al cabo, el Machine Learning se ha instalado en nuestro día a día sin que realmente nos demos cuenta. Según un estudio extraído de Hubspot el 63% de las personas utilizan tecnologías basadas en el aprendizaje automático, como por ejemplo Siri, la inteligencia artificial de Apple, o el hecho de interactuar con bots vía Facebook o por alguna E-commerce. También es utilizado para encontrar nuevas curas, traducir idiomas y otras muchas cosas más.

Cualquier programa informático con el objetivo de aprender necesita de un ingrediente fundamental: Los datos. Es por esta razón que este concepto perteneciente a la Inteligencia Artificial se vincula con frecuencia a la rama del Big Data.

¿Cómo aprende una maquina con Machine Learning?

Primero, para entender con claridad cómo aprende una maquina, tenemos que entender la diferencia que existe entre datos estructurados, y datos no estructurados.

Datos estructurados: Son los datos más utilizados por las empresas, y son los que se suelen encontrar en la mayoría de las bases de datos. Son archivos de tipo texto que suelen clasificarse por filas y columnas con títulos, como excel o access. Este tipo de datos ya están ordenados y son fácilmente procesables por cualquier herramienta de minería de datos.

Dicho de manera práctica, sería como un archivador perfectamente organizado por etiquetas. Un ejemplo sería un CRM de clientes, clasificado por nombres, email, teléfono y facturas previas.

Datos no estructurados: Se definen como datos binarios que no tienen estructura interna identificable, es decir, un conglomerado masivo y desorganizado de datos que no tienen ningún tipo de utilidad hasta que se procesan y almacenan de manera ordenada.

Una vez que estos datos han pasado por un proceso de filtrado, estos pueden ser fácilmente encontrados y categorizados (con mayor o menor exactitud) para obtener información. Un caso práctico serían los correos electrónicos, si estos se exportan en masa sólo con su «asunto» y su «mensaje», un programa de minería de datos no sería capaz de clasificar los mensajes por diferentes categorías, ya que necesitas procesar cada una de las palabras, compararlas con un contexto, y luego clasificarla según unos patrones previos.

Cabe destacar, que según un estudio de Deloitte, el 90% de los datos que se generan en el mundo provienen fuentes de datos no estructurados, y sólo el 10% pertenecientes a fuentes de datos estructurado. Es aquí la estricta necesidad de la combinación de las ciencias de datos para la extracción y tratamiento de datos, sumado al uso del Machine Learning para la organización de los datos, sobre todo para la información no estructurada.

Tipos de Machine Learning

Si yo quisiera saber cómo puedo clasificar mis clientes de forma natural,  dejaría que el criterio de clasificación lo tomara la maquina por mí. Esto sería aprendizaje no supervisadoya que no dejo claro cual es el objetivo del agrupamiento, en cambio, si quisiéramos clasificar los clientes por probabilidad de darse de baja en cuanto finalice el contrato existe un objetivo claramente definido, lo que lo definiríamos como un modelo de aprendizaje supervisado.

Para tener claro que tipo de Machine Learning empleará el bot en el algoritmo, tenemos que dejar claro cual es la variable objetivo, o lo que es lo mismo, cual es la incógnita que queremos resolver con nuestro sistema de información.

Aprendizaje supervisado

Para esta metodología hace falta una fase de entrenamiento previa (datasets), dónde se introducen cientos de datos etiquetados (labels). Imagina que quieres que una maquina sea capaz de reconocer entre perros y gatos en una foto, pues para ello tendrías que «enseñarle» al programa miles de imágenes dónde venga claro «¿Qué es un gato?» y «¿Qué es un perro?». Después de esta fase de entrenamiento, el programa sería capaz de identificar cada uno de los animales en diferentes circunstancias. A este método se le llama clasificación.

Otro tipo de aprendizaje supervisado sería la regresión, o lo que es lo mismo seguir un valor continuo. Es algo similar a que la maquina sea capaz de seguir valores lógicos como por ejemplo si hay una serie numérica de 2, 4, 6, que la maquina sea capaz de seguirla como un 8, 10, 12. Esto se emplea especialmente para la predicción.

Aprendizaje no supervisado

En este procedimiento no se requiere de una fase de entrenamiento, en este caso la maquina tiene que ser capaz de comprender y encontrar patrones en la propia información directamente. Un ejemplo sería agrupar los clientes en grupos homogéneos, si le diéramos al sistema información de miles de clientes con datos no estructurados, el sistema informático sería capaz de reconocer las características de los clientes, y segmentarla en perfiles con criterios similares.

A este problema se le llama Clustering o aglomeración de los datos. Esto es útil para reducir el número de variables totales a 2 o 3 máximos, de modo que no haya una pérdida de la información, y así puedan visualizarse los datos visualmente facilitando su comprensión.

Aprendizaje de refuerzo

Este tipo de aprendizaje es similar al humano, ya que funciona por un condicionamiento operante al extremo. Se basa en un sistema de premiación, dónde si la maquina da un resultado positivo, a esta se le «apremia», pero si comete algún tipo de error se le «castiga». Así, va aprendiendo a realizar mejor su tarea en base a prueba y error. Es una de las técnicas más prometedoras del Machine Learning ya que no requiere de grandes cantidades de datos, sino que es capaz de crear el mismo una solución óptima a través de unas variables.

Esta metodología se utiliza para el aprendizaje en los coches autónomos, o la toma de desiciones en maquinaria de fabricación. Un buen ejemplo de este caso sería como una maquina aprende a caminar por sí sola, sólo diciéndole que llegue del punto A al punto B. El bot por sí mismo irá mejorando y cometiendo sus propios errores hasta encontrar el modo de llegar más rápido a su destino.

¿Qué se puede hacer con Machine Learning?

Clasificación: ¿Qué clientes de Vodafone estarán interesados en esta oferta?. Consiste en tratar de clasificar un individuo basándote en lo aprendido con otros individuos. Por lo que el programa puede etiquetar de «interesado» o «no interesado» según un histórico de datos.

Regresión: ¿Cómo va a ser el consumo eléctrico de Juan este año?. Es similar a la clasificación ( de hecho ambos pertenecen al aprendizaje supervisado), pero con la diferencia de tratar de predecir un comportamiento futuro a partir de datos del pasado.

Identificar similitudes: Quizás también te interese estos productos… El ejemplo más claro es Amazon, el cual te sugiere un catálogo de productos según las compras que hayas realizado. Trata de encontrar patrones comunes.

Clustering: ¿Qué productos deberíamos desarrollar?. Se trata de agrupar a los individuos por similitud, pero sin un propósito específico. Suele emplearse para la exploración de datos en la fase preliminar.

Agrupar co-ocurrencias: ¿Qué productos se suelen comprar juntos?. Esta técnica trata de encontrar asociaciones entre entidades basada en una coincidencia en alguna transacción. Por ejemplo si una persona compra una impresora, también comprará cartuchos de tinta. Esta conclusión no es siempre fácilmente extraíble.

Profiling: ¿Cual es el consumo de móvil típico de este segmento de clientes?. Con esto tratamos de identificar comportamientos típicos, es decir, trata de buscar comportamientos característicos de un individuo, grupo o población.

Reducción de datos: ¿Son útiles todas las columnas de datos?. Si crearas una base de datos de clientes a partir de diferentes fuentes, posiblemente ocurra alguna problemática de Dirty Darta, o tendrías problemas de exceso de información. Este tipo de técnicas te permite reducir el volumen de información total y hacerla más utilitaria.

Modelado causal: ¿Se incrementó las ventas gracias a la campaña, o por las acciones de Marketing que se hicieron?. Trata de identificar la influencia que tiene un hecho sobre otro.

Predicción de vínculos: Tenemos 10 amigos en común ¿No deberíamos ser amigos?. Intenta predecir conexiones entre elementos. Un ejemplo aplicado sería Linkedin, en el cual te recomienda la gente que podrías conocer desde la pestaña «Mi red» utilizando patrones de semejanza como la similitud de los estudios, oficio, contactos, etc.

Nuestra plataforma SmartPanel permite representar grandes complejidades de datos estructurados y no estructurados, para encontrar patrones y agrupar las fuentes de ingresos por grupos que te permitan identificar de una manera fácil y sencilla qué canales de ingresos te están proporcionando los mejores beneficios, a la vez que te realiza una predicción de tus cifras de negocio todo el año.

Si estás interesado en aplicar técnicas de Machine Learning o predicción en tu empresa, en SmartPanel te ofrecemos una consultoría de datos sin compromiso contactando con nosotros desde esta web.

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR
Aviso de cookies