El campo del aprendizaje automático abarca una variedad de metodologías y paradigmas, cada uno de ellos adecuado para distintos tipos de datos y problemas. Entre estos paradigmas, el aprendizaje supervisado y no supervisado son dos de los más fundamentales.
El aprendizaje supervisado implica entrenar un modelo en un conjunto de datos etiquetados, donde los datos de entrada se emparejan con la salida correcta. El modelo aprende a asignar entradas a salidas minimizando el error entre sus predicciones y las salidas reales. El aprendizaje no supervisado, por otro lado, trabaja con datos no etiquetados, donde el objetivo es inferir la estructura natural presente dentro de un conjunto de puntos de datos.
Existe un tipo de aprendizaje que integra técnicas de aprendizaje supervisado y no supervisado, a menudo denominado aprendizaje semisupervisado. Este enfoque aprovecha tanto los datos etiquetados como los no etiquetados durante el proceso de entrenamiento. La razón detrás del aprendizaje semisupervisado es que los datos no etiquetados, cuando se utilizan junto con una pequeña cantidad de datos etiquetados, pueden producir una mejora considerable en la precisión del aprendizaje. Esto es particularmente útil en escenarios donde los datos etiquetados son escasos o costosos de obtener, pero los datos no etiquetados son abundantes y fáciles de recopilar.
El aprendizaje semisupervisado se basa en el supuesto de que la estructura subyacente de los datos no etiquetados puede proporcionar información valiosa que sea complementaria a los datos etiquetados. Este supuesto puede adoptar varias formas, como el supuesto de agrupamiento, el supuesto de variedad o el supuesto de separación de baja densidad. El supuesto de agrupamiento postula que es probable que los puntos de datos del mismo grupo tengan la misma etiqueta. El supuesto de variedad sugiere que los datos de alta dimensión se encuentran en una variedad de dimensionalidad mucho menor, y la tarea es aprender esta variedad. El supuesto de separación de baja densidad se basa en la idea de que el límite de decisión debe estar en una región de baja densidad de datos.
Una de las técnicas comunes empleadas en el aprendizaje semisupervisado es el autoentrenamiento. En el autoentrenamiento, un modelo se entrena inicialmente con los datos etiquetados. Luego, utiliza sus propias predicciones sobre los datos no etiquetados como pseudoetiquetas. El modelo se entrena aún más con este conjunto de datos ampliado, refinando iterativamente sus predicciones. Otra técnica es el coentrenamiento, en el que dos o más modelos se entrenan simultáneamente con diferentes vistas de los datos. Cada modelo es responsable de etiquetar una parte de los datos no etiquetados, que luego se utilizan para entrenar a los demás modelos. Este método aprovecha la redundancia en las múltiples vistas de los datos para mejorar el rendimiento del aprendizaje.
Los métodos basados en grafos también son frecuentes en el aprendizaje semisupervisado. Estos métodos construyen un grafo donde los nodos representan puntos de datos y los bordes representan similitudes entre ellos. La tarea de aprendizaje se reformula entonces como un problema de optimización basado en grafos, donde el objetivo es propagar etiquetas desde los nodos etiquetados a los no etiquetados, preservando al mismo tiempo la estructura del grafo. Estas técnicas son particularmente efectivas en dominios donde los datos forman naturalmente una red, como las redes sociales o las redes biológicas.
Otro enfoque para combinar el aprendizaje supervisado y no supervisado es el aprendizaje multitarea. En este tipo de aprendizaje, se resuelven varias tareas de aprendizaje simultáneamente, mientras se aprovechan los puntos en común y las diferencias entre las tareas. Esto puede considerarse como una forma de transferencia inductiva, en la que el conocimiento adquirido en una tarea ayuda a mejorar el aprendizaje de otra. El aprendizaje multitarea puede ser particularmente beneficioso cuando existe una representación o un espacio de características compartido entre las tareas, lo que permite la transferencia de información.
Un ejemplo práctico de aprendizaje semisupervisado se encuentra en el campo del procesamiento del lenguaje natural (PLN). Consideremos la tarea del análisis de sentimientos, donde el objetivo es clasificar un texto dado como positivo o negativo. Los datos etiquetados, como las reseñas con etiquetas de sentimientos, pueden ser limitados. Sin embargo, hay una gran cantidad de texto sin etiquetar disponible. Un enfoque de aprendizaje semisupervisado podría implicar entrenar un clasificador de sentimientos con los datos etiquetados y usarlo para predecir el sentimiento de los datos sin etiquetar. Estas predicciones se pueden usar luego como datos de entrenamiento adicionales, mejorando el rendimiento del clasificador.
Otro ejemplo se puede encontrar en la clasificación de imágenes. En muchos casos, obtener imágenes etiquetadas es una tarea laboriosa y costosa, mientras que las imágenes sin etiquetar son abundantes. Un enfoque semisupervisado podría implicar el uso de un pequeño conjunto de imágenes etiquetadas para entrenar un modelo inicial. Este modelo podría luego aplicarse a las imágenes sin etiquetar para generar pseudoetiquetas, que posteriormente se utilizan para volver a entrenar el modelo.
La integración del aprendizaje supervisado y no supervisado a través del aprendizaje semisupervisado y metodologías relacionadas representa un enfoque poderoso en el aprendizaje automático. Al aprovechar las fortalezas de ambos paradigmas, es posible lograr mejoras significativas en el rendimiento del modelo, en particular en dominios donde los datos etiquetados son limitados pero los datos no etiquetados son abundantes. Este enfoque no solo mejora la capacidad de los modelos para generalizar a partir de datos limitados, sino que también proporciona un marco más sólido para comprender la estructura subyacente de conjuntos de datos complejos.
Otras preguntas y respuestas recientes sobre EITC/AI/GCML Google Cloud Machine Learning:
- ¿Cuáles son las métricas de evaluación del desempeño de un modelo?
- ¿Qué es la regresión lineal?
- ¿Es posible combinar diferentes modelos de ML y construir una IA maestra?
- ¿Cuáles son algunos de los algoritmos más comunes utilizados en el aprendizaje automático?
- ¿Cómo crear una versión del modelo?
- ¿Cómo aplicar los 7 pasos del ML en un contexto de ejemplo?
- ¿Cómo se puede aplicar el aprendizaje automático a los datos de permisos de construcción?
- ¿Por qué se discontinuaron las tablas AutoML y qué las reemplaza?
- ¿Cuál es la tarea de interpretar los garabatos dibujados por los jugadores en el contexto de la IA?
- Cuando en los materiales de lectura se habla de "elegir el algoritmo adecuado", ¿se quiere decir que básicamente ya existen todos los algoritmos posibles? ¿Cómo sabemos que un algoritmo es el "adecuado" para un problema específico?
Ver más preguntas y respuestas en EITC/AI/GCML Google Cloud Machine Learning