La aplicación de los siete pasos del aprendizaje automático proporciona un enfoque estructurado para desarrollar modelos de aprendizaje automático, lo que garantiza un proceso sistemático que se puede seguir desde la definición del problema hasta la implementación. Este marco es beneficioso tanto para principiantes como para profesionales experimentados, ya que ayuda a organizar el flujo de trabajo y a garantizar que no se pase por alto ningún paso crítico. Aquí, explicaré estos pasos en el contexto de un ejemplo práctico: predecir los precios de la vivienda utilizando las herramientas de aprendizaje automático de Google Cloud.
Paso 1: definir el problema
El primer paso en cualquier proyecto de aprendizaje automático es definir claramente el problema que se intenta resolver. Esto implica comprender el problema comercial o práctico en cuestión y traducirlo en un problema de aprendizaje automático. En nuestro ejemplo, el problema comercial es predecir los precios de las casas en una región específica para ayudar a los agentes inmobiliarios y a los compradores potenciales a tomar decisiones informadas. El problema de aprendizaje automático se puede enmarcar como un problema de regresión supervisada en el que el objetivo es predecir una variable objetivo continua, el precio de la casa, en función de varias características como la ubicación, el tamaño, la cantidad de habitaciones y otros atributos relevantes.
Paso 2: recopilar y preparar datos
La recopilación y preparación de datos es una fase fundamental que implica reunir datos relevantes que se puedan utilizar para entrenar el modelo. En nuestro ejemplo de predicción de precios de viviendas, los datos se podrían recopilar de listados de propiedades inmobiliarias, registros públicos o bases de datos de viviendas. El conjunto de datos debe incluir una variedad de características que se cree que influyen en los precios de las viviendas, como la superficie en pies cuadrados, la cantidad de habitaciones y baños, las calificaciones del vecindario, la proximidad a los servicios y los datos históricos de ventas.
Una vez recopilados, los datos deben procesarse previamente. Esto implica limpiarlos mediante el manejo de valores faltantes, la eliminación de duplicados y la corrección de inconsistencias. Por ejemplo, los valores faltantes en el conjunto de datos pueden imputarse mediante métodos estadísticos o conocimiento del dominio. Además, es posible que sea necesario codificar variables categóricas, como los nombres de los vecindarios, en formatos numéricos mediante técnicas como la codificación one-hot.
Paso 3: elige un modelo
La elección del modelo depende del tipo de problema y de la naturaleza de los datos. Para un problema de regresión como la predicción del precio de la vivienda, se pueden considerar modelos como la regresión lineal, los árboles de decisión o algoritmos más complejos como los bosques aleatorios y las máquinas de potenciación de gradiente. En Google Cloud Machine Learning, tienes acceso a TensorFlow y otras bibliotecas que facilitan la implementación de estos modelos.
Un modelo de regresión lineal simple podría servir como base. Sin embargo, dada la complejidad y la no linealidad que suelen estar presentes en los datos del mundo real, podrían ser más apropiados modelos más sofisticados como XGBoost o DNNRegressor de TensorFlow. La elección del modelo debe guiarse por el rendimiento en conjuntos de datos de validación y la capacidad de generalizar bien a datos no vistos.
Paso 4: entrenar el modelo
El entrenamiento del modelo implica introducir los datos preparados en el algoritmo elegido para aprender los patrones subyacentes. Este paso requiere dividir los datos en conjuntos de entrenamiento y validación, lo que permite que el modelo aprenda de un subconjunto y se evalúe en otro. En Google Cloud, esto se puede gestionar de forma eficiente mediante servicios como Google Cloud AI Platform, que proporciona recursos escalables para el entrenamiento de modelos.
Durante el entrenamiento, puede ser necesario ajustar los hiperparámetros del modelo para optimizar el rendimiento. Por ejemplo, en un modelo de árbol de decisiones, parámetros como la profundidad del árbol y la cantidad mínima de muestras necesarias para dividir un nodo pueden afectar significativamente la precisión y la capacidad de generalización del modelo. Se pueden emplear técnicas como la búsqueda en cuadrícula o la búsqueda aleatoria para encontrar la configuración óptima de los hiperparámetros.
Paso 5: evaluar el modelo
La evaluación es un paso importante para evaluar el rendimiento del modelo entrenado. Esto implica el uso de métricas adecuadas para el tipo de problema. En el caso de los problemas de regresión, las métricas habituales incluyen el error absoluto medio (MAE), el error cuadrático medio (MSE) y el error cuadrático medio (RMSE). Estas métricas proporcionan información sobre la precisión del modelo y el alcance de los errores en las predicciones.
En nuestro ejemplo de predicción del precio de la vivienda, después de entrenar el modelo, se lo evaluaría en un conjunto de validación para garantizar que funcione bien con datos no vistos. La plataforma de inteligencia artificial de Google Cloud proporciona herramientas para realizar un seguimiento de estas métricas y visualizar el rendimiento del modelo, lo que ayuda a comprender qué tan bien es probable que funcione el modelo en situaciones del mundo real.
Paso 6: Ajuste el modelo
El ajuste de modelos es un proceso iterativo cuyo objetivo es mejorar el rendimiento del modelo. Este paso puede implicar ajustar hiperparámetros, probar distintos algoritmos o modificar el conjunto de características. Por ejemplo, si el modelo inicial no funciona satisfactoriamente, se puede revisar la ingeniería de características para incluir términos de interacción o características polinómicas que capturen relaciones no lineales.
En Google Cloud, el ajuste de hiperparámetros se puede automatizar mediante la función de ajuste de hiperparámetros de Cloud AI Platform, que busca de manera eficiente el espacio de hiperparámetros para encontrar la mejor combinación para el modelo. Esto puede mejorar significativamente el rendimiento del modelo sin intervención manual.
Paso 7: implementar el modelo
La implementación permite que el modelo entrenado esté disponible para su uso en aplicaciones del mundo real. Este paso implica configurar un entorno en el que el modelo pueda recibir datos de entrada, realizar predicciones y devolver resultados a los usuarios o sistemas. Google Cloud ofrece varias opciones de implementación, incluida AI Platform Prediction, que permite implementar modelos como API RESTful.
En el ejemplo de predicción de precios de viviendas, el modelo implementado podría integrarse en una aplicación inmobiliaria donde los usuarios ingresan las características de la vivienda y reciben predicciones de precios. La implementación también implica monitorear el desempeño del modelo en producción para garantizar que siga brindando predicciones precisas y actualizar el modelo según sea necesario cuando haya nuevos datos disponibles.
Contexto de ejemplo
Consideremos una empresa inmobiliaria que pretende mejorar su proceso de valoración de propiedades mediante el aprendizaje automático. Si sigue los siete pasos descritos, la empresa puede desarrollar sistemáticamente un modelo de aprendizaje automático sólido para predecir los precios de las viviendas. En primer lugar, define el problema identificando la necesidad de valoraciones precisas de las propiedades. A continuación, recopila datos de múltiples fuentes, incluidos registros históricos de ventas y listados de propiedades, lo que garantiza un conjunto de datos completo que refleje las tendencias del mercado.
Después de preprocesar los datos para gestionar los valores faltantes y codificar las variables categóricas, la empresa elige un modelo de potenciación de gradiente debido a su capacidad para gestionar relaciones e interacciones complejas entre las características. Entrenan el modelo utilizando la plataforma de inteligencia artificial de Google Cloud, aprovechando su infraestructura escalable para gestionar grandes conjuntos de datos de manera eficiente.
El modelo se evalúa mediante RMSE, lo que revela áreas de mejora. Al realizar ajustes de hiperparámetros y experimentar con características adicionales derivadas del conocimiento del dominio, la empresa mejora la precisión predictiva del modelo. Finalmente, el modelo se implementa como una API, lo que permite la integración en los sistemas existentes de la empresa, donde proporciona estimaciones de precios en tiempo real a los usuarios, mejorando así los procesos de toma de decisiones y la satisfacción del cliente.
Otras preguntas y respuestas recientes sobre EITC/AI/GCML Google Cloud Machine Learning:
- ¿Cuál es la diferencia entre el aprendizaje automático en visión artificial y el aprendizaje automático en LLM?
- ¿Cuáles son los principales desafíos encontrados durante el paso de preprocesamiento de datos en el aprendizaje automático y cómo abordar estos desafíos puede mejorar la efectividad de su modelo?
- ¿Por qué el ajuste de hiperparámetros se considera un paso crucial después de la evaluación del modelo y cuáles son algunos métodos comunes utilizados para encontrar los hiperparámetros óptimos para un modelo de aprendizaje automático?
- ¿Cómo depende la elección de un algoritmo de aprendizaje automático del tipo de problema y la naturaleza de sus datos, y por qué es importante comprender estos factores antes del entrenamiento del modelo?
- ¿Por qué es esencial dividir el conjunto de datos en conjuntos de entrenamiento y prueba durante el proceso de aprendizaje automático y qué podría salir mal si omite este paso?
- ¿Qué tan esencial es el conocimiento de Python u otro lenguaje de programación para implementar ML en la práctica?
- ¿Por qué es esencial el paso de evaluar el rendimiento de un modelo de aprendizaje automático en un conjunto de datos de prueba separado y qué podría suceder si se omite este paso?
- ¿Cuál es el verdadero valor del aprendizaje automático en el mundo actual y cómo podemos distinguir su impacto genuino de la mera propaganda tecnológica?
- ¿Cuáles son los criterios para seleccionar el algoritmo adecuado para un problema determinado?
- Si uno usa un modelo de Google y lo entrena en su propia instancia, ¿Google conserva las mejoras realizadas a partir de los datos de entrenamiento?
Ver más preguntas y respuestas en EITC/AI/GCML Google Cloud Machine Learning