Aprendizaje automático de Python con demostraciones interactivas de Jupyter

imagen


Hola lectores!


Recientemente lancé el repositorio Homemade Machine Learning , que contiene ejemplos de algoritmos y enfoques populares de aprendizaje automático, como la regresión lineal, la regresión logística, el método K-means y la red neuronal (perceptrón multicapa). Cada algoritmo contiene páginas de demostración interactivas lanzadas en Jupyter NBViewer-e o Binder-e. Por lo tanto, todos tienen la oportunidad de cambiar los datos de entrenamiento, los parámetros de entrenamiento e inmediatamente ver el resultado del entrenamiento, la visualización y la predicción del modelo en su navegador sin instalar Jupyter localmente.


El propósito de este repositorio es implementar algoritmos casi desde cero, para tener una comprensión más detallada de los modelos matemáticos que se encuentran detrás de cada uno de los algoritmos. Las principales bibliotecas utilizadas fueron NumPy y Pandas . Estas bibliotecas se utilizan para operaciones eficientes en matrices, así como para cargar y analizar datos CSV. En las páginas de demostración para trazar gráficos y visualizar datos de entrenamiento, también se utilizan las bibliotecas Matplotlib y Plotly . En el caso de la regresión logística, la biblioteca SciPy se usa para minimizar la función de pérdida, pero en otros casos, el descenso de gradiente se implementa en NumPy / Python puro. El uso de bibliotecas como PyTorch o TensorFlow se evita debido al propósito de enseñanza del repositorio.


Por el momento, los siguientes algoritmos están implementados en el repositorio ...


Regresión Regresión lineal.


En los problemas asociados con la regresión, tratamos de predecir el número real en función de los datos entrantes. De hecho, estamos construyendo una línea / plano / plano n-dimensional a lo largo de los datos de entrenamiento para poder hacer una predicción para los datos de entrada que no están en el conjunto de entrenamiento. Esto sucede, por ejemplo, si queremos predecir el costo de un apartamento de 2 habitaciones, en el centro de N, en el séptimo piso.



Clasificación Regresión logística


En problemas relacionados con la clasificación, dividimos los datos en clases según los parámetros de estos datos. Un ejemplo de una tarea de clasificación es el reconocimiento de spam. Dependiendo del texto de la carta (datos entrantes) asignamos cada letra a una de dos clases ("spam" o "no spam").



Agrupación Método K-means.


En las tareas de agrupación, dividimos nuestros datos en agrupaciones que no conocemos de antemano. Estos algoritmos se pueden utilizar para la segmentación del mercado, el análisis de redes sociales y no solo.



Redes neuronales Perceptrón multicapa (MLP).


Es más probable que las redes neuronales no sean un algoritmo, sino un "patrón" o "marco" para organizar diferentes algoritmos de aprendizaje automático en un sistema para un análisis posterior de datos de entrada complejos.



Buscar anomalías utilizando la distribución gaussiana


En los problemas asociados con la búsqueda de anomalías, tratamos de aislar aquellas instancias de datos que parecen "sospechosas" en comparación con la mayoría de las otras instancias. Por ejemplo, la definición de transacciones atípicas (sospechosas) con tarjeta de crédito.





Espero que encuentre útil el repositorio , ya sea experimentando con demostraciones de cada algoritmo, o leyendo sobre los modelos matemáticos detrás de ellos, o analizando los detalles de implementación de cada uno de ellos.


Codificación exitosa!

Source: https://habr.com/ru/post/es433886/


All Articles