VERSION ANGLAISE

AYOUB BOUZ

Data Scientist/Engineer

image

En tant que Full Stack Data Scientist avec 3 ans d'expérience, j'excelle dans la transformation d'idées commerciales en projets de données percutants à l'aide d'analyses avancées, de modélisation prédictive et d'infrastructure Big Data. Maîtrisant Python, SQL et machine learning, je résous des défis commerciaux complexes et génère des informations exploitables.


Expériences

Data Scientist/Engineer

Augurisk | 09.2021 - 06.2024 | New York, États-Unis (Télétravail)
    Augurisk : Une plateforme qui aide les particuliers et les entreprises à évaluer les risques climatiques associés à leurs propriétés, afin qu'ils puissent mieux préparer l'avenir.
    Analyse et prévisions des risques environnementaux et sociétaux :
  • Risques environnementaux : inondations, tornades, ouragans, tempêtes, tremblements de terre, incendies de forêt, sécheresse, activité volcanique, pollution de l'air, rayonnement nucléaire.
  • Risques sociétaux : risque socio-économique, infrastructures de santé, criminalité.
  • Taches:
  • Traiter et analyser les données géospatiales.
  • Sélection de fonctionnalités, création et optimisation de classificateurs à l'aide de techniques d'apprentissage automatique.
  • Calcul et déploiement de modèles scientifiques (Crime et autres risques) sur une infrastructure de big data impliquant des clusters de serveurs virtuels.
  • Exploration de données à l'aide de méthodes de pointe.
  • Étendre les données de l'entreprise avec des sources d'informations tierces en cas de besoin.
  • Améliorer les procédures de collecte de données pour inclure des informations pertinentes pour la construction de systèmes analytiques (US Census Bureau, ACS, NIH, USGS, CODE...).
  • Traitement, nettoyage et vérification de l'intégrité des données utilisées pour l'analyse.
  • Faire des analyses ad hoc et présenter les résultats de manière claire.
  • Création de systèmes automatisés de détection d'anomalies et suivi constant de ses performances.
  • Construit une vector tileset Map à partir de grandes collections de fichiers GeoJSON.

  • Outils: Python, JS, Numpy, Pandas, GeoPandas, QGIS, PyQGIS,GDAL, Scikit-Learn,Tensorflow, LightGBM, PySpark, AWS EC2, AWS S3, AWS EMR, AWS DynamoDB, PostgreSQL, PostGIS

Data Scientist, Stagiaire

Mobiblanc | 02.2021 - 08.2021 | Casablanca, Maroc
    Projet principal : système de recommandation pour la chaîne de télévision marocaine 2M.
  • Création d'un pipeline de données pour les bases de données de la chaîne de télévision marocaine 2M (ETL avec Python, Mongodb).
  • Concevoir un modèle avec une approche de filtrage collaboratif (Python, Scikit-Learn).
  • Servez le résultat de la prédiction avec le REST API (Flask).
  • Créer des tableaux de bord et des pipelines de données pour d'autres projets (Python, PowerBI).

Data Engineer, Stagiaire

Leyton Morocco | 06.2020 - 08.2020 | Casablanca, Maroc
    Travailler pour Data Factory & Labs :
  • Créer une base de données relationnelle à partir de plusieurs sources à l'aide de Web Scraping et de PDF parsing (Python,PostgresSQL, BeautifulSoup).
  • Prédire les e-mails manquants de Salesforce France et vérifier leur existence à l'aide Python/SMTP.

Python Developer, Stagiaire

Leyton Morocco | 07.2019 - 08.2019 | Casablanca, Morocco
    Développement de plusieurs Python Robots / Scripts pour Data Labs qui fournissent ces fonctions:
  • Aspirer plusieurs sites Web contenant des informations sur différentes entreprises (Selenium).
  • Télécharger et extraire des données de milliers de fichiers XML (Python).
  • Distribuer ces traitements à l'aide d'une architecture orientée cluster (PySpark).
  • Stocker les résultats dans une base de données (PostgresSQL).

Éducation

  • Cycle d'ingénieur : Systèmes d'information et Big Data
    Ecole Nationale des Sciences Appliquées Berrechid
    2018 - 2021
  • Cycle préparatoire
    Ecole Nationale des Sciences Appliquées Tanger
    2016 - 2018
  • Baccalauréat, Sciences Mathématiques B, Mention Bien
    Lycée Ibnou Mandour, Casablanca
    2015 - 2016

Projets

  • Consommation d'énergie à Tétouan:

    Le projet vise à prédire la consommation d'énergie de 3 zones de la ville de Tétouan, au Maroc, en utilisant des techniques d'apprentissage automatique. Le projet comprend le prétraitement des données, l'ingénierie des fonctionnalités, la formation et l'évaluation des modèles. De plus, MLflow est utilisé pour le suivi des expériences et le modèle final est déployé sur AWS pour des prévisions évolutives et accessibles. Outils : Numpy, Pandas, Scikit-learn, Flask, Docker, MLflow, Github, AWS EC2, AWS ECR

  • Plateforme d'analyse policière CATCHIO :

    L'application permet de mettre en place un outil de prévision et d'analyse policière. Le système comporte deux parties :
  • Opérationnel : un système de gestion pour les tâches de gestion quotidiennes.
  • Décisionnel : un système analytique pour la prise de décision et la couverture spatiale utilisant le Deep Learning.

  • Outils : NodeJs, ExpressJs, Mysql, ChartJs, LeafletJs, Talend, Tensorflow & Keras

  • TOPLACES :

    Une application Web pour partager vos endroits préférés. Outils : NodeJs, Express, ReactJs, Mongodb (Atlas)
  • Prévision de prêt :

    Créez un modèle qui peut prédire si un emprunteur remboursera ou non son prêt. Outils : Tensorflow, Keras
  • Détection de fraude en banque :

    Créer un système de détection de fraude à l'aide d'une base de données graphique et de RandomForest. Outils : Neo4j, Scikit-Learn
  • Prix des logements aux États-Unis :

    Prédir les prix des logements à l'aide de la régression linéaire. Outils : Pandas, Scikit-learn
  • Ads Clicks :

     Prédiction indiquant si l'utilisateur cliquez sur l'annonce ou non en utilisant la régression logistique. Outils : Pandas, Scikit-learn
  • Analyse des sentiments sur le Brexit pour les médias sociaux:

    effectuez une analyse des sentiments à l'aide de l'API Twitter sur le Brexit et présentez les résultats à l'aide de statistiques descriptives sous forme de graphiques et de nuages ​​de mots. Outils : Pandas, Scikit-learn, NLTK, Seaborn
  • Analyse des données en temps réel du marché boursier:

    Créer un pipeline de données permettant au client de stocker des données en temps réel.Outils: Kafka, EC2, S3, Glue, Athena
  • AutoPost Instagram:

    Créez une application Web pour publier sur Instagram (image + citation + hashtags) en utilisant des mots-clés. Outils: Python, OpenAI, Flask
  • ChatBot avec les PDFs:

    Créez un chatbot pour discuter avec vos PDF. Outils: Python, Langchain, HuggingFace, Streamlit