В данном репозитории собраны проекты, выполненные в процессе обучения по программе профессиональной переподготовки Специалист по Data Science в Яндекс.Практикум
| Проект | Описание | Библиотеки | Навыки |
|---|---|---|---|
| Исследование надёжности заёмщиков | Исследование факторов, влияющих на факт возврата кредита в срок, на основе статистики о платёжеспособности клиентов. | Pandas NumPy |
Data AnalysisФинансовый_анализ |
| Исследование объявлений о продаже квартир | Анализ рынка недвижимости Санкт-Петербурга и Ленинградкой области, выявление аномалий для отслеживания мошеннической деятельности. | Pandas NumPy Matplotlib Seaborn |
Data AnalysisМаркетинг_анализ |
| Исследование о показах фильмов в Российских кинотеатрах | Анализ рынка российского кинопроката, выявление текущих тенденций. | Pandas NumPy Matplotlib Seaborn |
Data AnalysisМаркетинг_анализ |
| Исследование сервиса аренды самокатов "GoFast" | Исследовательский анализ данных сервиса аренды самокатов "GoFast". Статистический анализ и проверка гипотез. | Pandas NumPy Matplotlib Seaborn Scipy |
Data AnalysisСтатистический_анализ |
| Построение модели для задачи классификации тарифов мобильной связи | Построение и поиск оптимальной модели для задачи классификации тарифов мобильной связи. Исследование и проверка качества разных моделей. | Pandas NumPy Matplotlib Seaborn Sklearn |
Data ScienceМашинное обучение |
| Построение модели для задачи прогнозирования оттока клиентов из «Бета-Банка» | Построение и поиск оптимальной модели для задачи прогнозирования оттока клиентов из «Бета-Банка». Исследование и проверка качества разных моделей. | Pandas NumPy Matplotlib Seaborn Sklearn |
Data ScienceМашинное обучение |
| Построение модели выбора локации для скважины | Требуется построить модель машинного обучения, которая поможет определить регион, где добыча нефти принесёт наибольшую прибыль. | Pandas NumPy Matplotlib Seaborn Sklearn |
Data ScienceМашинное обучение |
| Построение модели предсказания отказа от брони для сети отелей «Как в гостях» | Требуется разработать модель машинного обучения, которая будет прогнозировать отказ посетителей от брони в отеле. После внедрения модели, чистая прибыль компании должна увеличиться +400k. | Pandas NumPy Matplotlib Seaborn Sklearn Keras Tensorflow |
Data ScienceМашинное обучение |
| Работа с базой данных Yandex_Hive и анализ данных | Мы будем работать с базой данных Yandex-Hive, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы. | pyspark pyspark.sql |
Data ScienceСУБД |
| Построение модели классификации музыкальных произведений по жанрам | Требуется разработать модель машинного обучения, позволяющую классифицировать музыкальные произведения по жанрам. | Pandas NumPy Matplotlib Seaborn Sklearn |
Data ScienceМашинное обучение |
| Построение модели для предсказания медианной стоймости дома | Разработать модель линейной регрессии в среде PySpark, позволяющей предсказать медианную стоимость домов. | Pandas NumPy Matplotlib Seaborn Sklearn PySpark MLlib |
Data ScienceМашинное обучение |
| Защита персональных данных клиентов | Требуется разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. | Pandas NumPy Sklearn |
Data ScienceМашинное обучениеЛинейная алгебра |
| Определение стоймости автомобилей | Создать модель, способную с высокой точностью предсказывать стоймость автомобиля на рынке. | Pandas NumPy Sklearn CatBoostRegressor LGBMRegressor DummyRegressor RandomForestRegressor |
Data ScienceМашинное обучение |
| Matching | Разработать алгоритм, который для всех товаров из одного множества, предложит несколько вариантов наиболее похожих товаров из другого множества. | Pandas NumPy Sklearn faiss optuna lightgbm |
Data ScienceАлгоритмы |
| Продвинутый SQL | Состоит из двух частей на 20 задач на составление запросов к базе данных (PostgreSQL) StackOverFlow за 2008 год. | SQL PostgreSQL оконные функции временные таблиц подзапросы продвинутые функции SQL |
Data AnalysisРабота с БД |
| Прогнозирование температуры звезды | Разработка метода определения температуры на поверхности обнаруженных звёзд с использованием нейросетевого подхода. | Pandas NumPy Sklearn torch skorch optuna |
Data ScienceМашинное обучение |
| Оценка риска ДТП | Создать систему, которая может оценить риск ДТП по выбранному маршруту движения. | Pandas NumPy Matplotlib Seaborn Scipy Sklearn |
Data ScienceМашинное обучение |
| Прогнозирование заказов такси | Создать модель, способную с высокой точностью предсказывать количество заказов такси на следующий час. | NumPy Pandas Seaborn Matplotlib CatBoost Scipy Sklearn Statsmodels Prophet Sklearn XGBoost |
Data ScienceМашинное обучение Временные ряды |
| Classification of Text | Целью проекта является разработка модели бинарной классификации в связки с моделью трансформером BERT. | NumPy Pandas sklearn torch transformers |
Data ScienceМашинное обучение |
| ResNet_Age_detect | Целью проекта является разработка модели, которая по фотографии будет определять приблизительный возраст человека | NumPy Pandas sklearn tensorflow keras |
Data ScienceComputer Vision |
| Поиск изображений по текстовым запросам | Разработка демонстрационной версии системы поиска изображений по текстовым запросам, использующей нейросетевой подход для анализа и сопоставления изображений и текстов | NumPy Pandas sklearn nltk torch tensorflow |
Data ScienceComputer Vision |
| Предсказание температуры стали на металлургическом комбинате | Разработка модели для предсказания температуры стали на этапе обработки. Модель будет использоваться для имитации технологического процесса и оптимизации производственных расходов за счёт контроля температуры сплава. | NumPy Pandas sklearn nltk torch tensorflow |
Data ScienceМашинное обучение |

