Machine Learning Seminars

Информация

Экзамены 09.01, 12.01, 13.01, 16.01 будут проводится в 17:00 в аудиториях указанных в расписании экзаменов МФТИ.
Ссылка на таблицу с оценками
Для получения автомата требуется прийти во время семинара 18.12.2023 в 18:30 и согласиться с оценкой (по уважительной причине есть возможность согласиться с автоматом через почту в ответном письме к рассылке оценок --- оформлять не нужно уважительную причину, достаточно написать мне почему не можете явится лично). В случае, если оценка ниже хор(6) требуется явится для сдачи зачета/экзамена в дни согласно расписания МФТИ. В случае, если присутсвует комментарий о том, что есть "подозрение на скат", то также требуется явится на зачет (подозрение на скат не обязательно подразумевает скат, но нужно доп пообщаться).
В случае, если есть вопросы по ДЗ (что-то не нашел / оценка ниже чем должна быть) также прошу обсудить лично во время зачета/экзамена.
В случае, если у Вас в графе “Есть ведомость” стоит “Нет” и у Вас этот курс как зачет в личном кабинете, то прошу проверить еще раз названия курса и если что обсудить с деканатом, чтобы на меня сделали отрывной для приставки. В случае, если у Вас “Нет” и у Вас этот курс как экзамен в личном кабинете, то пока ждем экзаменационной сессии, когда эти ведомости появятся (ближе к дню экзамена) и тогда проверьте, что у Вас в графе сменилось на “Да” или не изменилось. В случае, если перед экзаменом у Вас будет “Нет”, то также нужно будет через деканат оформить отрывной.

Полезные ссылки

Плейлист лекций и семинаров: 2020-2021; 2021-2022
Курс лекций К.В. Воронцова.
Курс Мурата Апишева по python.
Почта для связи.

Осений семестр

Курсовое домашнее задание:

Первое задание:

Начало: 20:00 25.09.2023.
Дедлайн: 23:59 19.10.2023.
Писать на почту Андрею. Тема письма [MIPT-2023-ML-fall-1] ФИО. В письме прислать .ipynb файл.
Генератор задания:
- В качестве почты нужно ввести почту в домене @phystech.edu.
- После ввода почты, вам будет предложена выборка с ссылкой для скачивания, а также методы, которые нужно проанализировать для данной выборки.
Требуется:
- Провести анализ выборки:
  
  Определить тип признаков.
  
  Выполнить визуальный анализ данных.
- Выполнить препроцесинг данных:
  
  Преобразовать категориальные признаки в вещественные.
  
  Отнормировать признаки.
- Провести эксперимент для предложеных методов:
  
  Выполнить подбор гиперпараметров.
  
  Подобрать регуляризаторы.
  
  Получить итоговые модели.
- Описать полученые результаты:
  
  Какая модель лучше и почему.
  
  С какими проблемами столкнулись во время выполнения, возможно недочеты стандартных библиотек.
  
  Совпадают ли полученные результаты с ожидаемыми результатами.
Оценивание:
- Качество кода (1б):
  
  Код должен работать у проверяющего.
  
  Код должен был понятен без автора.
- Качество анализа (3б):
  
  Анализ выборки.
  
  Анализ гиперпараметров.
  
  Анализ результатов для разных моделей.
- Качество отчета (1б):
  
  Учитывается полнота отчета.

Второе задание:

Начало: 18:30 27.11.2023.
Дедлайн: 23:59 17.12.2023.
Ссылка на задание.
Писать на почту Андрею. Тема письма [MIPT-2022-ML-fall-2] ФИО. В письме прислать .ipynb файл и ник на kaggle.
Требуется:
- Отправить свое решение в csv формате на kaggle.com.
- Отправить ноутбук с решением на почту.

План занятий

Вводный семинар

Семинар:
- Теореотическая часть:
  
  Общие идеи оптимизации, функции ошибки и тд.
- Практическая часть:
  
  При помощи sklearn показать пример Ирисов Фишера.
  
  Понятие модели алгоритмов, алгоритм обучения, процесс оптимизации для конкретной задачи.
  
  Переход от бинарной к многоклассовой.
  
  Переобучение. Борьба с переобучениям (начало).
  
  Немного о типах задач машинного обучения: прикладные и исследовательские
Домашнее задание:
- В задаче по переходу от бинарной классификации к многоклассовой добавить константу и скорректировать соответстветсвующие разделяющие гиперплоскости.
- Подсказка: в LogisticRegresion нужно добавить специальный параметр fit_intercept=False, чтобы внутри черного ящика своя константта не добавлялась(влият на результат).

Линейные методы классификации и регрессии: метод стохастического градиента

Семинар:
- Теореотическая часть:
  
  Анализ стохастического градиента на сходимость.
  
  Задача линейной регрессии, МНК в общем случае.
  
  Постановка задачи линейной регрессии через правдоподобие, вероятностные предположения о данных + регуляризаций.
- Практическая часть:
  
  Разбор домашнего задания.
  
  Метод стохастического градиента на практике.
  
  Использования torch framework для нахождения градиента сложной функции.
  
  Вероятностная постановка задачи машинного обучения. Регуляризация l1, l2.
  
  Анализ решения задачи оптимизации от параметра регуляризации.
  
  Выбор параметра регуляризации при помощи LOO.
Домашнее задание:
- Используя вероятностную постановку задачи для линейной регрессии с априорным предположением p(w) = N(0, I) получить аналитическое решение на оптимальный вектор параметров w.
- Использовать метод Cross-Validation вместо метода LOO для выбора оптимального параметра регуляризации gamma.

Нейронные сети: Autograd

Семинар:
- Теореотическая часть:
  
  Автоматическое диференцирование.
- Практическая часть:
  
  Разбор домашнего задания.
  
  Построение простой нейросетевой модели: многослойный персептрон.
  
  Обучение персептрона на выборке MNIST.
  
  Подбор гиперпараметров модели.
  
  Пррореживание сетей (без кода, только графики).
Домашнее задание:
- Проделать то, что было на семинаре для выборки FashionMnist: подбор гиперпараметров модели (выполнить более подробно чем на семинаре), также провести анализ полученных результатов.
- Указать какие минусы вы увидели в подборе гиперпараметров на семинаре (их как минимум 3).

Метрические методы классификации и регрессии

Семинар:
- Практическая часть:
  
  Разбор домашнего задания.
  
  Пример как можно отказаться от признаков в линейном классификаторе.
  
  Метод ближайших соседей, анализ разного количества соседей.
  
  Ядра в методе ближайших соседей.
  
  Метод Парзеновского окна.
  
  Метод потенциальных функций (реализация).
  
  Отбор эталонных элементов, алгоритм STOLP.
  
  Формула Надарая Ватсона.
Домашнее задание:
- Выбрать один из метрических классификаторов (классификации или регрессии) и выполнить поиск оптимальных гиперпараметра при помощи кросс валидации.

Линейные методы классификации и регрессии: метод опорных векторов

Семинар:
- Практическая часть:
  
  SVM для классификации.
  
  Примеры использования ядер для SVM.
  
  SVM для регрессии.
  
  Генерация признаков на основе опорных элементов.
Домашнее задание:
- Провести эксперимент с полиномиальным ядром: сгенерировать синтетическую выборку, на которой полиномиальное ядро имеет лучшее качество аппроксимации чем rbf и линейное ядро.

Многомерная линейная регрессия. Метод главных компонент

Семинар:
- Практическая часть:
  
  Многомерная линейная регрессия.
  
  Сингулярное разложение.
  
  Регуляризация для многомерной регрессии: используя SVD.
  
  Зависимость качества аппроксимации от числа обусловлености.
  
  Метод главных компонент: визуализация MNIST.
  
  Метод главных компонент: для изображений.
Домашнее задание:
- Доказать лемму из семинара.
- Для синтетически сгенерированной выборки (beta=2, mu=0.01) построить график зависимости качества аппроксимации контрольной вбыорки от коэффициента регуляризации. Сравнить скорость работы в случае использования SVD разложения и без него.

Нелинейная регрессия. Обощенные линейные модели. Нестандартные функции потерь.

Семинар:
- Практическая часть:
  
  Нелинейная регрессия: пример задачи.
  
  Сравнение градиентного спуска, метода Ньютона-Рафсона, метода Ньютона-Гауса.
  
  Обобщенно линейные модели: оптимальный размер выборки.
  
  Функция потерь для задачи поиска близких предложений.
  
  Визуализация сходимости метода Ньютона Рафсона и стохастического градиента.
Домашнее задание:
- Использовать модель для векторизации предложений из семинара. На основе полученных векторов решить задачу сентимент анализа для выборки Twitter (задача бинарной классификации). В качестве модели рассмотреть логистическую регрессию. Рекомендуется использовать модель Perceptron с третьего семинара, а также функцию ошибки torch.nn.BCELoss. Ссылка на данные: https://drive.google.com/file/d/1k4JrnVcoePEENCYt5iy17dyV_h133j2X/view?usp=sharing (предложения для классификации это последний столбец, а целевая переменная это второй столбец).

Критерии выбора моделей и методы отбора признаков.

Семинар:
- Практическая часть:
  
  Оценка качества моделе: внешний и внутрений критерии.
  
  Отбор признаков: полный перебор, алгоритм Add, алгоритм Add-Del.
  
  Качество классификации: Precision, Recall.
  
  Пример задачи information retrieval.
  
  О составлении выборки для постановки задачи ML.
Домашнее задание:
- реализовать метода отбора признаков Add-Del.
- предложения внешний критерий качества для задачи поиска ошибок в текстах.

Логические методы классификации.

Семинар:
- Практическая часть:
  
  Логический классификатор реализация.
  
  Примеры задач для решения логичеким классификатором.
  
  Критерии информативности.
  
  Решающий список, простая реализация.
  
  Решающее дерево.
  
  Случайный лес.
Домашнее задание:
- в реализованый метод построение логистического классификатора добавить возможность оптимизации по критерию Джини.

Поиск ассоциативных правил.

Семинар:
- Практическая часть:
  
  Постановка задачи ассоциативных правил.
  
  Синтетичекий пример.
  
  Пример реальных данных из kaggle.
  
  Алгоритм APriory.
  
  Алгоритм FP-growth.
  
  Обобщение для вещественных данных.
  
  Обобщенные ассоциативные правила.
Домашнее задание:
- выполнить анализ ассоциативных правил, которые получены алгоримом FP-growth. Расмоттреть только те правила, которые содержат более 3 элементов

Композиции классификаторов.

Семинар:
- Практическая часть:
  
  DummyEnsemble.
  
  AdaBoost.
  
  Градиентный бустинг, XGBoost.
  
  Пример реальных данных из kaggle.
  
  RandomForest.
  
  Mixture Of Expert.
Домашнее задание:
- Рассматривается две выборки: выборка и выборка. Для обоих выборок построить AdaBoost, GradientBoosting, RandomForest, Bagging. Сравнить качество на обоих выборках. Отличается ли результат? Почему?

Композиции классификаторов (градиентный бустинг).

Семинар:
- Практическая часть:
  
  ComBoost.
  
  Gradient Boosting.
  
  XGBoost.
  
  CatBoost.
Домашнее задание:
- Реализовать комитетный бустинг для задачи регрессии.

Байесовская теория классификации.

Семинар:
- Практическая часть:
  
  Принцип максимума правдоподобия: визуализация.
  
  Востановление плотности по империческим данным.
  
  LOO для ввыбора ширины окна.
  
  Наивный байесовский классификатор.
Домашнее задание:
- Получить оценку параметров нормального распределения из принципа максимума правдоподобия.

Методы кластеризации и обучение на неразмеченных данных.

Семинар:
- Практическая часть:
  
  Задача кластеризации.
  
  Примеры кластеров.
  
  K-means.
  
  DBSCAN.
  
  Иерархическая кластеризация.
  
  Частичное обучение.
  
  Self-training, 1970.
  
  Неразмеченные данные в глубоком обучении.
Домашнее задание:
- Самому сравнить разные методы кластеризации для трех концентрических окружностей.

Весений семестр

Курсовое домашнее задание:

Первое задание:

Дедлайн: 23:59 02.04.2023. Жесткий дедлайн 09.04.2022, каждый день оценка по каждой задаче уменьшается на 0.05. Суммарное количество баллов за каждую задачу 1.
Задание доступно по ссылке.
Писать на почту Андрею. Тема письма [MIPT-2022-ML-spring-1] ФИО. В письме прислать .ipynb файлы (или ссылку на диск --- проверьте что есть доступ на чтение!!!).

Второе задание:

Дедлайн: 23:59 07.05.2023. Жесткий дедлайн 14.05.2023, каждый день оценка по каждой задаче уменьшается на 0.05.
Задание доступно по ссылке.
Писать на почту Андрею. Тема письма [MIPT-2022-ML-spring-2] ФИО. В письме прислать .ipynb файлы (или ссылку на диск --- проверьте что есть доступ на чтение!!!).

План занятий

Глубокие Нейронные Сети. Сверточные нейросети и Рекурентные сети.

Семинар:
- Практическая часть:
  
  Сверточные нейронные сети.
  
  Отслеживание обучения при помощи tensorboard.
  
  Рекурентные нейронные сети.
  
  Использование предобученных моделей.
  
  Интерпретируемость ответов нейросети.

Нейронные сети. Автокодировщик. Transfer Learning. Генеративно-Состязательные сети.

Семинар:
- Практическая часть:
  
  Автокодировщик.
  
  Линейный автокодировщик.
  
  Автокодировщик на основе CNN.
  
  Вариационный автокодировщик.
  
  Перенос обучения с предварительно обученой модели.
  
  Генеративно состязательные сети.

Векторное представления текстов.

Семинар:
- Практическая часть:
  
  Пример классификации твитов.
  
  Зачем нужна векторизация?.
  
  Токенизация текстов.
  
  Word2Vec (на основе модели FastText).
  
  FastText модель (сжатая до emb-dim=10 для легковестности).
  
  Задачи для unsupervise training моделей векторизации.

Attention is all you need. Трансформеры.

Семинар:
- Практическая часть:
  
  Модель внимания в рекурентных нейронных сетях.
  
  Трансформеры.
  
  T2T переводчик.
  
  BPE токенизация.
  
  BERT.
  
  LaBSE.

Тематическое моделирование.

Семинар:
- Практическая часть:
  
  Модель LDA.
  
  Модель PLSA (bigartm).

Пояснение к домашнему заданию.

Семинар:
- Практическая часть:
  
  Задачи из ДЗ.

Задача ранжирования.

Семинар:
- Практическая часть:
  
  Базовые понятие.
  
  Пример задачи ранжирования.
  
  Пример рекомендательной системы.
  
  Обучение поисковика на базе pyserini.

Временные ряды.

Семинар:
- Практическая часть:
  
  Авторегрессионая модель.
  
  Экспоненциальное сглаживание.
  
  Кластерный анализ временных рядов.

Онлайновое обучение.

Семинар:
- Практическая часть:

Обучение с подкреплением.

Семинар:
- Практическая часть:
  
  Стационарный многорукий бандин.
  
  Нестационарный многорукий бандин.
  
  Задача о заплыве.

Активное обучение.

Семинар:
- Практическая часть:
  
  Активное обучение со случайным добавлчющим элементом.
  
  Активное обучение с добавлением элемента с максимальной дисперсией.

Заключительное занятие.

Семинар:
- Теоретическая часть:
  
  Разбор Posterior Sampling

Name		Name	Last commit message	Last commit date
Latest commit History 361 Commits
.dvc		.dvc
.github/workflows		.github/workflows
docs		docs
hometask		hometask
sem1		sem1
sem10		sem10
sem11		sem11
sem12		sem12
sem13		sem13
sem14		sem14
sem15		sem15
sem16		sem16
sem17		sem17
sem18		sem18
sem19		sem19
sem2		sem2
sem20		sem20
sem21		sem21
sem22		sem22
sem23		sem23
sem24		sem24
sem25		sem25
sem26		sem26
sem27		sem27
sem28		sem28
sem29		sem29
sem3		sem3
sem4		sem4
sem5		sem5
sem6		sem6
sem7		sem7
sem8		sem8
sem9		sem9
.dvcignore		.dvcignore
.gitignore		.gitignore
LICENSE		LICENSE
README.rst		README.rst

Folders and files

Latest commit

History

Repository files navigation

Machine Learning Seminars

Информация

Полезные ссылки

Осений семестр

Курсовое домашнее задание:

Первое задание:

Второе задание:

План занятий

Вводный семинар

Линейные методы классификации и регрессии: метод стохастического градиента

Нейронные сети: Autograd

Метрические методы классификации и регрессии

Линейные методы классификации и регрессии: метод опорных векторов

Многомерная линейная регрессия. Метод главных компонент

Нелинейная регрессия. Обощенные линейные модели. Нестандартные функции потерь.

Критерии выбора моделей и методы отбора признаков.

Логические методы классификации.

Поиск ассоциативных правил.

Композиции классификаторов.

Композиции классификаторов (градиентный бустинг).

Байесовская теория классификации.

Методы кластеризации и обучение на неразмеченных данных.

Весений семестр

Курсовое домашнее задание:

Первое задание:

Второе задание:

План занятий

Глубокие Нейронные Сети. Сверточные нейросети и Рекурентные сети.

Нейронные сети. Автокодировщик. Transfer Learning. Генеративно-Состязательные сети.

Векторное представления текстов.

Attention is all you need. Трансформеры.

Тематическое моделирование.

Пояснение к домашнему заданию.

Задача ранжирования.

Рекомендательные системы.

Временные ряды.

Онлайновое обучение.

Обучение с подкреплением.

Активное обучение.

Заключительное занятие.

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages