Большие данные и машинное обучение

  • информатика
  • математика

Профиль «Большие данные и машинное обучение» погружает участников в выполнение реальных задач, связанных с анализом больших объёмов данных и разработкой приложений.

Этот профиль — наиболее «программистский» из всех: он состоит исключительно из написания кода, математики и анализа данных.

В свободной и непринуждённой атмосфере молодые программисты пытаются решить задачи, значительно выходящие за рамки школьной программы (очень пригодится знание мат. статистики, теории графов и, разумеется, промышленных языков программирования, например, Python).

Задачей профиля «Большие данные и машинное обучение» на Олимпиаде НТИ 2017/18 было научить программу анализировать рентгеновские снимки и по ним определять наличие или отсутствие раковой опухоли у больного.

На Олимпиаде 2016/17 базой для анализа выступил массив дневников, написанных различными людьми в начале 20 века. Нашим программистам нужно было написать алгоритм, который бы анализировал стилистику различных записей и определял авторство тех, которые пока оставались анонимными, сопоставляя их с отрывками, чьи авторы известны.

 

Состав команды — 3 человека

2 программиста (пишут код, разрабатывают архитектуру и интерфейс решения)

1 аналитик (разрабатывает бизнес-процессы, строит мат. модель)

Разработчики профиля

МФТИ, Инфосистемы Джет

Отборочные этапы

Во время отборочных этапов необходимо будет писать программы, разрабатывать алгоритмы по обработке данных, решать задачи с использованием современных технологий, таких как машинное обучение, нереляционные базы данных, облачные технологии, современные средства визуализации данных.

В ходе второго отборочного этапа школьникам будут предложены онлайн-курсы, хакатоны (в них можно будет принять участие удалённо) и видеолекции ведущих российских специалистов в индустрии.

Заключительный этап

Финальная задача посвящена методу машинного обучения под названием Reinforcement Learning (RL, обучение с подкреплением). Он предназначен для создания алгоритмов, которые самостоятельно обучаются путём проб и ошибок. Это один из самых малоизученных методов машинного обучения, но у него огромный потенциал, так как он не требует набора заранее известных ответов, что позволяет решать задачи, которые не удавалось решить раньше другими известными методами.

В одной из задач командам финалистов предстоит написать алгоритм, который будет сохранять положение квадрокоптера в пространстве при отсутствии команд. Квадрокоптер должен зависнуть в воздухе, компенсируя влияние порывов ветра. Это осуществляется за счёт достижения заданных угловых скоростей с помощью прямого управления моторами.

Материалы для участников

Что потребуется:

  • понимание основных концепций в области машинного обучения и нейросетей;
  • программирование на языках, сочетающих скорость разработки с возможностью использовать современные инструменты для работы с данными (например, Python);
  • умение быстро находить решения в интернете на специализированных ресурсах (stackexchange и пр.), разбираться в них и адаптировать под свои потребности;
  • умение эффективно работать с большими данными, писать алгоритмы эффективно;
  • умение вести тестирование, отладку.

Для подготовки к участию в данном профиле мы предлагаем вам следующие документы и внешние ресурсы:

Рынки НТИ

  • NeuroNet
  • SpaceNet
  • TechNet