Большие данные и машинное обучение

  • информатика
  • математика
  • Дает 100 баллов на ЕГЭ

Профиль «Большие данные и машинное обучение» погружает участников в выполнение реальных задач, связанных с анализом больших объемов данных и разработкой приложений.

Этот профиль — наиболее «программистский» из всех: он состоит исключительно из написания кода, математики и анализа данных.

В свободной и непринужденной атмосфере молодые программисты пытаются решить задачи, значительно выходящие за рамки школьной программы (очень пригодится знание мат. статистики, теории графов и, разумеется, промышленных языков программирования, например, Python).

В аудитории свободная атмосфера: пиши код хоть лежа

Задачей профиля Большие данные и машинное обучение на Олимпиаде НТИ 2017/18 было научить программу анализировать рентгеновские снимки и по ним определять наличие или отсутствие раковой опухоли у больного.

На Олимпиаде 2016/17 базой для анализа выступил массив дневников, написанных различными людьми в начале 20 века. Нашим программистам нужно было написать алгоритм, который бы анализировал стилистику различных записей и определял авторство тех, которые пока оставались анонимными, сопоставляя их с отрывками, чьи авторы известны.
Программист пишет код нейросети

Этот профиль включен в перечень Российского совета олимпиад школьников и приносит бонусы при поступлении в вузы (какие конкретно — зависит от правил приема вуза).

Количество человек в команде — 2-3 человека

2 программиста (пишут код, разрабатывают архитектуру и интерфейс решения)

1 аналитик (разрабатывает бизнес-процессы, строит мат. модель)

Разработчики профиля

МФТИ, Инфосистемы Джет.

Отборочные этапы

Во время отборочных этапов необходимо будет писать программы, разрабатывать алгоритмы по обработке данных, решать задачи с использованием современных технологий — таких, как машинное обучение, нереляционные базы данных, облачные технологии, современные средства визуализации данных.

В ходе второго отборочного этапа школьникам будут предложены онлайн-курсы, хакатоны (в них можно будет принять участие удаленно) и видео-лекции ведущих российских специалистов в индустрии.

Заключительный этап

Задача будет представлять из себя анализ набора данных с целью предсказания некоторых характеристик, как например:

Пример задания №1 “Анализ новостных потоков”

Анализ текстовых статей новостной ленты с точки зрения сюжетов и тем.  Выделение из новостного потока ключевых событий.

Пример задания №2 “Диагностика заболеваний по ВСР”

Задача определения болезни по записям RR-интервалов (снятых с различных неточных датчиков, в том числе с фитнес-браслетов).

Пример задания №3 “Прогнозирование оттока клиентов”

По статистическим данным сотового оператора определить, какие из клиентов скорее всего скоро уйдут.

Материалы для участников

Что потребуется:

  • понимание основных концепций в области машинного обучения и нейросетей;
  • программирование на языках, сочетающих скорость разработки с возможностью использовать современные инструменты для работы с данными (например, Python);
  • умение быстро находить решения, разбираться в них и адаптировать под свои потребности в интернете на специализированных ресурсах (stackexchange и пр.);
  • умение эффективно работать с большими данными, писать алгоритмы эффективно;
  • умение вести тестирование, отладку;

Для подготовки к участию в данном профиле мы предлагаем вам следующие документы и внешние ресурсы:

Рынки НТИ

  • NeuroNet
  • SpaceNet
  • TechNet