Большие данные и машинное обучение

  • информатика
  • математика

Профиль «Большие данные и машинное обучение» погружает участников в выполнение реальных задач, связанных с анализом больших объемов данных и разработкой приложений.

Этот профиль — наиболее «программистский» из всех 17: он состоит исключительно из написания кода, математики и анализа данных.
В свободной и непринужденной атмосфере молодые программисты пытаются решить задачи, значительно выходящие за рамки школьной программы (очень пригодится знание мат. статистики, теории графов и, разумеется, промышленных языков программирования, например, Python).

В аудитории свободная атмосфера: пиши код хоть лежа

Задачей профиля Большие данные и машинное обучение на Олимпиаде НТИ 2016/17 было научить программу анализировать большие объемы текста и по некоторым признакам определять связь текстов между собой. В качестве базы выступил массив дневников, написанных различными людьми в начале 20 века. Нашим программистам нужно было написать алгоритм, который бы анализировал стилистику различных записей и определял авторство тех, которые пока оставались анонимными, сопоставляя их с отрывками, чьи авторы известны.
Программист пишет код нейросети

Количество человек в команде: 2-3

Разработчики профиля: НГУ, Инфосистемы Джет.

Отборочные этапы

Во время отборочных этапов необходимо будет писать программы, разрабатывать алгоритмы по обработке данных, решать задачи с использованием современных технологий — таких, как машинное обучение, нереляционные базы данных, облачные технологии, современные средства визуализации данных.

В ходе второго отборочного этапа школьникам будут предложены онлайн-курсы, хакатоны (в них можно будет принять участие удаленно) и видео-лекции ведущих российских специалистов в индустрии.

Заключительный этап

Финалисты займутся выявлением заданной информации из массива данных, для этого необходимо будет написать свою программу, используя набор текстов для обучения.

Рабочее место: стол, ноутбук, подключенный к интернету. Команда работает в режиме “каждый за своим ноутбуком”, время от времени обсуждая что-то друг с другом. Для проверки заданий ведущий запускает программу команды-участницы с набором случайных текстов и оценивает результат анализа данных.

Материалы для участников

Что потребуется:

  • понимание основных концепций в области машинного обучения и нейросетей;
  • программирование на языках, сочетающих скорость разработки с возможностью использовать современные инструменты для работы с данными (например, Python);
  • умение быстро находить решения, разбираться в них и адаптировать под свои потребности в интернете на специализированных ресурсах (stackexchange и пр.);
  • умение эффективно работать с большими данными, писать алгоритмы эффективно;умение вести тестирование, отладку;

Для подготовки к участию в данном профиле мы предлагаем вам следующие документы и внешние ресурсы:

Рынки НТИ

  • HealthNet
  • NeuroNet
  • SpaceNet
  • TechNet