На каких данных в России обучают нейросети?

   28.04.2020
Принято считать, что эффективность систем искусственного интеллекта как правило достигается за счет достаточного количества данных. Объемы данных растут год от года: по оценке IDC, если в 2018-м в мире было накоплено 33 зеттабайта (миллиарда терабайт) данных, то в 2025-м это число будет равняться 175 зеттабайтам. Но эксперты выделяют несколько проблем при работе с данными.

💬 Мы собрали мнения экспертов из разных индустрий о том, какова ситуация с Big Data сегодня, как российские компании решают вопросы очистки данных, используют ли открытые данные, в каких случаях для обучения алгоритмов используют синтетические данные, а также узнали, могут ли помочь новые регуляторные меры в решении проблем с датасетами.

Среди наших спикеров — представители Яндекса и Mail.Ru Group, руководители компаний Brand Analytics, «Третье мнение», «Ньюдиамед», Ассоциации участников рынка данных, эксперты из VisionLabs, Just AI, UBIC Technologies, Sever.AI, «Учи.ру».

Полная версия

Вот несколько интересных мнений:

Александр Крайнов, руководитель службы компьютерного зрения и технологий искусственного интеллекта, Яндекс:

«В целом редко бывает, что датасет, собранный не под очень конкретную задачу, полностью репрезентативен. Можно также говорить, что в каких-то областях датасетов хватает, в каких-то — нет. Но вся наука живет на общедоступных датасетах, и живет успешно. В любом случае, сбор, поиск, генерация, разметка данных — это важная часть работы. Никто не должен подносить тебе данные. Хочешь делать ИИ-решения? Занимайся данными сам».

 

Владимир Новоселов, бизнес-архитектор Predictive Analytic Solutions, Mail.ru Group:

«Любая команда, которая занимается разработкой ML-based систем, сталкивается с этой проблемой. Крупные компании инвестируют большие средства в то, чтобы обеспечить инфраструктуру сбора и агрегации данных, необходимых для обучения и анализа. То, насколько эффективно компании решают проблему доступности данных, во многом обеспечивает ее конкурентоспособность на этом рынке».

 

Анна Мещерякова, CEO «Третье мнение»:

«Мы используем открытые датасеты на стадии research. Работаем с опубликованными в России данными и взаимодействуем с зарубежными коллегами. Собственная научная деятельность и сотрудничество с медицинскими и техническими вузами в России и за рубежом позволяет получать качественные датасеты для целей research. Но на стадии обучения мы редко используем открытые датасеты — у нас собственные требования к классификаторам, к разметке».

 

Алексей Карначев, руководитель команды R&D Just AI:

«Датасеты, которые находятся в открытом доступе, создаются в основном для каких-то академических целей – например, для оценки качества моделей, при написании исследований. Поэтому они хороши для research-стадии, проверки гипотез, но не для финальных разработок».

 

Дмитрий Акимов, инженер по данным VisionLabs:

«Качество публичных датасетов достаточно хорошее, однако существуют ошибки в разметке и их объемы, как правило, малы. Кроме того, их нельзя использовать в коммерческих целях. Подобные наборы данных больше подходят для образовательных целей, а для выпуска продукта в продакшен нужны собственные данные».

 

Смотреть все мнения →
Если хотите поделиться экспертным мнением по теме, присылайте его на hello@ict.moscow, и изучайте базу знаний об ИИ.

Ваш комментарий будет первым

Написать ответ

Выш Mail не будет опубликован


*


Рейтинг@Mail.ru Яндекс.Метрика