Привет, я Даша
Строю команды, в которых операционку ведут агенты, а люди занимаются тем, ради чего их нанимали. Звучит как лозунг — поэтому ниже путь и цифры, которые за этим стоят.
В дата-сайенс я зашла не из учебника, а из задачи: делала ML-research по боковому амиотрофическому склерозу (БАС) — строила граф водородных связей, и модель предсказывала вдвое точнее базлайна. Когда твои пайплайны помогают медицине искать ответы, к данным относишься иначе.
Дальше был продакшен. В 2021-м, ещё до ChatGPT и хайпа, я дообучала языковые модели — GPT-3, DialogGPT — под реальные задачи и собирала грабли первой. Потом в 2GIS, заскучав на аналитике, собрала «несанкционированный» сервис генерации синонимов для поиска на ChatGPT: его внедрили, и он продолжил жить после моего ухода. Так закрепилось главное правило — модель ровно настолько хороша, насколько чисты данные, на которых она училась.
Главная школа — OneCell, онкодиагностика на ИИ. Сначала я выстраивала там данные и разметку: команда выросла до 35 человек, значительная часть — врачи. Когда от качества аннотации зависит диагноз, перестаёшь верить в «и так сойдёт». Эта планка осталась со мной во всех проектах. Потом я вела команду данных DataHub как Team Lead — и перевела её на AI-Native рельсы: наш Team OS, мультиагентная система, забрал статусы, планирование и большую часть рутины.
Сейчас развиваю Voronka — практику по данным и агентным системам, преподаю и курирую AI Mindset. А чтобы порог входа в AI стал ниже для всех — перевожу курсы Anthropic на русский: бесплатно и с человеческой адаптацией.
Трек
-
2020
Старт в дата-сайенс: ML-research по БАС
Вход в ML — через задачу, а не через теорию: граф водородных связей для исследования бокового амиотрофического склероза, модель вдвое точнее базлайна. Здесь сложилась привычка относиться к данным как к основе всего.
-
2021
Первые LLM в продакшене
Дообучение GPT-3 и DialogGPT под реальные задачи — до ChatGPT и хайпа, когда статей об этом ещё не существовало и грабли приходилось собирать первой.
-
2022
Данные для онкодиагностики
OneCell: процессы разметки, в которых врачи и инженеры работают как одна команда, а не «заказчик и исполнители».
-
2024
Лид команды данных и research
Команда из 35 человек. Параллельно — research-проекты по медицинским данным.
-
2025
Team OS в проде
Мультиагентная система вместо ручной операционки: статусы, планирование и рутина — у агентов, 200 часов в месяц — обратно команде.
-
2026
founder Voronka · «Claude по-русски»
Развиваю практику по данным и агентным системам, преподаю и делаю курсы Anthropic доступными на русском.
Кейсы и результаты
Team OS ведёт операционку
Агенты на архитектуре CoALA взяли статусы, планирование и рутину: 200 часов в месяц экономии, цикл аналитики ×12 быстрее. Разбор на Habr.
Врачи и инженеры в одном контуре
Процессы разметки онко-данных: роли, контроль качества, метрики согласованности. Как это устроено.
Точнее базлайна в research по БАС
ML-research бокового амиотрофического склероза: граф водородных связей, модель вдвое точнее базового решения по MSE. С этого начался мой путь в данных.
Production-LLM до мейнстрима
Пять лет эксплуатации языковых моделей в реальных продуктах: что ломается, что окупается и почему демо ≠ прод.
Преподавание и сообщества
AI Talent Hub · ИТМО
Преподаватель магистратуры, курс «Сбор и разметка данных для ML»: данные, на которых модели действительно учатся.
DeepSchool
Лекции и статьи в школе для ML-инженеров: процессы разметки и качество данных.
AI Mindset и «Шипучка Talk»
Курирую программу AI Mindset, раз в месяц провожу открытый микрофон в канале.
Обсудить задачу
AI-Native трансформация, данные для медицинского ИИ, выступление или воркшоп — расскажите, что у вас, отвечу лично.
Написать на почту