Привет, я Даша

Строю команды, в которых операционку ведут агенты, а люди занимаются тем, ради чего их нанимали. Звучит как лозунг — поэтому ниже путь и цифры, которые за этим стоят.

ex Team Lead DataHub LLM в проде с 2021 35 человек — команда данных founder Voronka

В дата-сайенс я зашла не из учебника, а из задачи: делала ML-research по боковому амиотрофическому склерозу (БАС) — строила граф водородных связей, и модель предсказывала вдвое точнее базлайна. Когда твои пайплайны помогают медицине искать ответы, к данным относишься иначе.

Дальше был продакшен. В 2021-м, ещё до ChatGPT и хайпа, я дообучала языковые модели — GPT-3, DialogGPT — под реальные задачи и собирала грабли первой. Потом в 2GIS, заскучав на аналитике, собрала «несанкционированный» сервис генерации синонимов для поиска на ChatGPT: его внедрили, и он продолжил жить после моего ухода. Так закрепилось главное правило — модель ровно настолько хороша, насколько чисты данные, на которых она училась.

Главная школа — OneCell, онкодиагностика на ИИ. Сначала я выстраивала там данные и разметку: команда выросла до 35 человек, значительная часть — врачи. Когда от качества аннотации зависит диагноз, перестаёшь верить в «и так сойдёт». Эта планка осталась со мной во всех проектах. Потом я вела команду данных DataHub как Team Lead — и перевела её на AI-Native рельсы: наш Team OS, мультиагентная система, забрал статусы, планирование и большую часть рутины.

Сейчас развиваю Voronka — практику по данным и агентным системам, преподаю и курирую AI Mindset. А чтобы порог входа в AI стал ниже для всех — перевожу курсы Anthropic на русский: бесплатно и с человеческой адаптацией.

Трек

  • 2020

    Старт в дата-сайенс: ML-research по БАС

    Вход в ML — через задачу, а не через теорию: граф водородных связей для исследования бокового амиотрофического склероза, модель вдвое точнее базлайна. Здесь сложилась привычка относиться к данным как к основе всего.

  • 2021

    Первые LLM в продакшене

    Дообучение GPT-3 и DialogGPT под реальные задачи — до ChatGPT и хайпа, когда статей об этом ещё не существовало и грабли приходилось собирать первой.

  • 2022

    Данные для онкодиагностики

    OneCell: процессы разметки, в которых врачи и инженеры работают как одна команда, а не «заказчик и исполнители».

  • 2024

    Лид команды данных и research

    Команда из 35 человек. Параллельно — research-проекты по медицинским данным.

  • 2025

    Team OS в проде

    Мультиагентная система вместо ручной операционки: статусы, планирование и рутина — у агентов, 200 часов в месяц — обратно команде.

  • 2026

    founder Voronka · «Claude по-русски»

    Развиваю практику по данным и агентным системам, преподаю и делаю курсы Anthropic доступными на русском.

Кейсы и результаты

мультиагентные системы
ROI 700%

Team OS ведёт операционку

Агенты на архитектуре CoALA взяли статусы, планирование и рутину: 200 часов в месяц экономии, цикл аналитики ×12 быстрее. Разбор на Habr.

команда
35 человек

Врачи и инженеры в одном контуре

Процессы разметки онко-данных: роли, контроль качества, метрики согласованности. Как это устроено.

медицина

Точнее базлайна в research по БАС

ML-research бокового амиотрофического склероза: граф водородных связей, модель вдвое точнее базового решения по MSE. С этого начался мой путь в данных.

опыт
с 2021

Production-LLM до мейнстрима

Пять лет эксплуатации языковых моделей в реальных продуктах: что ломается, что окупается и почему демо ≠ прод.

Преподавание и сообщества

AI Talent Hub · ИТМО

Преподаватель магистратуры, курс «Сбор и разметка данных для ML»: данные, на которых модели действительно учатся.

DeepSchool

Лекции и статьи в школе для ML-инженеров: процессы разметки и качество данных.

AI Mindset и «Шипучка Talk»

Курирую программу AI Mindset, раз в месяц провожу открытый микрофон в канале.

Обсудить задачу

AI-Native трансформация, данные для медицинского ИИ, выступление или воркшоп — расскажите, что у вас, отвечу лично.

Написать на почту