Кто такой дата сайнтист и что он делает
Обзор профессии Data Scientist
Data Scientist — это эксперт по аналитическим данным, который обладает техническими навыками для решения сложных задач, а также любопытством, которое помогает эти задачи ставить. Они частично математики, частично компьютерные ученые и частично трендспоттеры.
Данные PayScale
В России цифра составляет от 60-70 тысяч рублей в месяц для совсем «зеленых» новичков и доходит до 220 для опытных специалистов.
Как сказал DJ Patil, бывший главный научный сотрудник отдела научно-технической политики Соединенных Штатов, — «Data scientist — это специалист с уникальным сплавом навыков, который делает удивительные находки и воплощает фантастические истории — и все это благодаря данным».
Чем на самом деле занимаются специалисты по Big Data? Они постоянно сталкиваются с ограничениями — техническими, методологическими и любыми иными — и находят пути для новых решений. Совершают открытия, анализируя и прогнозируя. В Data Science есть место и творчеству: специалисты изобретают элегантные решения сложных задач, а также качественно визуализируют информацию, делать шаблоны понятными и убедительными.
Пример из жизни Data Scientist: «Джонатант Голдман, физик из Стэнфорда, устроился на работу в социальную сеть LinkedIn, и начал заниматься чем-то, что нельзя было измерить в KPI или посмотреть на конечный результат: сайт, исправление бага, внедрение фичи. Пока команда разработчиков ломала голову над тем, как модернизировать сайт и справиться с наплывом посетителей, Голдман строил прогностическую модель, которая подсказывала владельцу аккаунта LinkedIn, кто еще из пользователей сайта может оказаться его знакомым. Убедив руководство компании опробовать его новую модель, Голдман приносит соцсети миллионы новых просмотров и значительно ускоряет ее рост».
Нет определенного описания этой профессии — все зависит от сферы применения навыков работы с данными. Однако, есть вещи, которыми занимается любой Data Scientist:
Итак, вы уже поняли, что Data Scientist — человек, умеющий не только добывать и анализировать, но и обрабатывать большие массивы данных, совершая поистине волшебство с помощью множества инструментов. Если вы хотите заняться Data Science по-настоящему, то заготовьте не просто Excel, но и знания по Python, учебник по математическому анализу, и готовьтесь учиться.
Ну, и в конце мы просто хотели вас порадовать. Вот полезные ссылки. Первая — с 51 бесплатной книгой, связанной с Data Science. А вот крупнейшее Data Science сообщество. Еще есть отличный учебник Петера Флаха «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных», переведенный на русский язык.
Честно о профессии дата сайентиста: 6 фактов, которые нужно иметь в виду
Вокруг любой профессии тонна стереотипов. А вокруг тех, что мы плохо понимаем, их еще больше. Если вас привлекает Data Science и перспектива оказаться в IT-элите, читайте про шесть страхов, которые вполне могут оправдаться, и решайте, сможете ли вы стать дата сайентистом.
Для учебы на дата сайентиста нужна хотя бы базовая математика, а потом постоянно придется работать с числами
Вердикт: почти правда
Дата сайентисты работают с массивами данных на языке программирования Python. Да, математика потребуется уже на старте работы с кодом. Вот только вовсе не в виде сложных уравнений, над которыми придется корпеть часами. Но вы будете работать с числами и данными — это факт.
Хорошая новость: есть курсы, которые готовят дата сайентистов с нуля. В программу включают все, что потребуется специалисту. Но будьте готовы и сами подтягивать знания: придется много практиковаться, искать решения для нетипичных задач и учить.
Работа нудная, и надо быть очень внимательным
Вердикт: не совсем правда
Насколько работа дата сайентиста интересна, зависит от ваших предпочтений. Люди обычно называют нудной ту работу, в которой не видят смысла или делают на автомате, настолько она однообразная. Data Science — это не просто данные. У каждого столбца есть свой смысл, а в числах — закономерности. Погружаясь в задачу, вы будете это видеть и перестанете воспринимать цифры как просто цифры.
Дата сайентисты анализируют результат, задают вопросы: откуда этот пик, почему здесь именно такое число, правдивы ли эти значения и так далее. В этой работе не получится просто перетащить данные из одного файла в другой, запустить код и ждать результатов. Нужно будет погружаться в ситуацию и вовлекаться в нее на всех уровнях.
Нужен опыт, без него на работу не берут
Ни одна успешная компания не захочет брать в команду кота в мешке. Поэтому при трудоустройстве дата сайентистов часто просят показать портфолио и выполнить тестовое. И иногда этого бывает достаточно. Для некоторых работодателей стаж не настолько важен, как умение кандидата применять знания на практике.
Набраться опыта можно уже в процессе обучения. Конечно, это будет не запись в трудовой с должностью дата сайентиста и стажем. Но разностороннее портфолио и верно выполненное тестовое задание способны выделить вас среди кандидатов даже с опытом реальной работы в резюме.
Выбирайте курсы, основанные на практике. На полном курсе по Data Science в SkillFactory программа как раз нацелена на практические умения и наполнение портфолио. Помимо этого карьерный центр онлайн-школы помогает с составлением резюме и подготовкой к собеседованиям.
Придется учить английский
Вердикт: не совсем правда
Да, Python и библиотеки используют английский, а в работе дата сайентиста масса англицизмов, но учить английский для их понимания не нужно. Основные знания для работы вам дадут на курсах и все объяснят. А для частных случаев достаточно банального переводчика или запроса в поисковике.
С другой стороны, свежие решения и данные часто появляются в иностранных источниках. Если в ваших планах постоянное развитие и работа в лидирующей интернациональной команде мирового уровня, английский учить придется. Так что все зависит от ваших амбиций.
В моем городе таких специалистов не ищут
Вердикт: правда, если вы из региона
Профессия дата сайентиста востребована, хоть и появилась недавно. Но да, большинство вакансий сосредоточены в Москве и Санкт-Петербурге. На hh.ru сейчас примерно 560 вакансий по запросу Data Scientist. При этом больше 300 из них приходятся на столицу, еще сотня — на Питер, немногим больше 20 — на Новосибирскую область, а дальше числа стремительно уменьшаются. Но переезжать не обязательно. Можно работать на удаленке.
Мало быть дата сайентистом, надо шарить и в других сферах
Все так. Помимо Data Science придется разбираться в особенностях сферы, в которую придете: будь то лесопереработка или социальные сети. Чтобы эффективно работать, нужно понимать, как работают процессы в компании и на какие факты можно опираться. Важно понимать, зачем нужно это погружение и что оно даст. И если у вас это понимание есть, необходимость разбираться в чем-то будет скорее осознанной целью и желанием.
Как видите, мы не развенчали страхи и не опровергли стереотипы. Многие мнения о работе дата сайентистов оправданы, но часто сводятся к личным предпочтениям и амбициям. Хотите ли вы работать только в России или нацелены на зарубежный рынок; готовы ли учиться и практиковаться; нужна ли вам работа, в которую придется глубоко погружаться.
Если, несмотря ни на что, вас привлекает Data Science и вы хотите работать в этом перспективном направлении, не тяните. Записывайтесь на полный курс по Data Science в SkillFactory и начинайте свой путь к работе мечты. Программа подходит как для новичков, так и для специалистов в области программирования, аналитики и маркетинга. Особых знаний и подготовки не требуется. Всему, что понадобится для работы, научат на курсе.
А по промокоду ПИКАБУ действует скидка 50% до 25 апреля. Успевайте на новый поток.
Кто такой Data Scientist?
Дата-сайентист (он же Data Scientist, специалист по Data Science) может найти себе работу в любой сфере: от розничной торговли до астрофизики. Потому что именно он — настоящий повелитель больших данных. Вместе с автором кейсов для курса по Data Science Глебом Синяковым разбираемся, почему в современном мире всем так нужны дата-сайентисты.
Чем занимается Data Scientist?
Data Scientist применяет методы науки о данных (Data Science) для обработки больших объемов информации. Он строит и тестирует математические модели поведения данных. Это помогает найти в них закономерности или спрогнозировать будущие значения. Например, по данным о спросе на товары в прошлом, дата-сайентист поможет компании спрогнозировать продажи в следующем году. Модели строят с помощью алгоритмов машинного обучения, а с базами данных работают через SQL.
Где нужен и какие задачи решает Data Scientist?
Дата-сайентисты работают везде, где есть большие объемы информации: чаще всего это крупный бизнес, стартапы и научные организации. Поскольку методы работы с данными универсальны, специалистам открыты любые сферы: от розничной торговли и банков до метеорологии и химии. В науке они помогают совершать важные открытия: проводят сложные исследования, например, строят и обучают нейронные сети для молекулярной биологии, изучают гамма-излучения или анализируют ДНК.
В крупных компаниях дата-сайентист — это человек, который нужен всем отделам:
В стартапах они помогают разрабатывать технологии, которые выводят продукт на новый уровень: TikTok использует машинное обучение, чтобы рекомендовать контент, а MSQRD, который купил Facebook, — технологии по распознаванию лица и искусственный интеллект.
Пример задачи:
Если дата-сайентисту нужно спрогнозировать спрос на новую коллекцию кроссовок, то он:
Что ему нужно знать?
Дата-сайентист должен хорошо знать математику: линейную алгебру, теорию вероятности, статистику, математический анализ. Математические модели позволяют найти в данных закономерности и прогнозировать их значения в будущем. А чтобы применять эти модели на практике, нужно программировать на Python, уметь работать с SQL и библиотеками (набор готовых функций, объектов и подпрограмм) и фреймворками (ПО, объединяющее готовые компоненты большого программного проекта) для машинного обучения (например, NumPy и Scikit-learn). Для более сложных задач дата-сайентистам нужен язык С или C++.
Результаты анализа данных нужно уметь визуализировать, например, с помощью библиотек Seaborn, Plotly или Matplotlib.
Обзор профессии Data Scientist
Редакция «Нетологии» разбирается, кто такой Data Scientist, что он делает, а также какими навыками и технологиями должен владеть, чтобы максимально эффективно работать с Big Data.
Data Scientist — это эксперт по аналитическим данным, который обладает техническими навыками для решения сложных задач, а также любопытством, которое помогает эти задачи ставить. Они частично математики, частично компьютерные ученые и частично трендспоттеры.
Data Scientist требует реальных и практических знаний методов статистического анализа данных, навыков построения математических моделей (от нейронных сетей до кластеризации, от факторного до корреляционного анализов), работы с большими массивами данных и уникальной способности находить закономерности. Но это все лирика. Давайте теперь по делу.
В России цифра составляет от 60-70 тысяч рублей в месяц для совсем «зеленых» новичков и доходит до 220 для опытных специалистов.
Как сказал DJ Patil, бывший главный научный сотрудник отдела научно-технической политики Соединенных Штатов, — «Data scientist — это специалист с уникальным сплавом навыков, который делает удивительные находки и воплощает фантастические истории — и все это благодаря данным».
Чем на самом деле занимаются специалисты по Big Data? Они постоянно сталкиваются с ограничениями — техническими, методологическими и любыми иными — и находят пути для новых решений. Совершают открытия, анализируя и прогнозируя. В Data Science есть место и творчеству: специалисты изобретают элегантные решения сложных задач, а также качественно визуализируют информацию, делать шаблоны понятными и убедительными.
Пример из жизни Data Scientist: «Джонатант Голдман, физик из Стэнфорда, устроился на работу в социальную сеть LinkedIn, и начал заниматься чем-то, что нельзя было измерить в KPI или посмотреть на конечный результат: сайт, исправление бага, внедрение фичи. Пока команда разработчиков ломала голову над тем, как модернизировать сайт и справиться с наплывом посетителей, Голдман строил прогностическую модель, которая подсказывала владельцу аккаунта LinkedIn, кто еще из пользователей сайта может оказаться его знакомым. Убедив руководство компании опробовать его новую модель, Голдман приносит соцсети миллионы новых просмотров и значительно ускоряет ее рост».
Нет определенного описания этой профессии — все зависит от сферы применения навыков работы с данными. Однако, есть вещи, которыми занимается любой Data Scientist:
А вот термины и технологии, которые надо знать будущему Data Scientist:
Помимо прочего, нужно знать и понимать:
Вот здесь можно прочитать, как Beeline проводит собеседование на Data Scientist в своей компании: «Процесс начинается с телефонного интервью с вопросами по некоторым разделам математики. После кандидата ждёт тестовая задача — конкретная задача машинного обучения, аналогичная задачам на kaggle.com. Построив хороший алгоритм и получив высокое значение метрики качества на тестовой выборке, кандидат допускается до следующего этапа — непосредственного собеседования, на котором проверяется знание методов машинного обучения и анализа данных, а также задаются нетривиальные вопросы из практики и задачи на логику».
Итак, вы уже поняли, что Data Scientist — человек, умеющий не только добывать и анализировать, но и обрабатывать большие массивы данных, совершая поистине волшебство с помощью множества инструментов. Если вы хотите заняться Data Science по-настоящему, то заготовьте не просто Excel, но и знания по Python, учебник по математическому анализу, и готовьтесь учиться.
Ну, и в конце мы просто хотели вас порадовать. Вот полезные ссылки. Первая — с 51 бесплатной книгой, связанной с Data Science. А вот крупнейшее Data Science сообщество. Еще есть отличный учебник Петера Флаха «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных», переведенный на русский язык.
От редакции
Если вы хотите стать Data Scientist, то советуем записаться на наш очный курс, длящийся 5 месяцев. После обучения вы получите диплом о профессиональной переподготовке по специальности «Аналитик данных/Специалист по машинному обучению». Преподаватели — реальные специалисты из Yandex Data Factory, OWOX, Rambler, Сбербанк-Технологии, Microsoft, МТС и другие. Все обучение построено не только на теории, но и на обязательной практической отработке. Поэтому после очного курса вы выйдете подготовленным специалистом, который может пойти в любую интересную ему сферу: ритейл, банки, стартапы, ИТ, телеком. Все подробности здесь.
Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации.
Чем на самом деле занимаются Data Scientists? Рассказывают люди, перешедшие в эту сферу
Data Science – популярное направление в IT, о котором сейчас говорят все. Но далеко не каждый понимает, чем же на практике занимаются дата-сайентисты. Если кратко, они обрабатывают огромные массивы данных (настолько, что не влазят в таблицу Excel) и на их основе создают алгоритмы для решения разных задач – от составления прогнозов погоды и систем рекомендаций музыкальных сервисов до разработки умных чат-ботов и проведения генетических исследований.
На квалифицированных data science-специалистов огромный спрос среди крупных компаний. Интересная работа, отсутствие рутины и высокие зарплаты заставляют задуматься о смене работы людей не только с техническим образованием, но и гуманитариев. Однако ни те, ни другие не знают, как подступиться к профессии дата-сайентиста: куда пойти учиться, как устроиться на работу и что в итоге придется делать.
Мы поговорили с тремя выпускниками SkillFactory, прошедшими курс по Data Science, и выяснили, почему они решились на перемены в жизни, совпали ли ожидания от новой профессии с реальностью и с какими сложностями им пришлось столкнуться во время работы и учебы.
Почему я выбрал Data Science
Все профессии, которые я знал в детстве, мне не особо нравились, зато меня всегда привлекали компьютеры. В 6 классе я заинтересовался программированием и стал изучать языки C++ и Python. Можно сказать, что к 9 классу у меня уже были довольно глубокие знания по написанию кода.
Еще тогда я понял, что если хочу развиваться в IT-сфере, одного программирования недостаточно. В тот момент мне предложили поучаствовать в школьной олимпиаде, связанной с Data Science. Работа с массивами данных привлекла меня тем, что требует творческого подхода – для каждой задачи надо подобрать оригинальное решение. Этим Data Science отличается от разработки софта, где используют примерно одинаковые методы. Но это мое субъективное мнение.
О сложностях в учебе
По Data Science совсем мало обучающих курсов и действительно полезной информации в открытом доступе. Решение учиться на дата-сайентиста в SkillFactory пришло после того, как я прошел у них трехмесячный курс по программированию на Python. Мне понравился удаленный формат и то, как структурирована учебная программа.
Я уже умел кодить и был уверен в своих скиллах, поэтому единственное, что смущало на курсе – это раздел с высшей математикой. Она давалась мне очень тяжело, так что иногда я обращался за помощью к менторам. Их ответ мог прийти моментально или на следующий день.
Еще мне помогали другие ученики. Вообще, на курсе много командных конкурсов, потому что дата-сайентист практически никогда работает один. Темы контестов полностью связаны с Data Science. Например, было соревнование по анализу временных рядов.
Как дипломный проект помог прокачать скиллы дата-сайентиста
За почти два года, что я занимаюсь Data Science, самым сложным заданием для меня был дипломный проект в SkillFactory – «Предсказание цен на недвижимость с использованием машинного обучения». Программа, которую я сделал, брала данные по определенному объекту: местоположение, этажность, площадь квартир и количество комнат – и строила по ним прогнозы стоимости этого жилья.
Самой трудной, но и самой интересной частью проекта был непростой формат данных. Легко работать с информацией в однотипном формате. Например, когда числа аккуратно собраны в таблицу. Но если есть какие-то подписи или символы, их нужно очищать, а это очень тяжело. По сути, я столкнулся с огромным массивом неструктурированных данных.
Дипломный проект занял очень много времени, но именно он развил навыки, которых раньше не хватало. Задание заставило применять самые изощренные решения, до которых я вряд ли бы додумался раньше.
Я стал детальнее разбираться во всех «фичах» Data Science и овладел новыми инструментами, например, hyperopt для автоматического подбора гиперпараметров или spellchecker для исправления орфографии в словах. Также я укрепил знания по материалам, которые на курсе мне были не совсем понятны.
Формат диплома был для меня в новинку, так что в основном менторы помогали с оформлением презентации. На каждом этапе работы я получал список ошибок и недочетов, которые нужно исправить. То же самое касается кода. Всегда можно было попросить о помощи, но я хотел разобраться во всем сам. По крайней мере там, где это было возможно.
На курсе SkillFactory есть большой блок, посвященный трудоустройству. Нам рассказали о том, как правильно составить резюме, оформить портфолио и найти подходящую работу.
После окончания вуза я хочу работать в компании, которая занимается производством деталей для компьютеров, например, в Nvidia. Если не получится сразу найти работу по душе, поступлю в магистратуру за границей и буду развивать карьеру там. Мне не интересны руководящие позиции. Я просто люблю свое дело и хочу развивать свои навыки дата-сайентиста, чтобы в будущем создать что-то действительно полезное.