Інтерв’ю з Костянтином Омелянчуком та Олександром Скуржанським | Data Science fwdays’20
Наступні спікери безкоштовної дводенної онлайн-конференції Data Science fwdays’20, які з радістю відповіли на наші запитання — Костянтин Омелянчук та Олександр Скуржанський, які працюють Applied Research Scientist у компанії Grammarly.
Костянтин Омелянчук
- Лідер проєктів та експерт у сфері природного опрацювання мови (NLP), де має понад 4 роки практичного досвіду
- Зайняв третє місце у конкурсі “Home Depot Product Search Relevance Competition” на змаганнях Kaggle у 2016 році
- Основний фокус у роботі — збереження лідерства Grammarly у напрямку Grammatical Error Correction
Олександр Скуржанський
- Працює над покращенням різних аспектів комунікації, які виходять за межі напрямку Grammatical Error Correction
- Найбільше цікавиться неавторегресивною генерацією тексту, самонавчанням представлень даних, методами зменшення розміру моделей
- Має досвід у різноманітних NLP-завданнях, зокрема у спрощенні тексту, машинному перекладі, визначенні географій
Як ти вперше долучився до Machine Learning?
Костянтин:
Цікавитись ML я почав ще з часів університету (обидва моїх дипломи містили в собі моделі для здійснення передбачень), але першим серйозним досвідом була участь в змаганні Home Depot Product Search Relevance від Kaggle на початку 2016-го. Нашій команді вдалось зайняти третє місце, а головне — багато чому навчатись за цей короткий час. Це були дуже насиченні кілька місяців з захопливою розв’язкою (детальніше можна прочитати тут).
Олександр:
Вперше про Machine Learning почув на другому курсі університету. Я тоді навчався на факультеті прикладної математики (основними предметами були: математичний аналіз, лінійна алгебра тощо), і мені здалось, що це — найкращий спосіб використати профільні знання на практиці. Протягом всього наступного літа я проходив різноманітні курси на онлайн-платформах. В результаті, вже восени потрапив на стажування на позицію Data Analyst, а з часом перейшов на позицію Machine Learning Engineer.
Чим займається Applied Research Scientists у Grammarly?
Костянтин:
Це багато в чому залежить і від проєкту, над яким ти працюєш, і від самого дослідника і кола його інтересів. Те, що мені дуже подобається в Grammarly — це підтримка ініціатив з боку менеджменту і можливість бачити, як результатами твоєї роботи користуються понад 20 мільйонів користувачів щодня. Особисто я займаюсь дослідницькою роботою, написанням коду, запуском експериментів, обговоренням планів, керуванням проєктами та беру участь в процесі найму.
Олександр:
За час роботи в компанії мені довелось працювати в кількох досить різних проєктах, і всюди задачі помітно відрізнялися. Звісно є спільні етапи: тренування й оцінювання моделей, перевірка гіпотез, обробка даних. Круто, що проєктів багато, тому можна вибирати, що тобі подобається. Стосовно специфіки NLP можу додати, що задача оцінки згенерованого тексту є чи не найскладнішою.
Поділись своїм досвідом: яке з завдань/проєктів, над яким ти працював у Grammarly, було для тебе найцікавішим?
Костянтин:
Я багато працював і працюю над різними задачами в області Grammatical Error Correction (GEC). Було дуже цікаво отримати можливість застосувати свої ідеї не тільки до продукту, але й випробувати себе на тих же даних, які використовуються академією, що в результаті переросло в дослідницьку статтю, в якій нашій команді вдалося встановити новий рекорд на цій задачі.
Олександр:
Найбільше подобаються задачі, пов’язані з пришвидшення та зменшення розміру моделей. Цей напрям стає все актуальнішим в Deep Learning спільноті, враховуючи тенденції до збільшення кількості параметрів нейронних мереж. Найбільші сьогодні сягають 600 мільярдів.
Про що буде ваша доповідь на Data Science fwdays’20?
Костянтин:
Власне, це буде розповідь про те, як нам вдалось досягнути SOTA на задачі GEC і які перепони траплялись на нашому шляху до цього.
Олександр:
Наша доповідь — про шлях від ідеї пришвидшення Grammatical Error Correction (GEC) моделі до State-of-the-Art результатів у області. Згадаємо про поточний стан GEC та тренування Трансформерів.
Порадь джерела новин зі світу Data Science. Де береш інформацію, можливо, підписаний на якісь Телеграм/Youtube-канали чи слухаєш подкасти тощо.
Костянтин:
Особисто я частіше всього знаходжу новинки або на архіві (є зручний сайт, який дозволяє фільтрувати лише релевантні/свіжі статті), або з підписок на google scholar. Ну, і, звісно, колеги часто діляться статтями, які вони знайшли цікавими для себе.
Олександр:
Найчастіше користуюсь відомим arxiv-sanity.com, створеним не менш відомим Andrej Karpathy (зараз Director of AI в Tesla). На цьому сайті є можливість персоналізувати підбірку пейперів, відмічаючи ті, які тобі подобаються. Також слідкую за рейтингами paperswithcode.com, який нещодавно став частиною Facebook AI. З подкастів — іноді слухаю Lex Fridman.
Дякуємо нашим спікерам за цікаве інтерв’ю і нагадуємо, що послухати усі доповіді онлайн-конференції Data Science fwdays’20 можна вже зовсім скоро, 8 та 15 серпня. Участь безкоштовна за попередньою реєстрацією.