Інтерв’ю з Костянтином Омелянчуком та Олександром Скуржанським | Data Science fwdays’20 | by Fwdays

4 min readJul 27, 2020

Інтерв’ю з Костянтином Омелянчуком та Олександром Скуржанським | Data Science fwdays’20

Наступні спікери безкоштовної дводенної онлайн-конференції Data Science fwdays’20, які з радістю відповіли на наші запитання — Костянтин Омелянчук та Олександр Скуржанський, які працюють Applied Research Scientist у компанії Grammarly.

Костянтин Омелянчук

Лідер проєктів та експерт у сфері природного опрацювання мови (NLP), де має понад 4 роки практичного досвіду
Зайняв третє місце у конкурсі “Home Depot Product Search Relevance Competition” на змаганнях Kaggle у 2016 році
Основний фокус у роботі — збереження лідерства Grammarly у напрямку Grammatical Error Correction

Олександр Скуржанський

Працює над покращенням різних аспектів комунікації, які виходять за межі напрямку Grammatical Error Correction
Найбільше цікавиться неавторегресивною генерацією тексту, самонавчанням представлень даних, методами зменшення розміру моделей
Має досвід у різноманітних NLP-завданнях, зокрема у спрощенні тексту, машинному перекладі, визначенні географій

Як ти вперше долучився до Machine Learning?

Костянтин:

Цікавитись ML я почав ще з часів університету (обидва моїх дипломи містили в собі моделі для здійснення передбачень), але першим серйозним досвідом була участь в змаганні Home Depot Product Search Relevance від Kaggle на початку 2016-го. Нашій команді вдалось зайняти третє місце, а головне — багато чому навчатись за цей короткий час. Це були дуже насиченні кілька місяців з захопливою розв’язкою (детальніше можна прочитати тут).

Олександр:

Вперше про Machine Learning почув на другому курсі університету. Я тоді навчався на факультеті прикладної математики (основними предметами були: математичний аналіз, лінійна алгебра тощо), і мені здалось, що це — найкращий спосіб використати профільні знання на практиці. Протягом всього наступного літа я проходив різноманітні курси на онлайн-платформах. В результаті, вже восени потрапив на стажування на позицію Data Analyst, а з часом перейшов на позицію Machine Learning Engineer.

Чим займається Applied Research Scientists у Grammarly?

Костянтин:

Це багато в чому залежить і від проєкту, над яким ти працюєш, і від самого дослідника і кола його інтересів. Те, що мені дуже подобається в Grammarly — це підтримка ініціатив з боку менеджменту і можливість бачити, як результатами твоєї роботи користуються понад 20 мільйонів користувачів щодня. Особисто я займаюсь дослідницькою роботою, написанням коду, запуском експериментів, обговоренням планів, керуванням проєктами та беру участь в процесі найму.

Олександр:

За час роботи в компанії мені довелось працювати в кількох досить різних проєктах, і всюди задачі помітно відрізнялися. Звісно є спільні етапи: тренування й оцінювання моделей, перевірка гіпотез, обробка даних. Круто, що проєктів багато, тому можна вибирати, що тобі подобається. Стосовно специфіки NLP можу додати, що задача оцінки згенерованого тексту є чи не найскладнішою.

Поділись своїм досвідом: яке з завдань/проєктів, над яким ти працював у Grammarly, було для тебе найцікавішим?

Костянтин:

Я багато працював і працюю над різними задачами в області Grammatical Error Correction (GEC). Було дуже цікаво отримати можливість застосувати свої ідеї не тільки до продукту, але й випробувати себе на тих же даних, які використовуються академією, що в результаті переросло в дослідницьку статтю, в якій нашій команді вдалося встановити новий рекорд на цій задачі.

Олександр:

Найбільше подобаються задачі, пов’язані з пришвидшення та зменшення розміру моделей. Цей напрям стає все актуальнішим в Deep Learning спільноті, враховуючи тенденції до збільшення кількості параметрів нейронних мереж. Найбільші сьогодні сягають 600 мільярдів.

Про що буде ваша доповідь на Data Science fwdays’20?

Костянтин:

Власне, це буде розповідь про те, як нам вдалось досягнути SOTA на задачі GEC і які перепони траплялись на нашому шляху до цього.

Олександр:

Наша доповідь — про шлях від ідеї пришвидшення Grammatical Error Correction (GEC) моделі до State-of-the-Art результатів у області. Згадаємо про поточний стан GEC та тренування Трансформерів.

Порадь джерела новин зі світу Data Science. Де береш інформацію, можливо, підписаний на якісь Телеграм/Youtube-канали чи слухаєш подкасти тощо.

Костянтин:

Особисто я частіше всього знаходжу новинки або на архіві (є зручний сайт, який дозволяє фільтрувати лише релевантні/свіжі статті), або з підписок на google scholar. Ну, і, звісно, колеги часто діляться статтями, які вони знайшли цікавими для себе.

Олександр:

Найчастіше користуюсь відомим arxiv-sanity.com, створеним не менш відомим Andrej Karpathy (зараз Director of AI в Tesla). На цьому сайті є можливість персоналізувати підбірку пейперів, відмічаючи ті, які тобі подобаються. Також слідкую за рейтингами paperswithcode.com, який нещодавно став частиною Facebook AI. З подкастів — іноді слухаю Lex Fridman.

Дякуємо нашим спікерам за цікаве інтерв’ю і нагадуємо, що послухати усі доповіді онлайн-конференції Data Science fwdays’20 можна вже зовсім скоро, 8 та 15 серпня. Участь безкоштовна за попередньою реєстрацією.

Written by Fwdays

No responses yet