Fwdays
4 min readJul 27, 2020

Інтерв’ю з Костянтином Омелянчуком та Олександром Скуржанським | Data Science fwdays’20

Наступні спікери безкоштовної дводенної онлайн-конференції Data Science fwdays’20, які з радістю відповіли на наші запитання — Костянтин Омелянчук та Олександр Скуржанський, які працюють Applied Research Scientist у компанії Grammarly.

Костянтин Омелянчук

  • Лідер проєктів та експерт у сфері природного опрацювання мови (NLP), де має понад 4 роки практичного досвіду
  • Зайняв третє місце у конкурсі “Home Depot Product Search Relevance Competition” на змаганнях Kaggle у 2016 році
  • Основний фокус у роботі — збереження лідерства Grammarly у напрямку Grammatical Error Correction

Олександр Скуржанський

  • Працює над покращенням різних аспектів комунікації, які виходять за межі напрямку Grammatical Error Correction
  • Найбільше цікавиться неавторегресивною генерацією тексту, самонавчанням представлень даних, методами зменшення розміру моделей
  • Має досвід у різноманітних NLP-завданнях, зокрема у спрощенні тексту, машинному перекладі, визначенні географій

Як ти вперше долучився до Machine Learning?

Костянтин:

Цікавитись ML я почав ще з часів університету (обидва моїх дипломи містили в собі моделі для здійснення передбачень), але першим серйозним досвідом була участь в змаганні Home Depot Product Search Relevance від Kaggle на початку 2016-го. Нашій команді вдалось зайняти третє місце, а головне — багато чому навчатись за цей короткий час. Це були дуже насиченні кілька місяців з захопливою розв’язкою (детальніше можна прочитати тут).

Олександр:

Вперше про Machine Learning почув на другому курсі університету. Я тоді навчався на факультеті прикладної математики (основними предметами були: математичний аналіз, лінійна алгебра тощо), і мені здалось, що це — найкращий спосіб використати профільні знання на практиці. Протягом всього наступного літа я проходив різноманітні курси на онлайн-платформах. В результаті, вже восени потрапив на стажування на позицію Data Analyst, а з часом перейшов на позицію Machine Learning Engineer.

Чим займається Applied Research Scientists у Grammarly?

Костянтин:

Це багато в чому залежить і від проєкту, над яким ти працюєш, і від самого дослідника і кола його інтересів. Те, що мені дуже подобається в Grammarly — це підтримка ініціатив з боку менеджменту і можливість бачити, як результатами твоєї роботи користуються понад 20 мільйонів користувачів щодня. Особисто я займаюсь дослідницькою роботою, написанням коду, запуском експериментів, обговоренням планів, керуванням проєктами та беру участь в процесі найму.

Олександр:

За час роботи в компанії мені довелось працювати в кількох досить різних проєктах, і всюди задачі помітно відрізнялися. Звісно є спільні етапи: тренування й оцінювання моделей, перевірка гіпотез, обробка даних. Круто, що проєктів багато, тому можна вибирати, що тобі подобається. Стосовно специфіки NLP можу додати, що задача оцінки згенерованого тексту є чи не найскладнішою.

Поділись своїм досвідом: яке з завдань/проєктів, над яким ти працював у Grammarly, було для тебе найцікавішим?

Костянтин:

Я багато працював і працюю над різними задачами в області Grammatical Error Correction (GEC). Було дуже цікаво отримати можливість застосувати свої ідеї не тільки до продукту, але й випробувати себе на тих же даних, які використовуються академією, що в результаті переросло в дослідницьку статтю, в якій нашій команді вдалося встановити новий рекорд на цій задачі.

Олександр:

Найбільше подобаються задачі, пов’язані з пришвидшення та зменшення розміру моделей. Цей напрям стає все актуальнішим в Deep Learning спільноті, враховуючи тенденції до збільшення кількості параметрів нейронних мереж. Найбільші сьогодні сягають 600 мільярдів.

Про що буде ваша доповідь на Data Science fwdays’20?

Костянтин:

Власне, це буде розповідь про те, як нам вдалось досягнути SOTA на задачі GEC і які перепони траплялись на нашому шляху до цього.

Олександр:

Наша доповідь — про шлях від ідеї пришвидшення Grammatical Error Correction (GEC) моделі до State-of-the-Art результатів у області. Згадаємо про поточний стан GEC та тренування Трансформерів.

Порадь джерела новин зі світу Data Science. Де береш інформацію, можливо, підписаний на якісь Телеграм/Youtube-канали чи слухаєш подкасти тощо.

Костянтин:

Особисто я частіше всього знаходжу новинки або на архіві (є зручний сайт, який дозволяє фільтрувати лише релевантні/свіжі статті), або з підписок на google scholar. Ну, і, звісно, колеги часто діляться статтями, які вони знайшли цікавими для себе.

Олександр:

Найчастіше користуюсь відомим arxiv-sanity.com, створеним не менш відомим Andrej Karpathy (зараз Director of AI в Tesla). На цьому сайті є можливість персоналізувати підбірку пейперів, відмічаючи ті, які тобі подобаються. Також слідкую за рейтингами paperswithcode.com, який нещодавно став частиною Facebook AI. З подкастів — іноді слухаю Lex Fridman.

Дякуємо нашим спікерам за цікаве інтерв’ю і нагадуємо, що послухати усі доповіді онлайн-конференції Data Science fwdays’20 можна вже зовсім скоро, 8 та 15 серпня. Участь безкоштовна за попередньою реєстрацією.

Fwdays
Fwdays

Written by Fwdays

We organize large conferences (JS, PHP, .NET, Highload, etc.) and meetups

No responses yet