Тинькофф встроил своего ассистента Олега в голосовую соцсеть Clubhouse. Впервые Олег принял участие в комнате Тинькофф Инвестиции 11 марта, туда транслировался конференц-звонок топ-менеджеров группы Тинькофф во главе с Оливером Хьюзом с журналистами и инвесторами. Это первый случай интеграции голосового помощника и технологий синтеза и распознавания речи в этой социальной сети.
Как отмечают в компании, голосовой ассистент Олег будет функционировать в сети в качестве полноценного пользователя. Он сможет дать модераторам комнат дополнительные возможности для общения с пользователями Clubhouse и модерирования дискуссий, благодаря своим навыкам распознавания и синтеза речи в режиме реального времени.
«Сейчас команда голосового ассистента Олега экспериментирует с разными пользовательскими сценариями в Клабхаусе, в которых наши технологии могут быть полезными создателям комнат или интересными слушателям. Олег может также помочь создателям комнат и модераторам дискуссий, когда у слушателей нет возможности задать вопрос голосом — например, слишком шумно или не хочется перебивать спикера. Для таких случаев мы разрабатываем интерфейс для приёма вопросов через чат с Олегом в Телеграме: аудитория присылает ему вопросы, которые он зачитает с идеальным произношением и по желанию сохранит приватность автора вопроса», — отметил директор по технологиям искусственного интеллекта Тинькофф Павел Калайдин.
Кроме этого в Clubhouse Олег сможет заходить в комнаты, слушать выступления спикеров, расшифровывать речь в режиме реального времени и вести текстовые трансляции в свой телеграм-канал «Олег в Клабхаузе». Также Олег может выступать в роли модератора комнат, озвучивать вопросы спикеров, напоминать о тайминге и регламенте и т. д.
«Мы уже протестировали возможность расшифровывать аудиозвонки в текст в режиме реального времени в собственный телеграм-канал и успешно ее опробовали на примере комнаты про финансовые результаты группы Тинькофф за 2020-й год», — рассказал Павел Калайдин.
Он также добавил, что в продолжении распознавания коллективного голосового общения встает вопрос в суммаризации информации. Бывает нелегко воспринимать междометия, слова-паразиты, некоторую несвязность предложений, когда читаешь даже хорошо распознанную стенограмму. «Поэтому мы исследуем возможности очищения текста и выявления сути сказанного, чтобы текстовая транскрипция была более читаемой и короткой», — сказал Павел Калайдин.
«Мы будем рады совместным экспериментам с сообществами в голосовой соцсети, чтобы ассистент стал помощником контент-мейкеров и слушателей», — заключил представитель Тинькофф.
Ассистент Олег основан на технологиях распознавания и синтеза речи Tinkoff VoiceKit. Речевые технологии Tinkoff VoiceKit — это глубокие нейросетевые модели для синтеза и распознавания речи, которые в течение последних лет разрабатывались в Тинькофф в рамках стратегии AI First и которые также использовались для создания Олега — первого в мире финансового голосового помощника собственной разработки.