Разумеется, Affectiva – далеко не единственная компания, ориентированная на эмоциональные технологии или анализ эмоций в выражении лица. Компания Emotient, главный офис которой находится в Сан-Диего, была основана до Affectiva, в 2008 году. Используя схожий подход к распознаванию лиц, Emotient вычисляет и анализирует едва уловимые выражения лица, присущие почти каждому человеку, когда он испытывает эмоции. Почему же стали появляться компании, работающие в этой сфере? Генеральный директор Emotient Кен Денман объясняет: «До сегодняшнего дня не существовало механизмов реализации. Технология камер была для нас недостаточно продвинутой, чтобы определять микровыражения лица, те бессознательные реакции, которые проявляются в виде движений лицевых мышц прежде, чем наше сознание сможет их остановить, поскольку они представляют собой импульс». Денман отмечает, что сейчас доступны вычислительные возможности для глубинного обучения нейросетей, благодаря чему развивается технология в целом.
Появляются десятки компаний, ориентированные не только на чтение лиц, но и на другие способы эмоционального взаимодействия. Компания Beyond Verbal с главным офисом в Тель-Авиве занимается анализом эмоций, распознавая интонации в человеческой речи. Их первое приложение применялось в кол-центрах и службах техподдержки и позволяло считывать эмоции и настроение клиента. На сегодняшний день Beyond Verbal расширяют рынок, особенно в области фитнеса и здоровья9. В течение двадцати одного года физики и нейрофизиологи компании проводили исследования и обучали свою систему: в их базе данных более 1,6 миллиона образцов голоса людей из 174 стран. Перед добавлением в учебную базу данных каждый образец анализировали трое психологов, решавших, какие эмоции он содержит. По словам сотрудников компании, приложение может не только распознавать основное и сопутствующее настроение звонящих, но и некоторые аспекты поведения и личности. Такие данные можно использовать для настройки автоматизированных систем и инструктажа обслуживающего персонала, чтобы повысить уровень удовлетворенности клиентов. Использование системы в кол-центрах позволяет эффективнее реагировать на разного рода ситуации. Например, стратегии работы с рассерженными клиентами, которым необходимо решить свою проблему, отличаются от стратегий работы с теми, кто хочет просто выплеснуть свое раздражение.
Компания Beyond Verbal использует методики глубинного обучения и распознавания образов, чтобы выделить из колебательных сигналов голоса эмоциональную составляющую. Сам по себе человеческий голос эволюционировал не для того, чтобы передавать эмоции, но именно психология человека определяет и задает интонацию в речи. Руководитель научного отдела компании доктор Йорам Леванон в беседе о том, как эмоции обретают голосовое выражение, отмечает, что соматические изменения, сопровождающие переживание эмоций, изменяют свойства речи. В какой-то мере это схоже с идеей Манфреда Клайнса о том, что эмоции можно обнаружить по колебательным сигналам от нажатия пальцев. По словам доктора Леванона, мы учимся определять эти эмоциональные характеристики голоса на ранних этапах своего развития, начиная с внутриутробного периода. Предположительно, во время раннего обучения происходит самоорганизация соответствующих нейронов, в результате которой мы обретаем способность распознавать эмоции в голосе людей10.
Beyond Verbal предлагает интерфейс программирования приложений (API) и набор средств разработки (SDK), позволяющие разработчикам встроить в собственные приложения функцию анализа эмоций по интонациям голоса. Они также запустили технологию Moodies, которая позиционируется как первое в мире приложение обработки и анализа данных для смартфонов. В Beyond Verbal утверждают, что оно может оценивать результат на основе более чем четырехсот эмоциональных вариантов, определяющих широкий спектр чувств и настроений. Генеральный директор компании Юваль Мор прогнозирует, что вскоре приложения для обработки и анализа голосовых данных станут частью каждого устройства или платформы с голосовой активацией.
Десятки компаний стремятся занять свою нишу в сфере технологий распознавания голоса. Одни разрабатывают собственные продукты с нуля, другие пользуются интерфейсами программирования и наборами средств для разработки приложений от сторонних производителей.
Кроме Affectiva и Emotient, в сфере распознавания выражений лица работают такие компании, как Eyeris, IMRSV, Noldus, RealEyes, Sightcorp, и Affective Computing Company (tACC).
Даже Microsoft запустила когнитивные сервисы, предложив API-интерфейс Emotion, предоставляющий естественные и контекстные интерактивные инструменты для улучшения взаимодействия с пользователем. Сейчас интерфейс ориентирован в основном на распознавание выражений лиц.
В других областях распознавания эмоций работает компания Emospeech, которая, как и Beyond Verbal, разрабатывает приложения для определения эмоций в речи. Nemesysco, еще одна израильская компания, занимается анализом уровня стресса говорящего с целью выявления мошенничества. Шведская компания Tobii's business ориентируется на контроль взгляда и движений глаз при изучении человеческого поведения. Анализ походки и поз также считается предметом исследования эмоционального программирования и находит применение в таких областях, как физиотерапия и эргономика. Однако пока еще сложно использовать согласованные признаки эмоциональных состояний для фиксирования той или иной эмоции. Возможно, когда технология геолокации достигнет определенного разрешения или с портативных камер можно будет получать обратную связь о передвижениях владельца, анализ общих признаков сможет продвинуться вперед.
Обратная сторона эмоционального программирования – синтез эмоций для программного обеспечения и роботизированных систем. Некоторые компании начали заполнять этот сегмент рынка и обучать машины создавать видимость эмоций. Например, компания Emoshape, с представительствами в Лондоне и Нью-Йорке производит эмоциональный процессор, который можно встраивать в устройства, создавая у пользователя впечатление, что устройство переживает эмоции11. Эмоциональный процессор позиционируется как первый эмоциональный чип для ИИ, роботов и электронных устройств широкого потребления. Он подключается к сенсорам, определяющим эмоции пользователя, а затем воспроизводит эту информацию в своем поведении. Отслеживая выражения лица, используемые слова и тона голоса пользователя, устройство может оценивать уровень его эмоций.
Другие компании неизменно последуют их примеру, либо создавая собственные специализированные эмоциональные процессоры, как Emoshape, либо разрабатывая и продавая собственные эмоциональные движки с API-интерфейсом, в которые можно встраивать другие приложения. С их помощью можно будет изменять поведение и действия роботов, программных приложений и персональных ИИ-помощников, подобных Мэнди (персональному цифровому помощнику из главы 1).
Во всей этой ситуации интересно одно – преобладающее количество стартапов, использующих технологии распознавания эмоций. По всей видимости, это объясняется двумя причинами. Во-первых, существующие технологии позволяют развивать именно это направление: веб-камеры, камеры смартфонов с достаточным разрешением и скоростью; доступные вычислительные мощности всех наших устройств – стационарных компьютеров, ноутбуков и, самое главное, смартфонов; высокая скорость передачи данных и возможность подключаться к серверам и службам проводным способом, по Wi-Fi или через мобильные устройства.
Вторая причина интереснее. Компьютерное распознавание образов и глубинное обучение – технологии, которые за последние годы достигли значительной сложности и больших возможностей. В некоторых ситуациях компьютеры способны распознавать то, что человек заметить не в состоянии, в то время как в других условиях они откровенно слабы. Когда имеются разумно структурированные универсальные признаки – скажем, четыре зубца у вилки, четыре колеса у автомобиля или начертание в алфавита, – система распознавания, основанная на нейронной сети, может обучаться очень хорошо даже в плохих условиях. Большинство систем распознавания выражений лиц основаны на структурированной таксономии, по большей части на карте движений лицевых мышц, составленной Экманом. Обучение возможно, потому что природа выражения эмоций на лицах людей универсальна. Четко определенная таксономия может быть одной из причин, по которой компании, разрабатывающие технологии анализа эмоций, специализируются в основном на чтении лиц. Со временем, когда удастся разработать и разобраться в техниках распознавания других эмоциональных каналов, ситуация может измениться.
Мы находимся на пороге странной новой эры, когда границы между людьми и технологиями становятся все более зыбкими. Нам станут доступны чудеса, которых мир прежде не видел.
Разумеется, в сфере эмоционального программирования будут происходить слияния компаний и приобретения одних компаний другими. Как упоминалось, Physiio объединилась с Empatica Sri, образовав Empatica, Inc. в апреле 2014 года. В 2015 году компания Kairos, производящая программное обеспечение для распознавания выражений лиц, купила IMRSV за 2,7 миллиона долларов. И предоставила своим клиентам услуги, на которые существовал спрос, но которые не входили в компетенцию Kairos. В январе 2016 года мировой гигант Apple купила Emotient за сумму, размер которой не разглашается. Хотя Apple не уточнила причину покупки Emotient на момент написания книги, было распространено мнение, что они могли разрабатывать усовершенствованную версию своего приложения личного помощника Siri. В пользу этого предположения говорят и некоторые другие приобретения Apple в тот же период времени. В их числе британская компания по производству программного обеспечения для анализа естественных языков VocallQ, компания Perceptio, занимающаяся глубинным обучением в распознавании образов, и недавно созданная компания Faceshift, специализирующаяся на распознании выражений лиц на видеоизображениях. Как уже говорилось, создание систем программного обеспечения, способных понимать нас и взаимодействовать с нами более естественным образом, постоянно способствует усовершенствованию множества поддерживающих технологий.
На расширение новой сферы влияют и другие факторы, например законодательство в области патентов и интеллектуальной собственности. Например, в мае 2015 года Emotient запатентовала свой метод сбора и категоризации до ста тысяч изображений лиц в день. За год до этого Apple подала патентную заявку на систему, которая оценивает настроение, основываясь на выражении лица. Защита интеллектуальной собственности – крайне важная движущая сила и мотивирующий фактор. В то же время новые технологии получают патенты, формулировки которых слишком общие или слишком очевидны с точки зрения существующего законодательства. К сожалению, недостаток осведомленности в новой отрасли науки часто ведет к перегибанию палки в виде некорректно работающей защиты. Патенты на гены рака груди, выданные в 1997 и 1998 годах компании Myriad Genetics, признанные недействительными в 2013 году, – яркий тому пример12.
Чрезмерно широко трактуемые патенты могут препятствовать инновациям и развитию. Оценка патентов, подобных патенту Emotient, не является целью этой книги, но уместно задать вопрос: правомерно ли защищать патентом нечто подобное проекту машинного обучения, данные для которого были получены от бескорыстных исполнителей. Время покажет. В действительности важно на ранних этапах развития новой отрасли науки то, чтобы мы не создавали ненужных препятствий. Просто представьте, что бы произошло, если бы кто-то получил в 1980-е или 1990-е годы патент, в общих чертах описывающий таксономию выражения лица человека. В то время этот процесс мог показаться новым и неочевидным, и общая формулировка патента могла затормозить развитие всей отрасли эмоционального программирования! Главным образом стоит понять: на столь ранних стадиях будет мудрым решением ввести дополнительную защиту от патентов, которые очевидно будут вредными для всех. Важно помнить, что, кроме выдачи патентов, основная миссия Ведомства США по патентам и торговым знакам— «способствовать индустриальному и технологическому прогрессу США и укреплять национальную экономику». В нашем быстро меняющемся мире необходимо установить продуманный баланс в том, кому служит патентная защита.
В условиях экономики свободного рынка заманчиво ориентироваться на выгоду как главный фактор мотивирования и движущую силу инноваций, но это лишь одна из ее составляющих и даже не самая важная. Огромное значение для долговременного успеха имеют поддержка инфраструктуры, достаточного количества мечтателей-единомышленников и общества, готового ухватиться за некоторые, если не за все, возможности новой технологии. Инновации не развиваются в вакууме, а являются результатом взаимного обогащения идей. Делая доступными некоторые аспекты развивающейся технологии, но при этом защищая действительно заслуживающую этого интеллектуальную собственность, технологическая экосистема получает возможность расти и процветать, что идет на пользу не только обществу, но и самим новаторам. Эль Калиуби, по всей видимости, поддерживает эту идею, говоря: «Наша самая большая проблема заключается в том, что существует так много прикладных способов использовать эту технологию, что мы с моей командой понимаем: нам будет не под силу создать их самим, поэтому мы сделали технологию доступной для других разработчиков, которые хотят создавать и творить»13.
В свете всех этих шагов вперед чего нам ждать от развития эмоционального программирования во всех его формах и приложениях? Как разные сегменты рынка будут поддерживать друг друга и конкурировать? Как будет развиваться эмоциональная экосистема и какое влияние она окажет на другие технологии?
Оценивая комментарии некоторых лидеров этой области, мы хотим узнать, чего же они сами ожидают или хотят увидеть в будущем. Как уже говорилось, Юваль Мор из Beyond Verbal считает, что программное обеспечение для анализа эмоций скоро станет частью практически любой платформы, активируемой голосом. Это будет означать, что программные агенты, подобные Siri, или кол-центры на другом конце земного шара будут способны оценить ваше настроение и расположение духа в тот момент, когда вы начнете взаимодействие с ними. Ваши звонки друзьям будут предусматривать функцию включить эмоциональный канал сверх того, который работает естественным образом. Предположительно, из соображений приватности каждому будет доступна возможность отключить эмоциональный канал по желанию. По крайней мере, на ранних этапах, если компании-разработчики хотят сохранить хорошие отношения с клиентами.
Эль Калиуби постоянно говорила о том, каким она видит будущее эмоционального программирования: «Однажды настанет время, когда во все устройства будет встроен эмоциональный чип. Ваше устройство будет реагировать на ваши эмоции и приспосабливаться к ним». Это дает повод считать, что ее точка зрения подразумевает как минимум один канал передачи эмоций – например, выражение лица, – а возможно, их все. Или, по крайней мере, те, которые можно легко совместить в одном чипе. Говоря: «Я чувствую, что все мои эмоции растворились в киберпространстве»14, эль Калиуби имеет в виду, что в процессе сетевого общения мы теряем огромное количество информации. Если нам удастся подключить дополнительный канал, который был важной частью общения на протяжении всей истории человечества, то, возможно, нам удастся восстановить существенную часть утерянной информации.