Что это такое Siri, и как использовать эту функцию







Однако, когда поинтересуешься: «Сири, скажи, пожалуйста, кто ты?», то никаких подробностей от нее не услышишь. В лучшем случае она скажет, что ей не нравится рассказывать о себе. И все! И наша задача в том, чтобы найти ответы на этот и другие подобные вопросы.
На самом деле Siri – это Speech Interpretation and Recognition Interface. Так называется голосовой помощник поколения Apple. И если ссылаться на компетентное мнение экспертов, то они утверждают, что из всех аналогов лучшего голосового помощника в данный момент не найти.
Что такое Siri?
По сравнению со многими другими голосовыми ассистентами с Siri нет возможности общаться, используя написанные сообщения. Да в этом и нет необходимости. Пока вы будете писать задачу или поисковый запрос, то успеете не менее пяти раз ее просто озвучить голосом.
Siri — это персональный помощник. В среде профессионалов принято говорить, что это вопросно-ответная система, которую адаптировали под операционную систему iOS. Такое приложение применяет обработку естественной речи с целью ответить на вопросы и выдать рекомендации.
Siri тем и хороша, что она способна индивидуально приспособиться к пользователю, кем бы он ни был. При этом она очень долго будет изучать, что он предпочитает.
ВАЖНО! Изначально разработкой Siri занималась компания Siri Inc. В магазине приложений App Store она предлагалась в качестве отдельного приложения.
История создания
В 2008 году Siri профинансировали в размере 8,5 миллиона долларов США от Menlo Ventures и Morgenthaler Ventures. В следующем году те же инвесторы на разработку выделили еще 15,5 миллиона. Однако в этот раз во главе инвесторов был Ли Цзячэн, миллионер из Гонконга.
Для разработки Siri эта компания использовала результат исследований «Центра Искусственного Интеллекта» (отдела SRI International), которые проводились сорок лет. Проект Siri — это итог такого исследования. Оно включает комбинированную работу, которую проводили исследовательские группы из разных университетов.
Siri впервые запустили в США в качестве приложения, доступного в App Store.
Надо признать, что у пользователей Siri не вызывала поначалу огромного интереса. И так длилось до тех пор, пока iPhone 4S не оказался на рынке. Произошло это осенью 2011 года.
Для большинства пользователей Siri стала первым опытом того, как можно взаимодействовать с технологией виртуального помощника. Запуск Google Now, Cortana и Alexa произошел позже. Это случилось, соответственно, уже в 2012, 2013 и 2014 годах.
В настоящее время Сири доступна в таких операционных системах, как iOS, macOS, watchOS и tvOS. Это означает, что она применяется практически на всех актуальных девайсах яблочной компании новых поколений.
ВАЖНО! Отметим, что хакерам удалось приспособить Siri для старых моделей iPhone. Несмотря на это, 8 ноября 2011 года компания Apple сделала официальное сообщение, в котором говорилось, что она не намерена интегрировать Siri в старые модели iPhone. Ведь на них чипа, который фильтрует фоновый шум, просто нет.
Siri, кто ты?
В 2005 году компания ScanSoft была всерьез занята поиском нужного голоса для нового проекта. В результате она вышла на компанию GM Voices, которая расположена недалеко от Атланты. GM Voices специализировалась на записи голосов для автоматизированных голосовых технологий.
Беннетт, один из признанных всеми талантов GM Voices, проделала большую работу для компании. Она стала одной из участниц кастинга. Как следствие, она подписала контракт с ScanSoft на запись ее голоса для применения в построении реплик, необходимых в процессе формирования базы аудиоданных.
Тогда ни она, ни кто-либо другой и представить не могли, что эти сеансы в результате позволят получить один из самых узнаваемых голосовых помощников нынешнего поколения.
ВАЖНО! Ей необходимо было по 4 часа в день на протяжении месяца записывать то, что потом она сама назовет фразами, не имеющими смысла. Однако они были предназначены для построения речи. Как потом откровенно сказала актриса, такое дело оказалось для нее очень скучным.
Минуло 6 лет. Бенеттт позвонила подруга и сказала, что из ее айфона доносится знакомый голос. И пришлось во всем признаться.
Бенетт не знала, для чего производилась запись. Лишь в 2011 году при анонсировании iPhone 4S с поддержкой функции Siri стало все понятно. Поскольку Сьюзан не имела смартфона, то об этом рассказали ей друзья. Просмотр в Интернете двух клипов, посвященных Siri, – и Беннетт поняла, что это действительно ее голос.
ВАЖНО! Apple не подтвердила слова Беннетт. Зато эксперты по звукозаписи утверждают, что они в утверждениях актрисы не сомневаются. Это случилось до того, как вышла iOS 7, которая представила новое поколение голосов на выбор. То есть сегодня ваш Siri может быть результатом различных голосовых актеров.
Что умеет Siri
После запуска новой версии iOS 6 появились новшества. Она стала способна:
— Предлагать рестораны, фильмы, бронировать билеты и столики.
— Выдавать информацию о спортивных соревнованиях (счет, биография спортсменов, состав, матчи и пр.)
— Открыть приложения.
— Делать записи в Twitter, Facebook.
— Предоставлять маршруты по картам.
— Применять приложения Apple Store.
Siri продолжает развиваться. К примеру, есть поддержка новых языков. Сейчас поддерживаются английский, русский, французский, немецкий, японский, корейский, китайский, нидерландский, тайский, итальянский, испанский, португальский, датский, турецкий, шведский, арабский, малайский, финский языки. А также иврит, норвежский Букмол.
О чем спрашивают Сири?
Она выполняет голосовые команды. Пример для iPhone: «Сделай текстовую заметку», «Siri, включи мой альбом» или «Напомни после работы посмотреть телевизор». Это базовые команды. И они далеко не единственные.
Siri способна идти на контакт с приложениями. Возьмем для примера Рокетбанк. Можно попросить Siri выполнить несложные операции с деньгами. И при этом не нужно будет заходить в приложение.
Возможна отправка сообщения в Телеграмм, Whatsapp и других сервисах, если они совместимы с Siri. Есть полный перечень команд. И Сири его выдает, если спросишь об этом.
Сири может выдать сообщение о каких-то спортивных результатах. Она даже шутит, поет, рассказывать стихи. Когда у нее нет желания этим заниматься, то она придумывает отговорки.
ВАЖНО! Сири очень помогает, когда руки заняты. Доступ к Siri есть даже тогда, когда экран заблокирован на iphone 7 и выше. Если вам нужно вызвать скорую помощь, пожарных или полицейских, то Сири сделает это.
Как включить и отключить Siri
Напомним, что вызвать Siri даже с заблокированного экрана можно в версиях iPhone 7 и выше.
Если Сири не работает, то исправление ситуации возможно в настройках. Нужно перейти в настройки – «Siri и поиск». Тут можно управлять каждой настройкой Сири. В том числе и выполнить ее включение.
С этой целью нужно активировать пункт «Вызов Siri кнопкой Домой». Для отключения Сири нужно пункты «Вызов Siri кнопкой Домой» и «Слушать Привет Siri» привести в неактивное положение.
Но нет большого смысла специально отключать Сири, поскольку она сама по себе не функционирует. Ее нужно вызывать. Именно поэтому не советуем отключать Сири. Ведь ситуации бывают разные. И вдруг она сможет вам помочь в неожиданных обстоятельствах?
Как Стив Джобс заполучил Siri
Сколько будет два плюс два
В 2016 г. Даг Киттлаус был в отличной форме. Лыжи, баскетбол, марафоны, тяжелая атлетика, здоровое питание – да, он недавно прошел олимпийскую дистанцию триатлона и чувствовал себя на пике формы! Вот только жена пилила: мол, он уже пять лет не проходил диспансеризацию, пора навестить доктора. Киттлаус сдался и пошел в поликлинику. На томографе ему должны были проверить сердце. Но случайно сделали срез поджелудочной железы – а в ней была опухоль размером с лимон. По иронии судьбы – того же самого типа, который диагностировали у Джобса: примитивная нейроэктодермальная. Надо сказать, что Киттлаус как раз работал в Apple, когда скончался Джобс.
Киттлаусу повезло: его опухоль при раннем обнаружении хорошо поддавалась лечению. «[Не пойди я обследоваться], был бы уже мертвецом», – признался он недавно. Он лишился половины поджелудочной, а также селезенки и желчного пузыря, но вернулся к жене и семерым детям. По иронии судьбы одну из медсестер, ухаживавших за ним после операции, звали Сири.
Но чтобы это имя стало знакомо фанатам iPhone, а следом и всему миру, Киттлаусу пришлось пройти длинный путь.
Примерно 25 лет от роду он, сын американца и норвежки, подавал пиво в знаменитом дорогом пабе-ресторане Lekter’n в Осло и размышлял, кем хочет быть. В США он учился на управляющего отелем, но взял академический отпуск и на год укатил в Норвегию, к дяде и тете. К моменту, когда пора было возвращаться, он принял решение: отели ему неинтересны.
Киттлаус остался на родине матери, окончил Норвежскую школу менеджмента, потом занялся телекоммуникациями и со временем вернулся в США. В Telenor он дорос до первого гендиректора виртуального оператора Djuice, а в Motorola отвечал за запуск нескольких приложений, в том числе новостного агрегатора Screen3.
В 2007 г. у него родилась идея Siri. «Интересно, что вдохновение пришло благодаря разочарованию: пытаясь делать хорошие мобильные сервисы для Telenor и Motorola, я сталкивался с множеством ограничений внутри компании».
Киттлаус часто общался с различными исследовательскими центрами. «Я узнал, что в Стэнфорде есть какая-то технология, с которой они не знают, что делать. Нечто связанное с искусственным интеллектом и способностью разговаривать с машинами и заставлять их понимать вас, – рассказывал Киттлаус сайту Норвежской школы менеджмента. – Я сложил два и два и сказал: было бы замечательно, если бы вы могли поговорить со своим смартфоном, вместо того чтобы печатать на его маленьком экране». Они с женой продали дом в Чикаго и переехали в Кремниевую долину. «Мы поставили все на одну карту. Я узнал, каково это, когда у тебя на руках счет за коммунальные услуги, а ты не знаешь, как его оплатить», – говорил он норвежскому онлайн-изданию e24.
Основа для Siri
В январе 2008 г. был зарегистрирован стартап Siri. Вместе с Киттлаусом его основателями числились несколько человек.
К специалистам SRI International нередко обращался за консультациями Том Грубер. Он должен был стать психологом и даже поступил на соответствующий факультет Университета Лойола в Чикаго. Но заинтересовался информатикой и в итоге создал для альма-матер компьютерную программу, с помощью которой можно было пройти факультетский курс по психологии. Потом отправился в Университет Массачусетс изучать компьютеры. Для диплома магистра разрабатывал программу, позволяющую людям с дефектами речи говорить с помощью машины. А для докторской – алгоритм, с помощью которого искусственный интеллект учился у экспертов.
Грубер прославился в профессиональном кругу после того, как в 1994 г. написал первую версию программы Hypermail. Она делает из сообщений по электронной почте архив в формате HTML. Так удобнее просматривать переписку, искать в ней нужные цитаты и хранить документы, присланные в виде вложений. Это свободное ПО, которое в дальнейшем дорабатывалось другими программистами.
В 1995 г. Грубер создал очередной коммерческий стартап – и он наконец-то стал успешным. Intraspect Software разрабатывал корпоративное ПО. Через восемь лет Грубер продал его и затеял было делать сайт для путешественников RealTravel.com, но легко променял его на Siri.
Четвертым основателем Siri стал математик по образованию, руководитель инвестиционного подразделения SRI International Норман Винарски.
Киттлауса назначили гендиректором стартапа Siri, Чейер и Грубер, по сути, разделили обязанности технического директора – должность первого называлась VP of engineering, второго – CTO. Винарски вошел в совет директоров.
Откуда голос у Siri
Американка Сьюзан Беннетт и не подозревала, что стала голосом Siri, пока 4 октября 2011 г. ей не позвонили друзья: «Тут новый iPhone вышел, он говорит, как ты!»
Беннетт – певица, которая еще с 1980-х гг. подрабатывала озвучением автоответчиков (например, когда вы звоните в банк и вас просят не вешать трубку), GPS-навигаторов и даже была голосом Delta Airlines. В 2005 г. ее наняла компания ScanSoft (позже поглощена Nuance), чтобы целый месяц надиктовывать бессмысленные фразы. Например: «Malitia oi hallucinate, buckry ockra ooze, Cathexis fefatelly sexual ease stump». Делалось это для некоего проекта по компьютерному озвучению текста. Сочетания букв подбирались так, чтобы записать всевозможные звуки английского языка. Потом ее речь была нарезана на мелкие кусочки, и из их комбинаций составлялись привычные слова. Когда Чейеру понадобился голос, он обратился к Nuance – и те продали ему запись Беннетт.
Apple отказывалась раскрывать, откуда берутся голоса для Siri. Но в 2013 г. Беннетт сама раскрыла секрет в интервью CNN. После этого в iOS7 ее голос немедленно был заменен на чей-то еще.
Журналисты разыскали еще один голос Siri – австралийку Карен Якобсен, известную всему континенту по озвучению GPS-навигаторов. Она рассказала, как iPhone довел ее маленького сына чуть ли не до слез. Он обнаружил, что мама говорит с ним из телефона, а потом осознал, что она не узнает его и относится к нему как к незнакомому человеку.
Дебют Siri
В феврале 2010 г. Siri представила свое первое приложение – голосового помощника, который работал в ряде программ для iPhone. Например, с голоса прокладывал маршрут в Google Maps, вызывал такси в TaxiMagic, заказывал билеты в кино в MovieTickets. Скачать Siri можно было в App Store – если найдете среди сотен тысяч других приложений.
Две недели спустя стартаперам позвонил лично Джобс и пригласил прийти на следующий день в гости. «Это было сюрреалистично. Услышав его, я понял: мы добились успеха. Правда, мы заранее были уверены, что наша технология поразительна. Стив просто оказался первым, кто нам позвонил», – рассказывал Киттлаус сайту Cult of Mac.
Они проговорили с Джобсом три часа, сидя перед камином в его доме. Джобс предложил купить стартап. «Нам не пришлось долго раздумывать, чтобы согласовать между собой ответ: мол, польщены, но не собираемся продаваться, – вспоминал Чейер в интервью CNBC. – Мы только что провели очередной раунд финансирования, у нас был очень успешный запуск приложения и большие планы». Стартап готовил версию Siri для Android и BlackBerry.
Джобс, однако, не отступился. «После многочисленных обсуждений Стив убедил нас, что он разделяет наше видение и сделает Siri не просто крошечной функцией, а чем-то краеугольным в стратегии Apple и что мы куда эффективнее сможем повлиять на мир как часть Apple, а не как независимая компания», – объяснял Чейер.
4 октября 2011 г. в продажу поступил iPhone 4. Он собрал множество хвалебных отзывов, в том числе за новую функцию – голосового помощника Siri. Теперь Siri нельзя было скачать в App Store, его по умолчанию предустанавливали на новые гаджеты. А 5 октября, на следующий день после дебюта iPhone 4, Джобс умер.
Бегство из Apple
Винарски ушел из Siri еще в момент приобретения ее Apple. В октябре 2011 г. компанию покинул Киттлаус. Якобы ему надоело мотаться из Чикаго, где жила семья, в Купертино, к тому же работа мешала писать роман – футуристическую технодраму. Несколько лет назад на сайте Норвежской школы менеджмента Киттлаус рассказал еще одну версию своего ухода. Он был не очень доволен тем, как развивалась Siri. После поглощения она стала работать быстрее, распознавание речи улучшилось, но в общем и целом прогресс забуксовал.
Это стало очевидно, когда появились конкуренты (Google Now в 2012 г., Amazon Alexa в 2014 г.) и стало с чем сравнивать. Одна из причин – закрытость Siri для сторонних разработчиков.
Почему Siri назвали Siri
«Нам нужно было имя, которое легко запоминается, – короткое, удобное для произношения и не слишком распространенное», – объяснял Адам Чейер. А если это доменное имя уже занято – чтобы его можно было недорого выкупить.
Никто не помнит, как название Siri попало в шорт-лист. Один из вариантов – это норвежское имя, означающее «красивая женщина, ведущая тебя к победе». Киттлаус хотел так назвать первенца, но родился сын – и имя досталось стартапу.
Чейеру слово понравилось, потому что звучало как «секрет» на суахили – интригующее название для мало кому известной компании. А если прочесть задом наперед, получалось Iris – так называлась программа, над которой он работал в SRI International и часть наработок из которой вошла в голосового помощника. Кстати, Siri похоже на SRI, и это стало еще одним аргументом в ее пользу. На сингальском языке «сири» – это «красавица». Правда, задним числом стартаперы узнали, что очень похоже, хотя не точно так же, звучит японское ругательство.
Сюрпризом стало то, что Apple оставила первоначальное название голосового помощника. Джобсу оно не слишком нравилось, до последнего момента рассматривались другие варианты, но ни один не показался лучше. Впрочем, Киттлаус уверял, что Джобсу когда-то не по нраву было и название iMac.
Чейер до сих пор работает в Samsung вице-президентом. Киттлаус уволился в июне прошлого года. Он участвует в некоммерческих проектах, один из которых помогает детям-сиротам делать домашнее задание. На его странице в LinkedIn написано, что он по-прежнему считает себя предпринимателем и ищет новую великую идею.
Facebook – это религия
Последним из Apple ушел Грубер – в 2018 г. Удивительный успех Siri и используемая им технология искусственного интеллекта и самообучения, влияющая на повседневную жизнь людей, заставляет его сильно нервничать, заявил Грубер недавно в интервью американской газете Willamette Week. «Одно дело – создать продукт. Другое – изменить целое поколение с помощью технологии, – сказал он. – Даже люди, которые молятся в сторону Мекки пять раз в день, делают это только пять раз в день. Наши миллениалы проверяют свои телефоны по 150 раз в день». Он называет смартфоны и приложения вроде Facebook – словом, все, что использует искусственный интеллект, чтобы привязать к себе пользователей, – крупнейшими религиями в мире.
Например, будучи по образованию психологом, Грубер в восторге от Facebook. Но как ученого-компьютерщика и гражданина Земли соцсеть пугает его до чертиков. По словам Грубера, Facebook проводит такие эксперименты на человеческом поведении, о которых психологи могут только мечтать. Испытания проводятся на миллионах людей, это нереальный размер выборки для большинства ученых. Марк Цукерберг настраивает свой искусственный интеллект десятки раз в день, чтобы посмотреть, что заставит 2,5 млрд его пользователей больше читать Facebook, путать рекламу с новостями и нажимать на рекламные сообщения, объясняет Грубер.
Грубер не пытается повернуть прогресс вспять. Напротив, его недавний стартап LifeScore обещает создавать музыку «как будто ее пишет человек», но силами искусственного интеллекта. Он берет музыкальные отрывки, обрабатывает их и создает новые композиции.
Но основное внимание Грубер уделяет стартапу Humanistic AI. Это консалтинговая компания, которая готова помочь любому разработчику искусствнного интеллекта при одном условии. Его продукт не должен подсаживать людей на то, что для них не полезно, например развивать зависимость от смартфона или соцсетей. Вместо этого он должен с помощью тех же инструментов помогать. Например, побуждать худеть или отказываться от вредных привычек. А в идеале Humanistic AI должен сделать так, чтобы искусственный интеллект не лишал людей работы, как автопилоты – водителей, а работал с ними плечом к плечу как коллега.
Разработка русскоговорящего «аналога» Siri за 7 дней
После выхода iPhone 4S с Siri «на борту», владельцы остальных гаджетов Apple, чувствовали себя немного обделенными. Даже в свой новый iPad Apple не включила Siri. Разработчиками по всему миру были предприняты попытки портировать Siri на другие устройства или написать похожие аналоги. И только русскоязычный App Store хранил молчание. Наверно все разработчики очень заняты, подумал я, и решил исправить это досадное недоразумение…
DISCLAIMER:
1. Слово «аналога» не зря взято в кавычки. Мое приложение ни капельки не аналог Siri, а любительская поделка. Я прекрасно понимаю, что для создания действительно чего то похожего на Siri, нужны гигантские ресурсы и много средств.
2. Да я знаю что Apple объясняет, что не поддерживает другие iPhone, из за какого то специального чипа шумоподавления, встроенного в 4S. Но я не сильно в это верю, скорее всего их сервера не выдерживают нагрузки и от 4S. И если подключить к Siri все гаджеты Apple, сервера просто рухнут.
3. Приложение создавалось как Just for fun и не преследовало ни каких практических целей. И кроме этого работалась еще и основная работа.
Почему за 7 дней?
Я, изначально, решил не тратить на этот проект много времени по нескольким причинам. Во первых, я прочел много статей где было написано, что Apple не пропускает программы, похожие на Siri в App Store. Более того пытается удалить из App Store уже существующие, например Evi. По этому, есть большая вероятность, что и мою программу не пропустят. Как кстати и случилось, с написанным мной, клиентом для rutracker.org. Я 4 раза отправлял приложение на ревю, исправлял все что говорили мне цензоры, но в App Store прога так и не попала (я потом плюнул на это дело и выложил урезанную версию на 4PDA, не пропадать же труду). Во вторых ресурсами, для написания полноценной программы, я, естественно, не обладаю.
День 1-й. Проектирование
Вначале я продумал саму логику приложения. Естественно все преобразования text to speech и speech to text, должно выполняться на сервере. А само приложение быть всего лишь интерфейсом. В этом случае, решение будет работать даже на самых слабых устройствах, а также обладать кроссплатформенностью. Для переносимости на Android и Windows Phone, потребуется всего лишь написать интерфейс на эти платформы.
Таким образом логика приложения получилась такая:
А) записываем речь собеседника и передаем на сервер для распознания;
Б) получаем с сервера распознанную строку, и проводим легкую начальную обработку. Это ответы на самые частые вопросы, отсекаем маты и ругательства, перехватываем слова для поиска в Яндексе и поиска прогноза погоды. Другие команды типа отправь СМС или проверь почту, решил пока не встраивать из за опасения не пройти ревю;
В) отфильтрованную строку посылаем на свой сервер для распознавания. И получаем в ответ строку с ответом;
Г) посылаем ответ на сервер для преобразования в речь, получаем ссылку на поток mp3 и воспроизводим ответ;
Да получается медленно, но пока другого варианта, кроме как объединить все это на одном своем сервере я не вижу. Но это уже совсем другой порядок затрат: выделенный мощный сервер, скорее всего не один; покупка и лицензирование движка распознавания речи преобразования текста в речь и др. Так что остановимся, пока на такой логике.
День второй. Поиск движка
Ищу движки. Это оказалось не маленькой проблемой. Во первых, большинство из них платные и не мало от 50 долларов за 1000 слов, во вторых очень малое количество распознает русскую речь, в третьих качество тех что распознает русский просто ужасное.
Остановился я на движке ispeech.org. Во первых, он позволяет делать сразу два преобразования «речи в текст» и «текста в речь». Во вторых, он имеет SDK для iPhone и при использовании этого SDK выдается бесплатно ключ и распознавание бесплатно. Естественно, ради «шары» пришлось кое чем пожертвовать. Он отвратительно распознает русские города. По этому узнать прогноз погоды в каком то сложно произносимом городе не реально. В Москве без проблем.
День 3-й. Начинаю писать приложение. Дизайн
Стараюсь чтоб получилось что то похожее на Siri, но не повторяло в точности, а то цензоры зарубят.
Вот что получилось. 
Ну совсем я не дизайнер. День потрачен зря.
День четвертый. Пишу логику приложения
День 5-й. Интегрирование поиска в Яндексе и погоды. Отправка в App Store
Выделяю ключевые поля типа «поиск», «искать», «найти», «погода» и т.д. Приходится для надежности переспросить что конкретно ищем и в каком городе нужен прогноз погоды. Вроде получается. Тут выясняется, что города понимаются плохо. Столько труда пропадает, но решил не выбрасывать эту фичу, вдруг движок со временем научится лучше понимать города. Тестирую еще раз и еще раз и еще раз. Результатом доволен. Выкладываю приложение в App Store, пусть ждет ревю, пока я пишу свой сервер.
День 6-й. Лингвистика и анализ речи. Написание сервера
Штудирую литературу по искусственному интеллекту и анализу речи. Тихо офигеваю. Осваиваю азы. Решаю пока не заморачиваться на искусственном интеллекте, а просто разобрать приложение на фразы, сделать простейший анализ, выделить ключевые слова и уже по ним производить поиск в базе.
Набрасываю краткую идею, в каком направлении двигаться. Значит составляю базу знаний, поиском сравниваю выделенные из предложения ключевые слова с базой и выдаю ту запись которая наиболее соответствует вопросу.
Нахожу в открытых источниках словари для программ- собеседников, конечно качество их недостаточно и надо будет дорабатывать. Но для старта подойдет.
Пишу не сложную программу на PHP для поиска ответов на своем сервере. Чтоб к серверу не обращались посторонние и не уронили его, предусмотрел передачу телефоном токена, который жестко зашит в приложении. Пока на авторизации решил сильно не заморачиваться.
Так же решил пока не передавать на сервер GPS координаты телефона, хотя сама идея мне нравится. Зная координаты телефона можно использовать API какого либо погодного сервера, для выдачи прогноза погоды. Еще можно использовать координаты телефона для нахождения ближайших баров, кафе, магазинов. Но опять же нужен ресурс с нормальным API, на который послал запрос и координаты и получил внятный ответ. Записал эту идею и отложил на потом, если буду писать новую версию приложения.
Все, заданные вопросы, и ответы на них заносятся в базу данных, кстати UDID [IMEI] телефончика тоже. Да да «Большой Брат» следит за вами (шутка). На самом деле это нужно для развития программы. Зная вопросы, которые задают, я смогу оперативно пополнять базу знаний и отлавливать глюки программы. UDID нужен для развития в дальнейшем. Я планирую чтоб программа помнила предыдущие вопросы, вот я и использую UDID для идентификации телефона. Зная предыдущие вопросы можно сделать поведение приложения еще более интеллектуальным. Интересно а Siri учитывает предыдущие вопросы при построении диалога?
При поиске ответов по базе знаний, используется полнотекстовый поиск MATCH-AGAINST. Обычные SQL запросы, ничего особенного.
День седьмой. Сегодня
Протестировал как работает поиск по базе знаний. Остался доволен. Я сел писать статью на Хабр, а мой 12-ти летний сын изъявил желание по обучать базу знаний.
Он нашел в интернет информацию, какие вопросы чаще всего задают Siri, и я долго смеялся. В данный момент я пишу эту статью, а он вкладывает «в голову» машине свое понимание этого мира. Что «ВКонтакте» лучше чем «Одноклассники» и другое. Я, конечно, потом все проверю, что он там занес в базу.
Что получилось.
За семь дней вполне реально написать простейшего виртуального собеседника, который сможет поддержать беседу и отвечать на некоторые вопросы. Конечно до Siri ему как для луны, но как небольшое развлечение вполне годится. Именно в категорию «Развлечения», если цензоры пропустят приложение, оно и попадет.
Легко можно портировать под Android и Widows Phone.
Недостатки программы.
1. Долгая отсылка речи на сервер из-за формата wave.
Планирую уменьшить дискретизацию до 8 КГц, но пока не знаю как.
2. Не очень хорошее распознавание речи, особенно русских городов, движком распознавания.
Может воспользуюсь гугловским движком, он говорят лучше. Но для него нужно перекодировать речь в формат FLAC, что тоже пока не знаю как сделать. Надо искать соответствующую библиотеку. И, конечно, остается вопрос лицензионной чистоты такого пути.
3. Работает медленнее чем Siri.
Это решается только покупкой движка распознавания речи и установкой его на свой выделенный сервер. Не уверен, что пойду по такому пути, уж очень он затратный.
4. Не может многое из того что может Siri.
Ну эта проблема решается выпуском апдейтов и развитием базы знаний. Это всего лишь вопрос времени и выделенных на это средств.
Если какие то моменты упустил, готов ответить в комментариях.
















