用戶對著智能音箱說一聲“天貓精靈”,就可以召喚云端的AliGenie提供服務。例如播音樂、聽故事、講笑話、查運勢、玩游戲、查天氣、找手機、問百科、設鬧鐘/定時器、充話費、查快遞、查價格、天貓魔盒控制、智能家電操控等功能。依靠阿里云強大的機器學習技術和計算能力,AliGenie能夠不斷進化成長,越用越聰明,成為人類貼心的智能助手。
“這是我們在人機交互新大陸上的探索,希望和大家一起體驗探索未知世界的樂趣。”阿里人工智能實驗室負責人淺雪說,語言是人與人之間最主要的溝通方式,也應該是人與另外一種智能進行交流的主要方式。云端一體化帶來的趨勢是高度智能化,智能終端需要一個比手機觸屏更強大的人機交互方式。
外觀輕巧靈動 全程用對話溝通
天貓精靈X1采用了圓柱形的設計,有黑白兩種配色,直徑83毫米。在X1頂部中央,配有一枚靜音鍵。當用戶觸發(fā)此鍵時,X1會立刻停止聲音播放,并停止識音功能,以有效保證用戶隱私。
X1底部設計了一圈隱藏指示燈,會通過聲音來判斷用戶方位,亮起燈光以示提醒,燈光還會根據(jù)不同使用功能和場景配合進行提示。
在配置方面,X1 采用了業(yè)內首顆 SmartAudio專業(yè)處理芯片,相比此前市面上的主流芯片,處理效率提升25%,功耗降低32%。
X1搭載了6麥克風環(huán)形陣列,能夠在家庭環(huán)境下實現(xiàn)5米范圍語音識別。并經過專業(yè)音效調節(jié)的獨立功放芯片,使得X1同時也具有優(yōu)秀的外放效果。
針對聲音環(huán)境的多變性,X1還具備一定的自我學習功能,可以根據(jù)環(huán)境噪音進行優(yōu)化,適應不同家庭環(huán)境噪音。經過一周左右的使用,X1會更加適應所在環(huán)境,語音識別準確率達到業(yè)界最高水平。
考慮到中文語義環(huán)境的復雜性,阿里人工智能實驗室通過眾包平臺等方式,針對生活中的各種生活場景所需要用到的語義問法進行了征集,僅天氣預報就能夠理解786種中文問法,通過深度機器學習,天貓精靈X1已覆蓋20個領域的中文自然語義理解,能夠理解人類80%的意圖。
聲紋識別可以分辨家里每一個人
有別于其他的智能音箱產品,天貓精靈X1除了具備語音控制音樂和音頻內容播放等功能外,還通過AliGenie接入了豐富的生活服務。目前已經達成的合作伙伴包括美泰、KEEP、西溪天堂綜合體、優(yōu)酷、高德地圖、淘票票、支付寶、蝦米音樂、天貓超市、菜鳥裹裹、喜馬拉雅FM、淘寶網、阿里智能聯(lián)盟、阿里數(shù)娛、天貓魔盒、繪兒樂、吳曉波頻道、飛豬、盒馬鮮生等。AliGenie豐富的合作伙伴與第三方技能服務將帶來更好的體驗。
天貓精靈X1可以通過聲紋識別技術分辨家里的每一個人。淺雪介紹,聲紋識別技術是生物識別的重要識別手段之一,結合服務鏈多重安全機制,已達到商用的級別。這也是阿里在語音深度學習領域的核心技術之一。據(jù)悉,天貓精靈目前最多可以識別6個人的身份。通過個性化推薦,聲紋識別在辨別出使用者的身份后還能夠實現(xiàn)“千人千面”,根據(jù)每個人的喜好設定和推送不同的內容。
比如,聲紋識別技術可以應用到一些購物場景中。用戶先將自己的聲音注冊后生成聲音密碼,與機器綁定后,確認開啟聲紋購功能。隨后,當你說出 “幫我買一箱牛奶”這樣的需求時,天貓精靈會要求用戶跟著念一串隨機數(shù)字進行聲紋校驗,如果確認為用戶本人,天貓精靈會從用戶綁定的支付寶中進行扣款完成交易。
天貓精靈X1于7月5日開始進行限量公測,用戶可以在天貓精靈官網(bot.tmall.com)申請公測,8月8日將進行首批正式發(fā)售。
同期發(fā)布AliGenie開發(fā)者平臺 開放軟硬件核心技術
據(jù)介紹,天貓精靈X1內置了第一代人機交流系統(tǒng)AliGenie,由阿里巴巴的科學家團隊研發(fā), 應用了積累多年的自然語言理解和處理技術。當天,阿里人工智能實驗室還同時發(fā)布了面向開發(fā)者和硬件廠商的AliGenie開發(fā)者平臺。
AliGenie開發(fā)者平臺將向應用開發(fā)者免費開放NLP語義理解、TTS語音合成等多項自然語言處理技術。開發(fā)者既可以創(chuàng)建技能,為更多的語音用戶提供服務,也可以將自己的設備接入云端服務,獲取語音交互能力。
除了技術的開放外,生態(tài)的開放會是平臺開放的特色和重點。開發(fā)者可以為天貓精靈用戶開發(fā)多種“技能”服務。目前,天貓超市、菜鳥、KEEP等已推出基于天貓精靈X1的語音應用,用戶只需動動口就可以完成話費充值、購買商品、健身語音提示等服務,很快還將上線打車、叫外賣、叫保潔等服務。
針對內容創(chuàng)作者,AliGenie還提供了語音公眾號功能,開發(fā)者只需將語音或文字上傳至后臺就可以完成應用的創(chuàng)建和發(fā)布,文字將通過語音合成引擎轉換為語音,用戶可以通過訂閱實現(xiàn)定時播放,點播,開發(fā)者也可以進行主動推送,或聯(lián)合其他應用進行深入集成,組合播放,為內容創(chuàng)作者開辟了新的傳播方式。
AliGenie開發(fā)者平臺還為硬件制造企業(yè)準備了單麥克風到多麥克風陣列的參考設計方案,并提供包括喚醒詞定制,聲學結構,核心電路設計和芯片方案在內的相關套件的參考設計,以及云端服務和應用管理所必要的全套工具和用戶APP SDK組件。接入的硬件設備能夠快速具備人機語音交互能力,并共享應用商店的所有應用技能。
在發(fā)布會上,阿里人工智能實驗室也公布了首個硬件開放合作伙伴——將與國際玩具巨頭美泰合作探索其旗下主要核心IP如費雪、芭比、托馬斯和朋友等智能玩具的合作開發(fā)機會。