2017年6月20日,猎户星空联合喜马拉雅等发布首款全内容ai音箱——小雅ai音箱。作为猎户星空ai生态链上的第一款产品,小雅音箱是一款技术和产品结合的智能硬件,其背后的核心是猎户星空所提供的语音交互系统,从有呼必应、优质点播体验和海量内容等多方面打造极致的用户体验。
在发布会现场,猎豹移动ceo、猎户星空投资人傅盛发表了演讲。以下是他的演讲实录:
傅盛:我记得有一次我问高晓松你为什么要结婚,他说人的孤独感是一辈子谁也去不掉的。其实有的时候我觉得我们作为一个成年人,他的孤独感,当你去理解他的时候,他会伴随你。
刚才陈总在台上讲的时候,我突然想起了一个场景。有一天早上醒来的时候,我那天起得特别早,我女儿就跟我说:爸爸我每天都跟siri聊天。我说siri是谁?她说:苹果手机有一个siri,每天我要打开跟它聊两句。我说siri多笨。她说:它虽然笨,但是它可以随时陪我。其实当时说的,我心里还是挺不好受的。因为从创业以来,其实你很少有时间去陪伴她。
我在想,如果我作为一个产品经理,如果我作为一个对技术也有依赖的人,我有什么机会去做出一些产品,让大家能够注目,包括你的孩子、你的家人,包括你自己,能够真正地享受科技的乐趣。
我想这是我当初为人工智能那么疯狂挚爱的一个原因,因为我在这个技术身上看到了以前不可能突破的边界。当然我在去年的时候也说过,宁可倾家荡产做机器人和人工智能,所以我在这个行业中花了大量的时间去寻找,包括我遇上了猎户星空的联合创始人贾博士,我们决定开始以语音和ai为切入点,重塑整个行业对产品和技术的理解。
因为今天大家都在讲ai,事实上我觉得真正的ai不应该仅仅有技术,不应该是一个大学教授的论文,更不应该是网站上刷分的选项,而是真正能和我们生活结合起来的产品。
所以今天的ai我们看到太多炫技、ppt和demo,太多为演示而存在的产品,太多为概念而存在的公司,太多只会做技术,不知道怎么把这个产品落地的形形色色的创业者。我并不是批评他们,我认为这是一帮对这个行业起到巨大推进作用的先驱。在人类历史上,任何行业的崛起,都是技术先导,产品跟上,商业闭环,形成了推动人类社会一波又一波向前发展的浪潮。
在做ai的时候我仔细地想,我一个非技术专业的人,本科大家可能也没听过,不是西安交大这么好的学校,对技术的理解极其有限,我有什么机会去找到这样的一个点,让ai和我们的产品结合起来?于是我反过来想,也许ai虽然今天是一门高深的技术,但是它跟历史上出现的形形色色的技术是一样的。
最开始的时候,当我们研发出来一个瓦特蒸汽机的时候,研发出一个汽车引擎的时候,我们会想,我们有一个引擎能干什么?但是大家最后发现,真正推动当引擎技术开始普及化的时候,我们其实反过来要想的是,我需要造一辆车,我能够把这些技术真正找到用户的需求点。
在那个时候我突然想起来,原来在技术和用户需求间还隔着一个产品,这正是今天ai这个产业有机会变成一个产业的真正的落地点,而不只是发布几篇论文,或者是做一个专题化的解释。
所以那个时候开始,我就深深地意识到产品就应该是围绕细节,把技术发挥到极致,打造出感动用户的体验,这是我在这个行业里面可以产生的价值。
我想起了乔布斯曾经说过,他说做产品设计,就是要把5000个细节同时做好,他说苹果需要技术,但是苹果不是一个体验它技术的公司,苹果最需要的是伟大的产品,他能够把产品、技术发挥到淋漓尽致,用产品去改造大家的生活。
所以这是我们当时在启动猎户星空这家星空,在开始投入ai产品和技术的时候,我们当时想的是,我们要做技术上的大投入,但是真正做出让用户感动的产品,要做这样的一家公司。
所以虽然我当时喊了一声机器人,很多人说你太不靠谱了,他们说机器人要多远?我说其实去火星也很远,但是今天elonmusk就在一艘一艘发射他的火箭。虽然我们的目标是做一个能让人类从劳动当中解放出来,变得天天关注诗和远方的机器人,但是我们同样可以把这个伟大的梦想变成一个一个落地的产品,变成一个一个在你的生活里面发挥一定作用的、帮你解决一定需求的产品,我觉得这可能是当时我们想要一起来参与小雅建设的核心原因。
所以在这个时候,我们当时就想说,因为当时在行业也是如雷贯耳。虽然我们是一家新公司,但是在技术的起点上,我们一点都不低。那时候我们想,我们先把一个产品,把整个技术和用户需求结合起来。我当时想,如果是做一款echo产品,肯定是需要内容的,我们先去找喜马拉雅,发现喜马拉雅正想做这款产品,我说太好了,抱团取暖打天下。
我认为真正的人工智能产品是技术、内容、产品、设计的跨界复合体,单靠某一块很难做出真正感动人心的产品。
所以我们一拍即合,我们当时就觉得应该把它做成一种产品,如果说人工智能有距离,我们心中的完美形象、完美概念可能通过技术的成熟还需要五年、十年的时间,但是我们至少可以用我们手上的技术,让小雅变成一个真正好用的音箱,让它变成一个你从没有过音箱的体验。当我们把这个定义点想清楚的时候,我们眼前应该是豁然开朗。
所以,我们就围绕着这个产品,不停地在思考,我们需要怎样的技术点,什么是对用户来说最好的影响?我们非常幸运,猎户星空虽然只有一年的历史,但是它有一批技术上非常牛,应该有超过30个博士,上百个在行业内有五年以上工作经验的工程师,但是最幸运的不是这帮工程师,而是不仅仅是他们是博士学位或者是工作经验,是他们很重视用户体验。我们又找到了一群特别尊重技术的产品经理,我们觉得这不是一个简单用技术的刷分或者是指标就能做出来的产品,也不是产品经理想个点子,就能让这个音箱变得解决你所有的孤独症,我们要把这个产品的定义想都非常清楚。
所以我们定义了三个点,叫做:有呼必应、点播体验、海量内容。
我们拿这个点和喜马拉雅碰了以后,他们都特别特别同意我们在这些点上的定义。但是你知道做出这样的产品定义是不太容易的事情,因为摆在你面前,你似乎有无数种可能,如果你只想做一个炫技的demo,你可以不停地给它在各种场合显得它有多智能。但是我们觉得应该把我们的技术聚焦点在用户体验上,如果用户面对一个音箱喊不响它,无论这个音箱有再海量的内容,也不可能用它。
为了这个有呼必应,像人一样,我们投入了大量的技术资源,我们产品和技术一起,克服了非常多看似不可能逾越的困难。今天在这个行业里面,我们的有呼必应应该可以排到第一。很多人问我们为什么你们才做这么短的时间,就能够做出有特色的产品?不是因为我们的工程师就比大公司多,也不仅仅是因为我们今天有一些技术,而是我们真的专注在用户体验的痛点上。
比如说有呼必应这件事,我们试用了世界上所有的智能音箱产品,基本上你喊它的时候和录像里面完全是两个产品,基本上是你的嗓子经常容易喊破的产品,还基本上是你不理它,它突然开始跟你说话、播音乐的产品。刚才樊登说他买了某产品,半夜夜深人静的时候突然开始给你唱歌,这个真是让你更孤独,而且还被恐吓。
所以围绕这几个点,我们说单点上极致,我们就把唤醒这一个点看上去非常简单的四字唤醒,而且我们也没有炫技,我们没有把它变成小雅这两个字,因为我们知道如果没有小雅这两个字的话,会大幅度增加误唤醒,会大幅度增加用户在使用时候的不便利性。
当然了,在这里就有很多技术了。比如说今天在全行业能够做6+1(注:指的是6+1环形阵列)硬件的公司可能不超过两、三家吧,包括我们在内,我们在这点上大力投入,这和亚马逊echo是一样的硬件技术,我们能够做到5米之外能够把它唤醒,而且是比较没有压力的唤醒,你不需要大着嗓子喊,只需要一个正常的语调。
我们还做到了软件上的提升,其实我也不太懂,但是我知道是一个很牛的技术,基于汉字整体建模的cnn唤醒技术,它实现的效果是什么?
第一,高清度唤醒。我们能够在正常的情况下实现95%以上的唤醒,我们今天做不到100%,但是95%我认为用户是可以接受的,绝大多数我们给各种用户演示,包括和我们很多合作伙伴看,他们觉得这个唤醒在喊它的时候特别精准。
第二,业内最低的误报。每天晚上在我们办公室里都环绕着各种声音,做误唤醒报告,如果我们只是为了炫技,我们可以把唤醒预期标到更高,比如说98%、99%,甚至每唤必醒,但是问题就在于,每天都会有它会突然给你喊一嗓子。我们为了压低自己的误唤醒,其实就在调整我们的唤醒,这两个是个矛盾,大家能理解吗?在这个方面其实投入了大量的精力,拿着指标,跟着竞争对手一个个对比,直到我们认为它的是超过它。
还有大音量下的唤醒,你开着电视的时候,大家人声嘈杂的时候,我们都能够做到今天我们能做到这个行业里最好的水平。
所以我觉得在这一个看上去的小点上,甚至很多公司拿来到外面采购一个部件,往里一装就是一个智能音箱这个点上,我们投入大量的精力。
还有就是大家刚才都听到的,让我特别感动的是,当时(小雅回复)“诶”的时候很多人都在鼓掌,这是我们行业内第一个做到人声回应的,大家可以再听一遍。这是我们当时的产品经理提出来的,大家可能不知道为什么业界首个人声唤醒这么难呢?
是因为当你说“我在”的时候,那个回音会在音腔里环绕,造成下一句话解析的时候出现误识别,你为了要把这个误唤醒的误识别去掉,其实你要付出很多的努力。但是我们为什么要做呢?除了大家觉得温暖之外,还有一点,因为我们假设是一个原厂唤醒,所以那个光带我们在这种情况下是看不见的,当用户喊了以后,它没有响声的时候,我们就傻了,我不知道该不该说话,给用户造成了局促感。
其实一度有一段时间我们这个指标上不去,后来我说算了,把这个回声砍掉吧,亚马逊也没做人声回应,没有人做,因为做这个点的确还是有难度的。我们的产品经理说,我们见的所有用户测试都对这个点非常喜欢,我们的工程师团队说,这个功能我们一定要做,我们付出再多努力也想把它做得足够好。
所以今天大家可以看到,就这么一个小的点,但是这个小的点对用户来说非常关键。当你去喊一个人喊不醒的时候,永远无法叫醒一个沉睡的人,有时候我叫我们家小朋友,她不理我,我恨不得踢她一脚,大家都有这样的心理。
所以我认为这是解开今天智能音箱行业和用户距离的第一道坎儿,这个坎儿非常关键,虽然看上去就是一句话,因为只有把它喊醒了,你才能够真正开始跟它沟通。
所以,这是我们做产品的一个技术和产品共同投资的极致点。
第二,点播体验足够爽。
当时我们认认真真地分析用户在怎么使用这款产品,或者怎么使用echo的时候,我们觉得讲再多的情感陪伴,今天如此,可能都不是能够达到用户预期的,但是一个更好的音箱叫想听什么听什么,想说什么就放什么,这点上我们也是投入了大量的精力。
我们认为听一个歌,听音频,我们跟喜马拉雅同时一起,把整个查询体验做了大量优化,包括很多技术,这里面可以堆积非常多的技术。
首先是我们把内容深度定制。什么意思?就像陈总说的,开始你只是把sdk放下来,然后你接自己的sdk,每家都有音乐。这时候你点一首歌,随便再一个sdk里面下行,可能是五年前的版本,也可能下过来的时候需要五秒钟、十秒钟。
我们把喜马拉雅的内容和音乐曲库,各个合作伙伴的音乐曲库,不仅是集成在一起,而且做了服务端优化,包括到什么细节呢?比如说你想听一个歌曲,可能是周杰伦1999年世界巡回演唱版live什么的,这个标题念出来就会非常长。我们做了优化,让你听起来很简洁的标题截取。
我们还做了大量的厂商深度定制,这里有非常多的,刚才已经介绍过了,不就不再一一讲了。
比如说再举一个例子,我们在点播的指令说,比如说我说“下一首”,但是我们知道用户会说“再来一首”,我想不止,“还有一首”、“再来一个”,我们为这一个指令准备了上百种指令泛话,这些泛话今天纯粹靠人工智能,大家对人工智能可能还是有误解,觉得人工智能上来,世界就和平了,其实不是的。人工智能,有多少智能就有多少人工,核心是你要把人工花在哪儿。
所以我们在这样的指定词上,我们不是一个demo,说每个用户得对着手册念“上一首”、“下一首”,我们准备了,我们当时做的标准是随便找个用户,随时站在音箱前,对我们发布指令,我们要遥遥领先竞争对手,对指定词的容忍要到90%以上,用户说“再来一首”、“再听一首”、“下一首”,搜集了用户大量这样的体验。
当然除此之外,我们的工程师也付出了巨大的努力,刚才贾磊博士在录像里说,这个也是世界首创的,叫lstm,大家有看懂的举手,我看。非常非常牛�...