编辑导读:每一部智能手机都有一个语音助手,它的作用是让人们的生活更加便捷,“解放人”。本文将以苹果Siri和华为E为例,对这两款语音助手进行对比分析,希望对你有所帮助。
一、引言如今,智能设备的普及让“人工智能”这个话题不再陌生和遥远。
过去,人们必须去车站买票;后来有了互联网,人们可以在网站上查询车票信息,自己购买,省去了去车站的时间,在家就可以搞定;后来出现了语音助手,人们甚至可以通过语音助手查询车票信息,从而节省自己的搜索时间,说出自己想知道的事情。
随着科技的发展,人们的生活变得越来越便利,人工智能似乎一直致力于“解放人”。
用户与智能设备的交互不再局限于键盘鼠标等硬件。触摸交互和语音交互已经成为当代人机交互的主流方式,用户的操作变得越来越方便和直接。在技术匮乏的时代,人们更注重功能的实现,而现在随着技术的成熟,人们更注重如何“解放人”,提升用户的情感体验。
自苹果推出语音助手“Siri”以来,各大智能企业也陆续推出了自己的语音助手。它们并不局限于手机,电脑、手表、家电等智能设备都可以通过语音助手进行操作。
正因为如此,语音助手的泛滥给用户带来了很多困惑,这也是我想做这个题目的原因。希望通过这个实验,能够以苹果的智能语音助手Siri和华为的语音助手小E为例,对这两款语音助手的运行情况进行对比和评估,从而进行区分。
这个实验主要是针对手机平台来观察不同语音助手对同一用户指令的完成情况。选取IPhone X和华为P20作为实验对象,找到了6个实验对象。受试者需要做两组重复实验,每个实验都会对Siri和小E说同样的语音命令,并观察他们的反馈。如果未能达到指令的预期效果,它会根据自身需求继续补充,并与语音助手进行沟通,直至达到预期目的。记录语音助手完成此任务所用的时间以及用户满意度。
通过这个实验,我们可以直观的看到Siri和小E在处理同一条指令时的反馈。虽然语音交互的功能覆盖面还不是很广,但用户体验是至关重要的考虑因素。任务完成程度和交互时的时间消耗会影响用户体验。测试结束后,让每个测试用户做一个问卷调查,希望通过数据分析对Siri和小E有一个初步的实际对比评价。
图1手机语音助手
实验数据显示,Siri执行语音指令平均需要14.81秒,小E执行语音指令平均需要25.18秒。Siri的操作时间比E少,也就是可以更快的翻译语音并给出反馈。
通过实验测试后的问卷可以发现,Siri和小E的用户满意度差不多。不过小E在服务质量上更胜一筹。与Siri相比,它可以给用户更多的指导提示,对于不了解语音助手功能的用户来说更友好。
我们无法断言Siri和小E哪个性能更好,只能依靠耗时操作和用户满意度的实验数据,但可以作为评估语音助手实用性的参考。从耗时操作来看,Siri明显优于E;从用户满意度来看,小E尤其在服务质量上优于Siri。
二、实验设计2.1 实验假设
苹果智能语音助手Siri发布于2016年6月13日,开创了手机内语音交互的先河,所以在技术层面上可能比华为的语音助手小E更成熟。对于同一个语音指令,两者应该都能实现准确的文本翻译,但在操作时间上Siri可能还是领先的。同时苹果一直致力于用户体验研究,所以Siri也可能比e更好。
2.2 实验内容
现在的语音助手可以完美的回答标准问题,谁涉及基本功能。因此,设计实验时应考虑日常生活的需要。
这个实验的目的是通过考察Siri和小E对同一个语音命令的完成情况来评估它们的实用性。受试者需要分别对Siri和E说出同一个指令,然后与之进行后续的人机交流,直到指令任务完成,耗时较长。测试结束后让用户填写问卷,可以根据实验对象的问卷结果分析用户满意度。
2.3 实验的设备及环境
这个实验对环境没有要求。为了防止不同手机对实验结果的影响,选择了一台iPhoneX和一台华为P20作为固定实验设备。
图2苹果智能语音助手Siri和华为小E产品界面对比
2.4 用户
实验对象1:
年龄:21性别:女专业背景:就读大学工科。
选择理由:受试者有5年使用苹果产品的经验,现在正在使用iPhoneX。他对苹果的iOS操作系统非常熟悉,但对安卓系统不熟悉,也没用过华为手机。因为我的专业,对电子产品及其语音助手功能有很好的了解。所以我对Siri有基本的了解,但不了解小e。
实验对象2:
年龄:20性别:女专业背景:在读大专。
选择理由:题主有6年安卓产品使用经验,现在用的是华为P20。他非常熟悉Android操作系统,但不熟悉苹果的iOS系统。因为我的专业,对电子产品及其语音助手功能有很好的了解。所以对小E有基本了解,但没用过Siri。
实验对象3:
年龄:25性别:男性专业背景:互联网从业者。
选择理由:课题有6年Android产品使用经验,现在在用华为P20 pro,对Android操作系统非常熟悉。虽然题主之前并不知道华为的语音助手功能,也没用过E,但由于个人爱好,对电子产品和其他语音助手有一定的了解。
实验对象4:
年龄:23性别:女性专业背景:全科医生
选择理由:题主有5年安卓产品使用经验,现在在用华为。因为自己的原因,平时不怎么用电子产品,属于智能设备小白,所以从来没有在任何智能设备上使用过语音助手功能。
实验对象5:
年龄:55性别:女性职业背景:家庭主妇
选择理由:题主有多年使用安卓产品的经验,现在在用华为。智能电子设备使用频率低,对语音助手一无所知。因此,实验调查更能反映语音助手是否真正方便了用户的操作。
实验对象6:
年龄:35性别:男专业背景:研究交互的大学老师。
选择理由:课题常年在做人机交互方面的学术研究,并在国外留学多年,在该领域有很深的造诣,清晰了解语音助手背后的工作机制。作为语音助手,人工智能中的高学历用户具有代表性,可以和其他普通用户相提并论。
2.5 实验任务
实验名称:苹果智能语音助手Siri和华为语音助手小E实用评测
受试者:6人。
实验设备:iPhoneX一台,华为P20一台。
控制条件:因为这个实验对环境等外界环境要求不高,所以我们不控制这方面。实验中,一个固定的iPhoneX作为Siri的实验设备,一个固定的华为P20作为E的实验设备。
实验步骤:
提前唤醒语音助手;实验对象大声、连贯地念出一条指定好的语音指令;语音助手将该语音指令转译为文字显示,并执行回复操作;若操作未达到实验预期效果,则让实验对象根据自身需求念出补充的语音指令,重复上述操作直至达到预期效果;记录操作耗时,并让用户填写调查问卷。
小组实验指导:
“给妈妈发微信祝她生日快乐”;“发短信给妈妈说记得提醒我明天下午两点去小剧场彩排节目”;
问卷调查:
您的性别您的年龄您的学历在使用语音助手时是否出现卡顿、闪退、打不开等现象使用的语音助手界面是否直观清晰,界面交互风格是否舒适是否简单上手、容易学会我使用的语音助手是否能准确识别出我所说的话(包括普通话、方言、长句子等)我所使用的语音助手闲聊持续久、声音自然,能“像人”一样交流我所使用的语音助手为用户提供操作指引,如“试试对我说……”我所使用的语音助手能在交流过程让我感到有趣,娱乐2.6 实验的过程
因为实验设备是固定的,受试者不能同时实验,必须按顺序做。同时,由于有些语音命令无法一步完成,需要后期与语音助手沟通,所以不能同时启动两个语音助手进行实验。
所以每个实验对象都要轮流进行实验。知道要执行的语音指令后,先测试Siri(或者小E),再测试另一个语音助手。这样,一套实验测试就完成了。实验有两个问题,被试需要重复上述动作来完成两组测试。
在测试过程中,主要需要记录受试者开始说出指令时,会使用手机定时器计时。如果语音助手能够成功完成任务,定时器会在给出准确反馈时结束。
两组测试完成后,受试者需要填写一份问卷调查,受试者需要对每道题给出相应的分数(10分)。最后对数据进行分析,得出两个语音助手的服务质量、产品质量、内容质量和整体使用满意度的分析结果。
三、实验结果
本次实验的主要测试数据是受试者在使用两个语音助手执行语音指令时的耗时操作,以及用户在测试两个语音指令后反馈对两个语音助手的用户满意度的问卷。
第一组:“给妈妈发信息,祝她生日快乐”
从受试者说出语音命令开始,直到达到预期效果,语音助手给出最后的反馈结束计时,得出两个语音助手面对这个命令的操作是耗时的结论。数据如下图所示:
图3执行指令1时Siri和E的耗时比较
从上图所示的图表可以知道,Siri的平均运行时间为11.758秒,华为为30.302秒。Siri明显比E好,Siri的标准差是0.555,小E的标准差是2.075。与小E相比,Siri显然更加稳定,能够准确翻译和反馈不同用户的语音,因此操作时间几乎相同。而小e的耗时操作更多的是受不同用户的影响,数据波动较大。
本组实验数据用单因素方差分析,P值为6.01E-06,因为P
图4执行指令1时Siri和小E的单因素分析表
第二组:“给妈妈发短信说记得提醒我明天下午两点去小剧场彩排。”
从受试者说出语音命令开始,直到达到预期效果,语音助手给出最后的反馈结束计时,得出两个语音助手面对这个命令的操作是耗时的结论。数据如下图所示:
图5执行指令2时Siri和小E耗时对比
从上图所示的图表中,我们可以看到Siri的平均运行时间为17.862秒,华为为20.055秒,两者在运行时间上差不多。Siri的标准差是1.253,小E的标准差是0.686。相比Siri,小E稍微稳定一些。在本次实验中,两者的运行数据受用户影响较小,数据稳定。
实验数据用单因素方差分析,P值为0.156,因为p & gt0.05,可以看出在这个实验中,不同的语音助手在操作耗时上并没有太大的区别,数据如下表所示:
图6执行指令2时Siri和小E的单因素分析表
用户满意度:
被试完成两组实验后,进行问卷调查,问卷中的问题设置如上图。
问卷主要研究产品质量、内容质量和服务质量三个方面。产品质量是指语音助手在操作上是否卡顿,界面设计是否舒适;内容质量是指语音助手的语音翻译是否正确,能否准确识别方言等。服务质量是指语音助手是否正确引导用户,当用户提问出错时,会问一个类似“你可以试着告诉我……”的引导性问题。
最终的数据结果如下图所示:
图7执行指令2时Siri和小E的单因素分析表
从上图可以看出,Siri和E在用户满意度上没有太大差别,但在内容质量上几乎没有差别,即Siri和E的正确翻译率接近100%。
在产品质量上,E略高于Siri,而在服务质量上,E比Siri有明显优势。大部分测试对象反映,小E在用户引导方面的设置比较好,让从未使用过语音助手的小白也能轻松上手,真正达到了语音助手方便用户的目的。而且E的操作具有很强的可修改性,用户的实际操作会根据需要分成几个步骤,而Siri是一步到位,如果要修改就必须从头再来。
四、结论
通过这个实验,我们可以得出以下结论:
Siri执行语音指令平均需要14.81秒,小E执行语音指令平均需要25.18秒。Siri的操作时间比E少,也就是可以更快的翻译语音并给出反馈。
通过实验测试后的问卷可以发现,Siri和小E的用户满意度差不多。不过小E在服务质量上更胜一筹。与Siri相比,它可以给用户更多的指导提示,对于不了解语音助手功能的用户来说更友好。
我们无法断言Siri和小E哪个性能更好,只能依靠耗时操作和用户满意度的实验数据,但可以作为评估语音助手实用性的参考。从耗时操作来看,Siri明显优于E;从用户满意度来看,小E尤其在服务质量上优于Siri。
预期的实验结果是Siri在操作耗时和用户满意度上应该领先于E,与实验的实际结果不符。诚然,苹果在操作耗时上更胜一筹,但在用户满意度上并无明显差异,E在服务质量上甚至优于Siri。所以我们可以看到Siri和E在实际应用中各有优势。
本文由@Manta原创发布。每个人都是产品经理。未经许可,禁止转载。
题图来自Unsplash,基于CC0协议。