终于,5202年了,手机助手也乘着AI的快车,变得越来越好用了!
不仅内置了多模态大模型“大脑”,拥有超强的思考和对话能力,还长出了“眼睛”,可以看到屏幕内外的世界。
实际上,这正是此时此刻AI手机正在呼唤的一种全新交互方式,期待拉近人与设备之间的距离,期待让交互变得更加自然。
手机之所以是现在这个形态,主要为了适应多点触控的交互方式,从乔布斯时代、从触屏诞生的那段时间开始就没有过改变。
但能够响应人的自然语言,和人沟通交互、理解并执行指令的助理,才是更加自然的交互方式。
而随着多模态能力的解锁,这种新的科技树也被点亮,手机的软硬件将被重塑。
让手机成为你的专属助理
以最早把“AI手机”这个概念打在公屏上的OPPO为例,OPPO把多模态能力引入到了小布助手当中,让它不再只是一个对话机器,而是能够更全方位地理解并处理人类的意图。
通过语音、电源键和长按导航条这三种方式,我们就能把小布助手召唤出来,然后动动嘴就能向手机发号施令。
不妨先来通过“一键问屏”,看看小布助手的强大视觉本领和思考能力。
假如我们看到一栋建筑(上海中心),想要知道它到底是什么,那就可以叫小布助手出场了。
不用传图,也不用多解释,召唤出小布助手后,直接问它这是啥,就能得到满意的答案。
而且支持多轮对话,可以接着问这里能不能参观,有什么值得看,甚至直接制定出一份旅游攻略。
【视频请移步公众号】
并且小布助手的这种视觉能力不仅能识别屏幕里的东西,还能借助相机,“看”见身边的一切。
假如我们看到了一堆植物(羽衣甘蓝)十分好奇:
直接打开相机对准它,然后召唤出小布,让它来告诉我们,而且还能接着追问,这东西能不能吃、怎么吃才好吃。
【视频请移步公众号】
再插播一句,超级小布助手是首家支持在相机界面做识屏问答的,后来很多友商也陆续推出类似功能,说明了小布助手的这种模式,是OPPO的一次成功布局。
而且之所以敢叫超级小布助手,是因为它还有两把刷子——不仅有“眼睛”能看、有“头脑”会思考,还长出了“手脚”,能够执行用户指令。
还是拿一键问屏来举例,假设量子位要从公司出发前往MEET大会现场,那么只要告诉小布助手,我要去屏幕上的这个地方,小布助手就会自动开启导航。
既不用复制粘贴目的地地址,也不用手动设置,说一句话就能即可出发。
【视频请移步公众号】
总之呢,全面升级的超级小布助手,确实让手机的使用方式变得和以前不一样了。
有更多的用户开始通过小布助手来进行手机的操纵,其中使用电源键唤起小布助手的相比前一代提升30%,电源键成为了小布助手唤起人数Top1入口。
而且超级小布助手,还凭借自身的超能力,顺带也完成了一波“用户教育”的目的——
小布助手的强大能力,反向刺激了用户的需求,光是一项识屏能力,就直接带动了百科和教育类的问答需求提升。
用户数据显示,近30%的一键问屏用户会在相机界面对准想要识别的内容后,直接唤起小布助手进行问答;70%的用户会在多模态交互中使用通用问答的功能。
所以,超级小布助手如此神奇的超能力,到底是来自于哪里呢?
背后是自研大模型和智慧框架
能听、看、说、做的超级小布背后,是集语言、视觉、语音等多种模态于一体的OPPO SenseNow框架。
先说听,这是我们和小布助手发生交互的第一个环节,SenseNow框架集成了OPPO自主研发的语音多级唤醒和个性化识别技术,使语音唤醒和识别的准确率达到97%以上。
SenseNow框架通过检索增强多模态理解技术,具备了“看”的能力,是SenseNow智慧框架的核心,让超级小布助手实现了图文混合检索,支持1000多种主体的识别。
像前面看到的一系列场景,超级小布助手能够从根据看到的画面回答我们各式各样的问题,靠的都是这种多模态理解和检索能力。
SenseNow框架还集成了生成式语音合成框架,使超级小布助手能够模拟真人语气和节奏,并支持超过20种个性化音色。