在围绕GPT技术产业化的过程中,有追求实用主义和短期机会主义的,也有人选择脚踏实地,践行长期主义。在对GPT技术未来演进趋势有深入洞察的基础上,以创新技术公司为主体,选择做垂直细分场景的AI应用商业实践。
(相关资料图)
5月24日,未来智能公司发布新一代办公耳机iFLYBUDS Nano系列。与此前四代产品最大亮点,是本次发布了全新的生成式AI应用功能。这些功能属于标准能力,未来智能所有已上市的办公耳机都将具备此种功能。
但真正的重点,却也不在于此。科大讯飞联合创始人、未来智能董事长胡郁,对AI技术应用和演变方向的判断,比其单品推出何种AI新功能更关键、更紧要、更具有前瞻价值和商业意义。
二级市场对AGI具备的商业价值之股价理解共识不再,但产业界的AI热情,却愈发高涨。
这种热情,表现形态犹如百花齐放,或致力于算力、或痴迷于算法、或一意构建语义大模型、或专注研发生成式AI应用。
概括而言,产业界之AI努力,分两部分:建立基础设施,如语义大模型(包括更上游的算力硬件、算法软件、数据标注和清洗服务等);垂直领域(本质是细分场景)生成式AI应用研发。
若做横向对比观察,不难发现,围绕GPT技术,海外技术创业公司已推出海量垂直领域应用;像OpenAI这种背后有科技巨头长期支持的公司,负责AI应用模式的技术探索。
但是,OpenAI借助的也不是单纯的创新理论形式,他们也选择了工具形式,如ChatGPT。只不过这种工具超级性感,但背后的本质还是AI技术应用框架,以及以云、算力、算法和数据为基础的AGI(通用人工智能:Artificial General Intelligence)基础集成能力。
因此,从海外同行的践行情况看,实际上就是超级巨头做AI基础研究和应用框架探索,创业公司在此基础上,致力于细分场景(垂直领域)的AI应用价值实践。
中国的AI产业实践,在实用主义的基础上,也有公司秉承长期主义原则,真正推动产业良性健康发展。
从产品形态、技术定位、业务逻辑和商业目标看,未来智能很可能是一个优质的GPT中国样本。这家公司的可贵之处,在于其长期致力于垂直领域(办公场景)AI技术应用。
应当说,垂直领域的AI技术应用,不能脱离诸如LLM语义大模型基础。大模型构成三要素:算力、算法和数据。算力强弱,决定算法效率,而算法又决定数据有效性;反过来,数据是训练算法的要件,能决定AI学到的知识量。
其中,如何获取并掌握数据?这关系到AI“智能”的强弱。未来智能CEO马啸对华尔街见闻说,“最终掌握数据的,是跟用户最近的产品端。”
5月24日,未来智能推出其成立以来第五代AI产品:iFLYBUDS Nano系列。这个品类,实际上就是一个垂类场景数据捕获器。
“AGI之前的时代,用户是核心;但在AGI时代,用户+数据,是双核心。”马啸说,“以前,数据通过用户在固定平台上产生;现在,数据可能由用户在某个垂直领域的‘动作或行为’产生。每个人或个体,都是一个数据策源发生中心。这些数据的价值之高,前所未有。”
通过办公全场景录音转写、多语种转译和VIAIM AI会议助理,iFLYBUDS Nano系列实现了细分场景的垂直领域数据获取。
之后,未来智能立足于会议领域特别优化的LLM,将会议数据集和通用的大语言模型相结合,特别优化了待办事项提取、会议摘要总结等场景特定任务,使得该模型在会议领域的性能得以大幅提升。
从数据规模看,垂直领域与通用领域无法相比。比如,谷歌在5月17日推出通用大语言模型PaLM2,包含了3.6万亿个token数据用以训练,而垂类领域的数据规模通常不到百亿级。
iFLYBUDS 系列会议耳机是未来智能在垂直细分场景——一切办公活动——专用办公降噪会议耳机品牌。实际上,这种耳机是一种“AI+”终端新品类,而未来智能属于这种新品类的前行探索者。
之所以称之为新品类,是因为由苹果定义并推向市场的TWS耳机,只具有声音功能,区分好坏的标准在于音质和对外部环境的干扰声(噪音)控制程度;而基于苹果公司TWS耳机的基础能力,未来智能则是开创了聚焦会议办公场景的录音降噪会议耳机系列。
这是未来智能公司以AI为基础、聚焦移动办公场景,推出的新一代移动办公会议耳机:具有全场景录音转文字、多语种录音转译以及VIAIM AI生成式会议助理等核心AI功能。基于AI技术,iFLYBUDS系列录音降噪会议耳机由此具备了生产力属性。
就像法国后印象主义画派大家保罗·塞尚(Paul Cézanne,1839.1.19-1906.10.22)那样,通过对物理世界“自然”的修改、变形及重新定义,塞尚创造出自然界本不存在的美,完全属于艺术家纯粹艺术性的创造,也正是现代主义艺术伟大之处:大大拓宽了艺术的可能性——在过去人们只能描绘美,但如今人们可以“发明”美。
iFLYBUDS的出现,也属于未来智能对“自然”(传统TWS音质和降噪耳机)的重新定义,进而创造出全新品类,拓宽了AI终端应用范围的可能性。
从生产力工具角度看,包括这次发布的iFLYBUDS Nano系列在内,未来智能研发的AI移动办公耳机终端,能轻易满足职场精英在移动办公差旅场景中的会议需求。比如,记录重要信息、整理会议纪要、生成待办事项等,使其实现从容沟通和解放双手,从而大幅提升办公效率。
就专用办公降噪会议系列耳机的本质而言,在某种程度上,未来智能已成为移动办公细分场景新的AI终端品类的“游戏规则制定者”。这原本是苹果在消费电子领域长期追求的优势。
在2007年苹果秋季发布会上,史蒂夫·乔布斯(Steve Jobs,1955.2.24-2011.10.5)以初代iPhone宣布“今天苹果要重新发明手机”,从此奠定了苹果作为消费电子新品类的“规则制定者”地位。
直到今天,虽然苹果的革命性创新能力不再,但其定义电子消费品类的能力,仍无人可望其项背。比如,最近全球都在等待苹果对MR(混合现实:Mixed Reality)终端做出全新定义。
未来智能复刻了苹果在笔电(笔记本电脑)领域做出的“生产力”定义,通过软硬件深度融合创新,突破了苹果TWS耳机的传统功能框架。
胡郁(科大讯飞联合创始人、未来智能董事长)对华尔街见闻说,“我们的目标是通过软硬件(深度融合)一体化,以‘AI+硬件’产品形态的方式,实现用户在特定场景下的办公助手功能,并将这种体验做到极致。”
通过与未来智能的深度交流,华尔街见闻了解到,iFLYBUDS Nano系列耳机的AI能力技术底层,软件层面是开源算法Transformer或Pytorch等,硬件就是包括GPU在内的服务器。
在此基础上,未来智能聚合多个LLM模型基础能力,构建生成式AI能力的技术底座,再加上层的应用模型,最终实现了胡郁所称的能力。未来智能将之称为“VIAIM AI”。
此次未来智能推出的iFLYBUDS Nano系列新品具有的生成式AI能力,背后的底层思考,实际上是沿着胡郁对可穿戴式终端在AI技术的加持下,可能成为新一代交互入口的趋势预判方向,做出的微创新功能改变。
未来智能究竟具有什么样的核心技术?
“我们的核心技术,本质上是软件加硬件形成的综合解决方案。”胡郁说,“这个解决方案,最终用硬件呈现,目标是给用户提供在办公场景下某个特定切入点(会议)的智能助理。”
在这些办公场景中,记录声音是最基础的动作。未来智能核心的软件技术,从收集声音(语音)开始,要配备相应专业领域的术语理解能力,才能提升录音转文字、甚至翻译的准确率;同时系统要足够强悍,这能提升丝滑的应用体验感。在此基础上,最终将之整理成会议纪要。
若加入AI技术,就能更进一步实现“待办事项提取”、“摘要总结提取”和“待办事项跟进”等提升移动办公效率的新功能。
在硬件层面,要求保证能快速、脱离手机的场景录音。
这些录音范围包括通过耳机接听各类电话或参与的线上办公会议,也包括线下面对面沟通办公场景的语音记录、转换或翻译。这就需要做出独特的工业设计,硬件设计的功能要求是轻(材料和结构)、长续航、长时间佩戴舒适(需要特别结构设计和选用合适的亲肤材质)等。
未来智能的AI终端,从功能上看,演进方向是什么?这取决于胡郁对AI技术和产品形态的理解。
从目前未来智能的技术定位和组织目标看,未来智能取线产品应用方向,这与以大模型为基础的技术平台方向不同。这两者共同构成了GPT技术未来商业的可能性。
“现在看到的任何一个AGI大模型的产品形态和商业模式,都还不是特别清晰。”胡郁说,“我认为未来AI技术应用形态谁会占据主导权,或者话语权,这仍然是个open question。在产品形态上,在可见的未来,多样性会是主流。”
技术平台和产品应用的关系是,后者跑在以单个群体(处于不同场景的群体)或单个商业组织各自形成的LLM能力基础的技术平台上。胡郁说,“谁能通过更有效、高度智能的交互手段,占据用户更多的时间,谁就能取得主导权。”
因此,对于GPT技术于可见的未来,在商业上的成功,胡郁的预判可以归结为四个方面:第一,标准推理能力和通用知识AI可能会成为一种标配;其次,能被“调教”到结合数据为用户提供高质量服务的AI可能更有价值,垂直领域战场更容易出现这样的服务。
第三,物理世界的大量数据还没有被AGI所接触到。所以,垂直领域这类服务通常呈现软硬件一体化特征,且无可替代;最后,下一代的手机肯定不是手机形态,穿戴式是共识,其他是非共识。
风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。