AI一周见闻：微软win11启动AI变革；英伟达助力办公软件降本23%；视频训练成为机器人重要学习路径

您的位置：首页 >财经 > 滚动 >

AI一周见闻：微软win11启动AI变革；英伟达助力办公软件降本23%；视频训练成为机器人重要学习路径 | 见智研究环球最新

来源：华尔街见闻 2023-07-02 17:08:06

见智视角

本周AI的重要风向在win操作系统、办公软件应用和大模型私有化部署所展现出巨大的市场潜力。微软的操作系统变革将为用户带来更智能、高效的体验，办公软件应用的AI技术将提高图像处理能力，而大模型私有化部署的发展将使AI在to B应用上更加安全可控，这些趋势将对相关行业和公司的发展产生重要影响，为AI的广泛应用提供更多机遇。

本周要点

AI应用：

(资料图)
Copilot"落户"Windows11，操作系统的AI变革时刻已来金山办公引入英伟达推理服务器和GPU，图像任务能降本23%Midjourney 5.2又更新，这次AI生图开始卷向表情包十秒剪视频，Whisper模型让每个人都能成为“剪辑师”机器人看YouTube学会做家务，大规模视频训练机器人成为重要路径Unity推出AI Hub平台，股价飙涨 15%，AI革命游戏的进程在加速
大模型：
谷歌 DeepMind花数千万美元打造ChatGPT的竞品，多模态视频训练将成为特色PrivateGPT 开源模型可实现不连网提问；本地部署未来空间大恒生电子发布金融行业大模型LightGPT，金融大模型场景多样化，需求确定性强智谱AI为大模型应用更近一步！成为法律专用大模型底座
融资风向：AI安全成为资本的下一个风口，CalypsoAI融资2300万美元

AI应用

1、Copilot"落户"Windows11，操作系统的AI变革时刻已来

微软官宣向开发者频道中的 Windows Insiders 提供 Windows Copilot 的早期预览。

第一个预览版重点关注集成 UI 体验，Windows Copilot 将显示为停靠在右侧的侧栏，不会与桌面内容重叠，并且将在打开的应用程序窗口旁边无障碍运行，可以随时与 Windows Copilot 进行交互。

在window11 Copilot 的预览版本中，用户可以提出以下种类问题：

内容涉及：个性化系统设置、截图、文生文和文生图的功能；

此外，Win11更新还包括本机支持读取其他存档文件格式；如常见.rar\ .7z等压缩文件；

见智点评：

微软兑现了在 5 月份的 Build 大会上的承诺，本次Copilot 的预览版本落地win11，成为操作系统迈入AI时代的重要一步，之后win11会成为第一代AI系统的大规模商用版本；此外，微软也表示在25年会停止win10的服务，包括专业版和家庭版，意味着那时起操作系统将会全面进入AI 时代。这将为用户提供更智能、高效的操作体验，并为微软带来新的商业机会。

2、金山办公引入英伟达推理服务器和GPU，图像任务能降本23%

金山办公官宣与NVIDIA 团队合作，为解决图像识别和理解任务耗时过长和成本的问题，

引入 NVIDIA T4 Tensor Core GPU 进行推理、NVIDIA TensorRT 8.2.4 进行模型加速、NVIDIA Triton 推理服务器 22.04 在 K8S 上进行模型部署与编排。

通过 GPU 推理和 TensorRT 加速，成功将耗时从15秒降低到了 2.4 秒左右；部署成本节省了 23% 。

见智点评：

英伟达推理服务器的部署，成功优化了GPU的利用率，提高了办公软件对图像文档识别和推理的效率，能够实现办公软件业务降本增效的预期。这一合作为WPS AI的落地应用提供了更高效的解决方案，这部分 AI 新能力集中在阅读理解、问答、人机交互等方面。

WPS AI 已经开始内测阶段，启动大规模商用后，对国内办公软件使用体验将带来全面升级。这一合作将提升金山办公的图像处理能力，并为其在办公软件市场中的竞争力带来优势。

3、Midjourney 5.2又更新，这次AI生图开始卷向表情包

Midjourney 5.2更新「weird」新功能，可自定义诡异等级。根据官网显示通过调节weird参数的大小即能够控制生成照片的诡异风格，参数越大照片越奇怪；但是该功能还只限于付费用户使用；

此外，还更新了「turbo」模式：该功能是能够以四倍速加速图片生成；不过相较于传统快速作业模式仍旧是需要消耗2倍的GPU；

见智点评：

图片生成在AI的影响下正在从传统模式进入一种新范式，weird模式增加了图片超越常规认知的可能性创作，这种模式具备更多娱乐属性，如果免费开放应用，那么大概率会在社交圈引爆。这一更新将进一步推动表情包制作的自动化和智能化，为用户提供更多创意和娱乐选择。

4、十秒剪视频，Whisper模型让每个人都能成为“剪辑师”

荷兰开发者Matthijs Hollemans在HuggingFace上基于Whisper开发了视频剪辑新功能，现在剪视频能够精准到每个字。

在平台上可以对上传的视频内容进行同步文字转化，只需要选择留下的文字，然后就可以直接生成所需的片段。使用过程非常简单，可累比相机界的“傻瓜相机”。

见智点评：

AI应用层出不穷，此前主要是AI生成图片内卷非常严重，几乎是每周都有重要更新，现在这个迭代速度已经开始向视频领域蔓延，这个小白剪视频的功能让剪视频门槛大大降低，同时节省了很多制作时间，效率优化超过90%，对于视频创作行业来说具有重大影响。这将进一步推动用户在社交媒体上的创作和分享活动，对于Whisper模型的开发商来说，商业机会也将随之增加。

5、机器人看YouTube学会做家务，大规模视频训练机器人成为重要路径

CMU机器人研究所助理教授Deepak Pathak展示了一种视觉机器人桥方法（VRB）；通过让机器观看人类行为方式的视频完成行为模拟，并验证了该方法的有效性。机器人观看了几个人类开抽屉的视频后，可以效仿人类行为做出打开抽屉的动作。

见智点评：

这种方法的关键在于利用大规模的视频数据来训练机器人，并从中学习人类行为和操作。这为机器人的应用提供了更广泛的可能性，可以通过观察互联网和YouTube等视频来获取更多的训练数据。这种方法可以改进机器人的操作能力，并为机器人在日常生活中的应用提供更多的机会。

视频训练将成为机器人学习的重要路径，进一步推动机器人技术在家庭和服务领域的应用和发展。

6、Unity推出AI Hub平台，股价飙涨 15%，AI革命游戏的进程在加速

全球领先的3D内容平台Unity宣布推出AI Hub平台，允许 AI 软件开发者通过 AI Hub 向游戏研发商直接供应开发软件，并通过 Unity 的 Asset Store 收费；

同时推出了10个经验证的解决方案，还在Unity Asset Store中推出两款新的AI产品“Unity Sentis“及“Unity Muse”并正式启动内测，预计将赋能AI驱动的游戏开发效率提升以及玩法升级。

见智点评:

AI将以非常迅速的节奏改变游戏制作方式以及降低成本，这已经成为游戏行业不可逆转的路径。游戏行业的格局或许也会因为生成式AI带来巨变，AI革命游戏行业的进程在加速。

新AI平台的推出印证了目前开发人员对于AI工具的巨大需求存在，而Unity似乎已经找到了新的盈利模式，AI Hub平台很快将成为开发者和游戏公司最受欢迎的资源聚合平台，看起来Unity将会在这场全新变革中赚的盆满钵满

大模型

1、谷歌 DeepMind花数千万美元打造ChatGPT的竞品，多模态视频训练将成为特色

谷歌DeepMind CEO Hassabis近日对外媒Wired表示，Gemini还在开发中，还需要几个月，而谷歌DeepMind已经准备砸进数千万美元，甚至数亿。

The Information最近的一篇报道表述：谷歌的研究人员一直在使用YouTube来开发Gemini。

人工智能从业者表示：这可能是谷歌DeepMind的一个优势，因为它可以“比抓取视频的竞争对手更完整地访问视频数据”。

见智点评：

Google或是受到上一代聊天机器人Bard发布会重大失误的刺激，目前对Gemini给予了厚望，希望不仅仅是对标ChatGPT，更想要超越，所以在训练下一代聊天机器人时候，更侧重多模态训练，特别是视频数据投喂，这点目前是ChatGPT所做不到的，也是Google想要的差异化市场竞争，大厂对大模型的争夺仍在继续。

2、PrivateGPT 开源模型可实现不连网提问；本地部署未来空间大

开发者Iván Martínez Toro发布了PrivateGPT开源模型，该模型允许用户在无需互联网连接的情况下，通过提供自己的文档来向模型提问。

PrivateGPT可以在家用设备上进行本地运行，使用前需要下载名为"gpt4all"的开源大语言模型（LLM）。用户需要将所有相关文件放入一个目录中，以供模型引入所有数据。完成LLM的训练后，用户可以向模型提出任何问题，它将使用提供的文档作为上下文来回答。PrivateGPT能够处理超过58000个单词，目前需要大量本地计算资源（推荐使用高端CPU）进行设置。

Toro表示，当前PrivateGPT处于概念验证（PoC）阶段，它至少证明了可以在本地创建类似于ChatGPT的大模型。可以预见，一旦这种PoC转变为实际产品，PrivateGPT将具备让公司获得个性化、安全和私密的ChatGPT来提高生产力的潜力。

见智点评：

PrivateGPT开启行业对本地化部署的重视程度，这对于那些关注数据隐私和安全的行业和个人非常重要。通过本地化部署，用户可以更好地控制和保护他们的数据，减少了数据泄露和侵犯隐私的风险；开源模型和本地化部署将在未来产生积极的影响。

3、恒生电子发布金融行业大模型LightGPT，金融大模型场景多样化，需求确定性强

LightGPT可以为投顾、客服、投研、运营、风控、合规、研发等金融业务场景提供底层AI能服务，支持超过80+金融专属任务指令微调。具备金融专业问答、逻辑推理、超长文本处理能力、多模态交互能力、代码处理等能力；

模型使用了超4000亿tokens的金融领域数据（包括资讯、公告、研报、结构化数据等）和超过400亿tokens的语种强化数据（包括金融教材、金融百科、政府报告、法规条例等），并以之作为大模型的二次预训练语料。

LightGPT拥有更为丰富、轻量化的部署方式，支持私有化/云部署以及灵活API调用，推理端仅需一机2卡部署。

见智点评:

一方面基于数据安全，一方面基于应用场景多样化，金融大模型的需求确定性很强。

此前彭博已推出金融行业大语言模型BloombergGPT；腾讯云也正在携手神州信息开展金融大模型合作；此前我们也作过多次金融大模型发展的动态点评，很多券商、银行和基金公司都在进行AI研发投入，以及AI产品的推出；恒生电子基于此前金融行业多年的IT服务经验，本次推出LightGPT大模型具有重要意义，之后我们也会继续跟进LightGPT开放测试之后的体验反馈。

4、智谱AI为大模型应用更近一步！成为法律专用大模型底座

幂律联合智谱AI发布基于中文千亿大模型的法律垂直大模型——PowerLawGLM，聚焦于法律细分领域，针对中文法律场景的应用效果具有独特优势，具备丰富的法律知识和法律语言理解能力。

基于PowerLawGLM大模型的能力，幂律还打造了法律对话产品ChatMe，现已正式上线，首批开放50个内测名额

PowerLawGLM是基于智谱的ChatGLM 130B通用千亿对话大模型进行联合研发，经过多轮多次高质量法律文本数据（裁判文书、法律法规、法律知识问答等）清洗及模型增量训练，得到法律版基座大模型LawGLM 130B。在100个问题的评测结果上来看：PowerLawGLM可实现70%左右的最优答案。

见智点评：

大模型如果直接应用在法律领域，会存在输出结果与需求很严重不匹配程度很高的问题。因为大模型的数据结果是基于数据训练来生成的，但是不同国家的法律规则是完全不同的，具有很强的专业性和区域限制，所以采用全球通用大模型很难得到满意的内容。

中文千亿大模型的法律垂直大模型PowerLawGLM就能够很好的适配我国的案例情况。中文法律大模型仅仅是一个开始，未来很多行业都会陆续推出专业领域的大模型，同时会基于垂直大模型打造人工智能对话产品。智谱AI做为最底层模型，对于开发专业领域大模型具有重要意义；之前还开源过一个更小容量的ChatGLM-6B模型，特别适合学习和轻量开发；另外最值得关注的是大模型训练中如何平衡训练稳定性和效率。