AI一周见闻：谷歌从模型到应用全面冲刺，OpenAI3D建模只需100秒，Meta开源新模型，AI学会人类感知

您的位置：首页 >财经 > 滚动 >

AI一周见闻：谷歌从模型到应用全面冲刺，OpenAI3D建模只需100秒，Meta开源新模型，AI学会人类感知 | 见智研究当前短讯

来源：华尔街见闻 2023-05-14 09:02:43

每周日AI一周见闻与您相约。AI一周见闻涵盖四大部分：每周见闻、企业新品发布、AI黑科技、下周看点。

每周见闻

本周要点汇总：

1、谷歌从模型到应用全面进击AI，PaLM2让Bard更强大，办公套装Workspace叫板Office。

2、3D建模大突破，OpenAI推出文本生成3D模型—Shap-E，生成3D模型从2分钟优化到100秒。

(资料图片仅供参考)

3、Meta开源 ImageBind 新模型，AI学会人类感知，图片是嫁接桥梁。

4、GPT4最强对手Claude史诗升级，解读百页资料仅需一分钟。

5、还有三种黑科技，AI超写实数字人为何凸显商业价值、AI更懂视频等内容。

企业新品发布

1、谷歌从模型到应用全面进击AI

本周谷歌的I/O发布会备受瞩目，新品发布效果超出市场的预期。谷歌不仅仅发布了新模型PaLM2，还将AI全面接入办公套装Workspace，直接叫板Office。

值得关注的是，新推出PalM2模型有四种大小，包括Gecko、Otter、Bison和Unicorn。Gecko作为最轻量的版本，可以部署到移动端，易于微调各类细分模型，提供每秒处理20个token的能力。

此前大模型在边缘侧终端的应用主要是依靠API接口调用的方式，大模型的训练和推理仍在云端进行，对边缘侧终端及芯片形态更新没有太大需求。

轻量化Gecko版本，能够提供AIGC更为定制化、时延更低，安全性、隐私性更好的应用，开拓AI模型在终端芯片推理的场景，边缘侧智能终端以及SoC有望全面升级，进入新的更新换代周期。

见智研究认为：谷歌的PalM2模型推出，能够更好的驱动机器人Bard升级，不仅能够使用100中语言回复用户，多模态版本的Bard还更新了图像、编程、应用集成等功能；而且还在医学上被认达到临床专家水平。

此外，PalM2大模型的又一亮点就是全球首个支持移动端部署的大模型AI，被看做是点燃移动边缘端的Ai大模型竞赛。意味着大模型竞赛的路线现在已经从PC端拓展到手机和IOT领域。

从谷歌的研发力和生态的角度来看：

在AI基础设施上：A3虚拟机训练速度目前比其他设施快80%，成本低50%；Vertex AI平台能够给开发者提供多种基础模型，用于微调从而尽快得到专属模型。

在应用生态上：谷歌搜索推出Converse的生成式AI功能，不仅能够写邮件、写文案、做表格、PPT能力直接对标Office，而且在决定购买性价比更好的产品时候特别有用。

之后最值得关注的是谷歌将推出基于Bard的拓展插件，扩大机器人的应用场景，比如让Adobe 生成全新的图像，用REDFIN进行一个地区的所有房地产市场研究，购物、订酒店、找工作都不在话下。

2、3D建模重大突破，OpenAI推出文本生成3D模型—Shap-E

传统3D模型需要开发者进行手动建模，而Shap-E模型可以只用过自然语言的描述创建3D模型，极大的提高了创作的效率和质量。Shap-E模型可在GitHub上免费获得，并支持在PC上本地运行。下载完所有文件和模型后，不需要联网。最重要的是，它不需要OpenAI API密钥，完全免费。

见智研究认为：Shap-E应用于更常见的扩散模型，与此前发布的Point-E模型区别在于：Shap-E直接创建物体的形状和纹理，并采用称为神经辐射场(NeRF)的特征来克服早期模型的模糊性，使三维场景看起来像逼真的环境。Point-E是根据文本提示生成3D点云。

此外，每个Shap-E样本在单个NVIDIA V13 GPU上生成大约需要100秒，Point-E将花费多达两分钟的时间在同一硬件上渲染。因此Shap-E比Point-E运行效率更快。

但该模型也仍有一定的缺陷，比如它在组合概念方面的能力有限，未来通过收集或生成更大的带注释的3D数据集可能有助于解决这些问题。生成的样本通常看起来粗糙或缺乏细节，编码器有时会丢失详细的纹理。

虽然文字生成3D模型暂且比不上图片的呈现效果，但仍旧是未来一个重要的方向。

3、Meta开源ImageBind 新模型，AI学会人类感知

Meta在开源大模型的路上一骑绝尘，继两个月前开源LLaMA大模型之后，再次于5月9日开源了一个新的AI模型—— ImageBind。这个模型与众不同之处便是可以将多个数据流连接在一起，包括文本、图像/视频和音频、视觉、IMU、热数据和深度（Depth）数据。这也是业界第一个能够整合六种类型数据的模型。

见智研究认为：ImageBind无需针对每一种可能性进行训练，而是直接预测数据之间的联系的方式类似于人类感知。

ImageBind 通过图像的绑定属性，将每个模态的嵌入与图像嵌入对齐，即图像与各种模式共存，可以作为连接这些模式的桥梁，例如利用网络数据将文本与图像连接起来，或者利用从带有 IMU 传感器的可穿戴相机中捕获的视频数据将运动与视频连接起来。这对于多模态发展来说具有重大意义。

4、GPT4最强对手Claude史诗升级，解读百页资料仅需一分钟

据Anthropic官方介绍，升级后的Claude-100k版本，对话和任务处理能力双双得到极大提升。一方面，是“一次性可处理文本量”的增加，另一方面则是“记忆力”的增加。

见智研究认为：此前大模型都存在对读取超长文本的困难，而Claude-100k打开此该领域的天花板，GPT-4也不过才做到3.2万token，而Claude-100k能做到一次记忆10万token；能学习论文、几小时的博客、财报等等都不在话下，更重要的是它不仅能通读全文总结其中的要点，还能进一步完成具体任务，如写代码、整理表格等。本次更新对于机器文本学习来说是重大跃迁。