AI见闻日报：将上下文学习能力从语言迁移到视觉，MetaVL开启下一个多模态时代

您的位置：首页 >财经 > 滚动 >

AI见闻日报：将上下文学习能力从语言迁移到视觉，MetaVL开启下一个多模态时代 | 见智研究

来源：华尔街见闻 2023-06-06 18:01:48

今日要点：

1、苹果在 iOS17 中加入transformer语言模型，用于提高文字和语音转文字时的准确性。

2、苹果开发人员：Vision Pro里用了“脑机接口”，通过检测眼睛等准确预测用户下一步要做什么

(资料图片仅供参考)

3、MetaVL: 将上下文学习能力从语言模型迁移到视觉，开启下一个多模态时代

4、Runway获得1亿美元D轮融资，谷歌领投

见闻视角

海外AI

1、苹果在ios17中加入transformer语言模型，用于提高文字和语音转文字时的准确性。

苹果在今日更新的ios系统介绍中，阐述了使用transformer语言模型，用于提高文字和语音转文字时的准确性，通过用于单词预测——提高了用户每次键入时的体验和准确性。而这个模型如同苹果一直以来强调对用户的隐私保护一样，是在手机端的模型。

见智研究认为，苹果使用transformer模型用于一些基础应用符合苹果一直以来的务实精神，苹果从不强调某项技术是否先进，而是要在用户体验上做到极致。这也是苹果一直强调技术落地到应用的体现。

见智研究相信苹果设备在明年将会拥有自己的llm模型，而这个模型按照苹果一贯的隐私保护模式，应为纯本地化的模型。

2、苹果开发人员：Vision Pro里用了“脑机”，通过检测眼睛准确预测用户下一步要做什么

一位在AR/VR领域工作十年、担任苹果AR神经技术研究员的网友Sterling Crispin发推文，介绍了苹果AR的神经技术研发

根据Crispin的介绍和苹果的专利说明，苹果的神经技术可以做到预测用户行为、根据用户状态调整虚拟环境。

最酷的结果是在用户实际点击之前预测他们会点击什么，人们的瞳孔在点击之前往往有反应，原因是人们会期望在点击之后会发生什么。

这时可以通过监测用户的眼睛行为来创造生物反馈，并实时重新设计用户界面，以创造更多预期的瞳孔反应。这是一个通过眼睛实现的粗略“脑机接口”，用户不用接受侵入性的脑部外科手术。

推断认知状态的其他技术，包括以用户可能无法察觉的方式向他们快速闪现视觉或声音，然后测量他们的反应。

见智研究认为，苹果通过全新的神经技术对人的行为进行预测，从而大幅减小了vision产品整个UI操作的延迟，大幅提升用户体验。从无数细节中可以看到，苹果在用搬山能力处理每一个细节，这个软硬整合能力，不是谁能可以随便模仿的，它所体现的每一个细节，都看出苹果花费巨大的功夫在解决交互体验。这也是苹果之所以伟大的地方。

3、MetaVL: 将上下文学习能力从语言模型迁移到视觉，开启下一个多模态时代

动机：研究如何在视觉-语言领域实现上下文学习，将单模态的元学习知识转移到多模态中，以提高大规模预训练视觉-语言(VL)模型的能力。方法：首先在自然语言处理(NLP)任务上元训练一个语言模型，实现上下文学习，然后通过连接一个视觉编码器将该模型转移到视觉-语言任务上，以实现跨模态的上下文学习能力的转移。优势：实验证明，跨模态的上下文学习能力可以转移，该模型显著提高了视觉-语言任务上的上下文学习能力，并且在模型大小方面能够有显著的优化，例如在VQA、OK-VQA和GQA上，所提出方法在参数数量减少约20倍的情况下超过了基准模型。

见智研究一句话总结:

M Monajatipoor, L H Li, M Rouhsedaghat, L F. Yang, K Chang探索了将元学习的上下文学习能力从单模态迁移到多模态的可能性，证明了在视觉-语言任务中通过迁移可以显著提升上下文学习能力，甚至在模型大小方面实现优化。

这意味着多模态情况下的对话能力将得到加强，对于现有的文生图来说可能会带来新的变化，生成模式对用户将更友好。