本期我们为大家带来的内容有:
(资料图片)
10 个 AI 代理 - 随着 Auto-GPT、Baby AGI 以及斯坦福大学关于 AI Agents 的社会实验的出现,AI 代理/智能代理(Intelligent Agents)瞬间成为了 AI 领域的全球热点,除了 Auto-GPT、Baby AGI 两个产品本身,在文中我们也从 Web 端、长期记忆、垂直领域服务与反面案例四个角度,整理了截止目前最具代表性的其他 8 个 AI 代理产品;
12 个大公司的新产品 - 巨头的 AI 军备赛还在继续,亚马逊正式加入战斗,微软推出了以 LLM 为核心决策者的新系统,Meta 也推出了新的视觉模型;明星公司们继续迭代更新模型与产品,垂直领域的初创公司们也丝毫不敢松懈,在各自的垂直领域推出「更好用」的 AI 工具;
3 个 ChatGPT Plugins - 3 个有趣的插件分享给大家;
16 个常规产品 - 9 个有用的、3 个好玩的和 4 个华人开发者的新产品!
Auto-GPT
某种意义上讲,作为首批独立运行的 GPT-4 实例之一,Auto-GPT 重新定义了 AI 技术的边界。这个开源的应用程序由游戏开发者 Toran Bruce Richards(aka Significant Gravitas) 开发,旨在执行需要长期规划、多个步骤的任务,并根据实时反馈进行自主改进——首先解决的是向 Richards 本人发送每日 AI 新闻的问题。
如上文所述,Auto-GPT 是基于 OpenAI API 开发的,它的核心在于基于最少的人工输入/提示,利用 GPT-4 的推理能力解决更广泛、更复杂的问题。在具体的执行上,程序会访问互联网搜索和收集信息,使用 GPT-4 生成文本和代码,使用 GPT-3.5 存储和汇总文件。???? https://github.com/Significant-Gravitas/Auto-GPT
Baby AGI
Auto-GPT 并不是唯一一个关于自动化代理的尝试。受 AGI 的定义启发,Untapped Capital 的合伙人,同样也是一位开发者的 Yohei Nakajima 搭建了一个名为 Baby AGI 的「任务驱动的自动化代理(task-driven autonomous agent)」。与 Auto-GPT 不同,Baby AGI 基于 GPT-4、Pinecone 和 LangChain 搭建,具体来说:
-使用 OpenAI 的 NLP 功能进行任务创建;
-使用 Pinecone 和 LangChain 让代理拥有实现结果储存和信息检索的「长期记忆」;
-通过无限循环,执行列表中的任务,得出逐渐丰富完善的结果,并根据初始目标和之前的结果重新确定任务的优先级,从而实现以初始目标为中心高效处理复杂任务。
AgentGPT
功能最基础的网页版 AutoGPT,界面清爽,易于使用,可一键存储/复制所生成的结果,也可选择使用自己的 API key。
Godmode
需要人为添加任务并确认每个步骤的网页版 AutoGPT,可人为控制变量,有意思!
Cognosys
目前最火的 Web 端 Auto GPT,由 Homam Tradeit 与 Sully Omarr 共同开发。与 AgentGPT 类似,输入项目名称,设定目标,输入或自动生成三项任务,即可让代理自动完成目标——相比 AgentGPT,Cognosys 的优点在于处理任务更具条理性,缺点在于无法便捷地存储或复制结果。
产品于 4 月 11 日上线,最初仅支持 GPT-3.5,但完全免费且无需 API key。
4 月 15 日,由于用户量激增,为控制成本,开发者们开始将 API key 作为可选项之一。
而 4 月 16 日,随着用户量接近 7 万人次,总访问量接近 25 万人次,开发者不得不开始强制用户使用自己的 key。
MemoryGPT
简单讲,MemoryGPT 是记忆力更长久的 ChatGPT,这个特点让它可以解决更复杂更具体的问题,同时也可以更个性化。
长期记忆为什么重要?一个简单的例子,假设一年后的你想要继续今天与 ChatGPT 讨论的某个话题,怎样做是最有效的?另一个例子,昂贵的 GPT-4 目前多可支持 32k token,这大约相当于 50 页英文文本,那么如何与处理一篇长达数百页的文档呢?除此之外,也许你还想要有个性鲜明且稳定的 AI 小助手,了解你的喜好、习惯以及思维方式。这些都需要系统可以长时间记忆以往的聊天记录——在处理长上下文所需的计算成本越来越高的情况下,我们也许需要赋予语言模型额外的记忆系统,尽可能多地将用户输入和新知识与语言模型的广泛预训练知识相结合。
虽然开发人员表示,他们「有一百种方法」解决这个问题,但专注于解决 AI 长期记忆问题的矢量数据库 Pinecone 已经付诸实践,MemoryGPT 即是基于此搭建的——当然考虑到隐私保护问题,其数据部分储存在 Pinecone,部分存储在自有数据库。
Teenage AGI
在了解了拥有长期记忆的代理后,让我们看一看真正与 Baby AGI 结合的 Teenage AGI——一个真正拥有长期记忆,记住初始目标并自动规划完成复杂任务的 AI agent——开发者,也是图像 prompting 产品 DSNR 的联合创始人的@sean_pixel,在大学宿舍完成了这个产品的开发,他个人还开发了一系列其他的有趣 agents,诸如高道德水平的分散决策 AI 裁判 council-of-ai,试试看!
Coding Assistant by Mckay Wrigley
Mckay 是我在 Twitter 上最喜欢的 Hacker 之一,他每天会花一小时解锁生成式 AI 的新玩法,继大火的通过 Apple Watch 语音写程序后,这次他通过 AI agents 进一步实现了「与经过身份验证的用户搭建应用程序」,当前 Mckay 的编程小助手可以:
- 构建和设计 Web 应用程序
- 创建具有工作数据库的后端
- 处理身份验证
- 将代码上传到 GitHub
- 部署到 Vercel
e2b (english2bits)
基于开发文档,利用 AI agents 自动搭建软件。目前云托管版本还在开发,使用还需本地部署。以下是一个使用 Stripe 自动结算的案例,左边为技术文档,右边为 AI 的搭建步骤及所使用的工具。
ChaosGPT 一个对人类充满敌意并且想要统治世界的 Auto-GPT——虽然产品本身展现的意图是负面的,但我很高兴能看到这样的尝试,让大家可以更直观地了解到 AI 的威胁性并(也许可以)提前做好应对准备。
Amazon
随着 Bedrock 的推出,亚马逊正式加入了这场生成式 AI 军备赛。值得注意的是,亚马逊并不完全自己构建 AI 模型,他们也招募第三方在 Amazon Web Services (AWS) 上托管模型——作为 AWS 的 API,Bedrock 允许开发人员使用并自定义生成文本或图像的 AI 工具,可以将其是做面向企业和开发人员的,基于云、可配置的 OpenAI ChatGPT 和 DALL-E 2 的替代方案。
AWS 用户可以基于文本 prompt,用 Bedrock 编写文本、构建聊天机器人、总结文本、分类图像等。Bedrock 为用户提供了亚马逊的基础模型 Titan Foundation Model (FM) 以及几家初创公司的模型,包括 Anthropic 的 Claude、AI21 的 Jurassic-2(一款擅长西班牙语、法语、德语、葡萄牙语、意大利语和荷兰语的语言模型)以及 Stable Diffusion。
此外,企业和开发人员可以通过 prompt 自定义模型的工作方式——亚马逊表示,这些 prompt 不会被用于训练模型,这理论上应该解决了关于企业敏感数据的关键隐私问题——但截至目前,亚马逊尚未对此服务定价.
与此同时,亚马逊也宣布将 AI 驱动的代码生成服务产品 CodeWhisperer 免费提供给开发人员,不设置任何使用限制。CodeWhisperer 于 2022 年 6 月底与 AWS IDE Toolkit 和 AWS Toolkit IDE extension 共同推出,一定程度上对标 GitHub Copilot。
CodeWhisperer 是在数十亿行公开可用的开源代码、亚马逊自身的代码库以及公共论坛上的文档和代码的基础上训练的,可以仅根据一条注释或几次点击完成 Java、JavaScript 和 Python 等语言的自动编程,现在又额外支持了 Go、Rust、PHP、Ruby、Kotlin、C、C++、Shell 脚本、SQL 和 Scala。与此前一样,它会突出显示与其训练数据中找到的代码片段相似的函数所关联的许可证,开发人员可以选择过滤,这是为了避免 GitHub Copilot 在此问题上面临的法律挑战,但是否成功还需要时间验证。但免费开放的举动也许表明,自去年 6 月推出以来,CodeWhisper 并未获得公司预期的市场认可。
在争议较小的领域,亚马逊也宣布全面推出弹性云计算 Elastic Cloud Compute(EC2)Inf2 实例,这些实例由公司的 AWS Inferentia2 芯片提供支持,旨在提高整体推理性能。
此外,亚马逊还宣布,由亚马逊定制设计的 AI 训练芯片 AWS Trainium 提供支持的 Amazon EC2 Trn1n 实例也向客户全面开放。亚马逊表示,这些实例提供高达 1600 Gbps 的网络带宽,在训练大型、网络密集型模型时,性能比 Trn1 提升 20%。
事实上,虽然没有公开的大动作,亚马逊在生成式 AI 领域的布局从未停止。
Bedrock 的亮相某种程度上也展示了 AWS 在过去的几个月里与生成式 AI 初创公司逐步创建的合作关系。去年 11 月,Stability AI 选择 AWS 作为其首选云服务提供商,3 月份,Hugging Face 与 AWS 合作,并将文本生成模型引入 AWS 平台。
此外,AWS 还在构建生成式 AI 应用所需的技术方面不断增加投资。最近,AWS 推出了一个生成式 AI 初创加速器,并表示将与 Nvidia 合作构建用于训练AI模型的「下一代」基础设施。
JARVIS by Microsoft w/t Huggingface
微软新开发了一个名为 JARVIS 的有趣协作系统,可以被视作此前大热的论文 HuggingGPT 的产品化,即用多个人工智能模型来完成给定的任务,这其中,LLM(这里是 ChatGPT)在其中扮演核心控制者的角色。
JARVIS 的工作原理与 OpenAI 所展示的多模态 GPT-4 运行方式类似,但在此基础上又更进一步,集成了 20 多种开源的图像、视频、音频等模型,最重要的是还可以连接互联网和访问本地文件。
具体到使用,用户可以单次添加多项任务,而 ChatGPT 的执行过程可以被分解为以下三个步骤:
- 分析请求并计划任务;
- 选择正确的模型(托管在 Huggingface 上)来完成任务,所选模型完成任务并将结果返回;
- 使用来自所有模型的推理结果生成响应。
例如,下图所展示的「生成外星人入侵的图像并写下有关它的诗歌」
Segment Anything Model by Meta AI
Meta 是这样介绍 Segment Anything Model(SAM)的:第一个致力于图像分割的基础模型。可以在不需要大量标注的情况下,对图像中的任何物体进行分割,理论上来讲,这种方法可以帮助 CV 领域的研究人员和开发者更轻松地训练模型——听听这些描述:新数据集、新范式、强零样本泛化能力,是不是很耳熟?没错,Jim Fan 称其为「视觉模型领域的 GPT-3 时刻」。
当然,这个模型并不完美,相信试用过后,大家会发现基础的问题也有不少,我的好朋友,视觉领域科学家@王乃岩也提出了他关于「SAM 为什么不能类比 GPT-3」的意见:
Stable Diffusion XL by Stability AI
最近视觉模型领域的更新有不少,例如这个:面向企业用户,强调写实感的图像生成模型,可以通过更短的提示词生成更清晰、细节更丰富的图像——这就是当前 Stability AI 所发布的最强大的视觉模型 Stable Diffusion XL(SDXL)了,在 DreamStudio 内可用的基础上,最近正式开放了 API——依然没有完全解决人像中手部的生成问题。
也许你会问,SDXL 与 Midjourney v5 有什么区别?除了文生图,SDXL 还可以实现以图生图、局部生成/修复以及图像延展等功能——确实是这家快速发展的公司的大更新了!
Aperture v3 by Lexica
与 Stability AI 一样,Lexica 也推出了自己更理解提示词,细节渲染更佳的,采用了自主开发的全新架构的第三代模型 Aperture v3,一只英伦风的鼠猫绅士。看上去,效果还不错!
Discord Bot by Scenario
专注于游戏资产生成的公司 Scenario 推出了作为 Midjourney 创始人 David Holz 的超级粉丝,Scenario 的创始人 Emmanuel de Maistre 在设计产品时极大程度上参考了偶像的思路——从选择在 Discord 中呈现最终产品到 UI 设计,一以贯之。
Perplexity AI 的全面升级
Perplexity 对产品进行了全面升级,推出了登录、讨论串(Thread,与 Twitter Thread 类似)、重点搜索、改进格式等功能,其中值得重点一提的是:
- 在搜索功能层面,重点搜索让用户可以筛选自己关注的信息源,例如 Youtube、Reddit、特定新闻网站等,而学术领域目前也开放了基于 SemanticScholar、Arxiv 和 NIH 的深度搜索;
- 在问题解决能力上,Perplexity 重点改进了编程、表格生成与数学能力;
- 在生成内容管理上,新增的「讨论串」功能可以让用户以某个话题为中心,整理所得到的结果。
对于我来说,还有一个有趣的地方在于,Perplexity 将用户定义为「作者(author)」,也许,生成式 AI 让互联网真正进入了「每个人都是高水平创作者」的时代!
AI Assist by Ironclad
在更垂直的应用场景中,法律科技独角兽 Ironclad 也推出了自己的 AI 产品——基于 GPT-4 的合同撰写 AI 助手 AI Assist。这个产品面向的是合同生命周期的全过程,从条款建议、内容撰写、数据提取、合同审查、经营数据对比分析对比到未来合同优化起草,高效解决全流程!
effy 的 AI 模块
一句话简介:集成了生成式 AI 的绩效管理产品。
Willy by Triple Whale
专注服务 Shopify 商家的电商智能数据平台 Triple Whale 在 AI 领域的尝试从未间断过,这次,他们推出了基于 GPT-3.5 和 GPT-4 的聊天机器人 Willy,可用于电商销售及其他业务数据分析,或者就是简单的聊天——品牌营销负责人 Ethan Shust 称之为「电商领域 AI 聊天机器人瑞士军刀」。
Imagica AI by Brain AI
脱离 AI agents,Brain AI 也开发了一款无代码应用程序搭建产品 Imagica。用户可以在不编写任何代码的情况下创建 AI App。
Apollo
搭载于耳机中的基于 GPT 的实时搜索引擎(开发者称之为实时知识应用程序)——是来自我非常喜欢的另一位 AI Hacker Aaron Ng 的新产品。
「让耳机成为搜索引擎」,听上去也许很奇怪,但作为一个随身携带耳机的人,有一个可以随时用语音唤醒、接受提问、提供及时语音回复并以文字进行记录的 AI Assistant 还是一件颇有吸引力的事,最直接的影响——不再做低头族!
Hume
人类情感分析,捕捉文本、音频、图像与视频中的人类情绪(即便他们是隐晦的——Hume 的优势在于数据集的收集与分析,创始人 Alan Cowen 是 Google AI 情感计算研究团队的创始成员之一,也是语义空间理论的提出者,这是一个基于数学的情感理论,将情感视为复杂、多维空间的维度。Hume 正是部分建立在他的研究上,致力于让 AI 更理解人类的情感,比如,让日渐流行的 AI Assistant 们可以根据人类的心理状态做出更精确的反应。
Rask
一款本地化的视频编辑工具,一键将本地视频翻译为 60 名种语言,还可以利用文字生成语音及语音克隆技术为视频添加话外音(需要注意的是,当前语音克隆仅支持英文)!
Dexa.ai
简单说,Dexa 是一个更准确的播客整理工具。之前介绍过类似 Summarize.tech 的播客整理,但受 GPT 等模型处理长文本能力较弱问题的限制,它们所生成的内容虽然看似有道理,可实则与原内容毫无关系——Dexa 更好地解决了这个问题,为长播客(典型的是 Lex Fridman 的播客)转录字幕、添加时间戳——是像我一样喜欢阅读文字多过听访谈的人的福音!
Tabby
自托管 AI 编程助手,Github Copilot 的开源与本地化替代方案,优势有以下几点:
- 独立存在,无需 DBMS 或云服务
- 可用作可视化、配置模型和 MLOps 的 WebUI
- 采用 OpenAI API,易于与现有基础架构,如 Cloud IDE 集成
- 支持消费级 GPU
Graph Maker
上传本地表格,通过自然语言指令生成图表——虽然实测非常不好用,但是这是在本就困难的「LLM 表格处理」的任务的基础上更进一步的尝试,值得关注!
Upscaly
一键提升图片画质,效果看图
Fina
简洁易用的个人财务数据追踪分析工具,无需上传任何数据表,直接从合作的 12,000 家金融机构中实时获取数据并进行分析,用户还可以自定义财务分析规则、追踪类别等,试试看!
ChatGPT Plugins
Stability GPT
相信已经有非常多小伙伴已经尝试过让 ChatGPT 写文生图 prompt,再复制到相关工具中进行图片生成,那么,何不一步到位?来自 Brex 的 AI Chef & Design Lead Pietro Schirano 的作品。
LlamaIndex
来自华人开发者 Jerry Liu,实现 ChatGPT 与外部数据集的链接,但 LlamaIndex 要做的事绝不仅限于 ChatGPT 检索插件。
BabyAgiGPT
又是 Pietro Schirano!他开发了这个 Baby AGI 插件,并用其写了一本 250 页的科幻小说——wow!
实时 Samantha
拥有一位可以实时与之对话,向其下达指令的聪明助手 Samantha 是不是一件有吸引力的事呢?在这个有趣尝试中,作者用了以下几个 API:
- Speech to Text - OpenAI Whisper
- Text to Text (Prompt) - OpenAI GPT-3.5-turbo
- Text to Speech - Eleven Labs
Negotiation Simulator
基于 GPT 的小游戏——你与这位凶残的 AI 银行抢劫犯的一分钟谈判成果,决定了被挟持人质的生死。
Card Against ChatGPT
反对 ChatGPT 的一万个理由——ChatGPT 的不良案例与缺点收集器。值得注意的是,与 ChaosGPT 一样,本产品的作者也不是 AI 反对者,相反正是因为喜欢 AI 以及对与 AI 可持续发展的关注才促使他搭建了这个产品,意在让更多人关注到 AI 安全与人与 AI 共生的解决方案。
Magic Copy
来自华人开发者 @kevmo314,一款可以在浏览器中直接对图片进行抠图的工具,支持 Chrome、Firefox,使用了 Meta AI 近期发布的 Segment Anything Model (SAM) AI 模型,可以在任何图像中一键抠出你想要的部分——抠图功能不稀奇,但在浏览器里对着图片右键菜单选择 Magic Copy 就能抠图实在是太方便了!
气
一个看似荒谬的想法——让 AI 指导人类进行冥想,舒缓压力,是很新奇的尝试!来自开发者@chris。
另外,Chris 是一个有许多有趣想法、善于动手的开发者,他还开发了一款游戏搭建工具 Prestige,用户可用简单的自然语言自行设置游戏角色与情节,让 GPT 自动生成可玩的对话式冒险游戏,还有一款自然语言转图表工具 Autodiagram,功能简单,但清晰好用!
病娇 AI 女友 Yandere AI
来自华人开发者@大谷,一款基于 ChatGPT 的简单好玩的小游戏,目的只有一个:如何说服你的病娇女友把你放出门?
正如 ChatGPT 生成的答案一样,说服这位病娇暴力女友的方式也随机得让人摸不着头脑,但也像 ChatGPT 一样令人上头——目前 Youtube 各位主播的测评播放量已有数千万。
Aski AI
做 API 封装的工具有很多,但 Aski 作为中文工具,封装的功能简单实用:有基于 GPT-3 的聊天机器人、文字内容生产与优化工具和中文提示下的 Midjourney 风格的图像生成——中文世界也确实需要这样的简单工具做为生成式 AI 传播者,Aski 可以在 web 端、移动端及微信公众号/小程序使用!
禅修时刻 · StackLlama
一份端到端的利用 RLHF 和偏好数据集训练 Llama 的教程!
本文来源:真格基金,原文标题:《AI竞赛再度升级!一文速览4月初10个最具代表性的AI代理与31个新产品》
风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。