每周AI大事件 | 文心一言上线5大插件、OpenAI宣布首笔公开收购、GPT-4新增审核功能
欢迎来到站长之家的[每周AI大事件],这里记录了过去一周值得关注的AI领域热点内容,帮助大家更好地了解人工智能领域的动态和发展风向。
PART1动态
[国内要闻]
B 站董事长、CEO 陈睿表示,AIGC 是一项能够改变世界和行业的划时代技术革命,对于 B 站来说,AIGC 已经带来了明显的增益。AIGC 可以提高创作者创作内容的效率,能够把社区体验变得更好,在业务应用相关场景中也能够带来很大进步的机会。
2.硅心科技推出AI编程应用 aiXcoder Europa
硅心科技推出了智能编程应用 aiXcoder Europa,该应用基于代码大模型,解决了代码大模型在企业落地中的难题。新版本新增了代码缺陷检测与修复、单元测试代码自动生成、代码注释自动生成等功能,帮助提高开发者的编码效率和项目质量,助力企业在人工智能时代取得竞争优势。
3.字节跳动对话类 AI 产品 Grace 更名 “豆包” 开始对外测试
字节跳动的对话类 AI 产品 Grace 发布新版本,并宣布更名为 “豆包”,并开始对外测试。此前该产品仅在字节跳动内部进行了体验测试。另外,字节跳动内部还在研发代号为 “O” 的新大模型项目,并加大对大模型相关人才的招聘力度。
百度首席技术官王海峰在 WAVESUMMIT 深度学习开发者大会上表示,百度文心一言已上线百度搜索、览卷文档、E 言易图、说图解画、一镜流影五大插件。这些插件使模型具备了生成实时准确信息、长文本摘要和问答、数据洞察和图表制作、基于图片的创作和问答、文生视频等能力。
联想集团公布了2023/2024财年第一财季业绩,营收为903亿元人民币,净利润为13.3亿元人民币。联想集团计划在未来三年追加70亿元投资,加速部署人工智能技术和应用。
在最近的小米年度演讲中,雷军提到了小米在 AI 大模型能力方面的进展。小爱同学已经升级生成式大模型,并开始测试。小米与高通和联发科合作,将推出端侧 AI 大模型应用,该技术项目获得了新的预算。
7.腾讯:将继续推动生成式 AI 创新 打磨自研专有基础模型
腾讯在财报中表示,将继续推动创新,包括通过生成式人工智能,并以腾讯云模型即服务为合作伙伴提供模型库,同时也在打磨自研的专有基础模型。腾讯二季度研发开支达160亿元,自2018年至今累计投入超过2300亿元。
钉钉个人版于8月16日启动内测,所有用户都可以申请加入测试。用户可以体验各种 AI 服务,包括文生文、文生图、角色化对话以及 AI 创作等功能,这些服务目前都是限时免费的。钉钉个人版还推出了 “算粒” 这一 AI 服务计量单位,用户使用 AI 问答、AI 图片将消耗不同数量的算粒,消耗完后可以使用免费的限额次数或者增购算粒。
9.阿里云在魔搭社区推出 AI 视频生成工具 “灵动人像 LivePortrait”
阿里云在魔搭社区推出数字人视频生成工具 Live Portait,只需要一张肖像照片和一段文字或音频,即可生成一段开口说话的数字人视频,例如新闻报道、教学课程等。工具提供轻量模型选择,帮助用户更快速生成视频。
10.vivo 大模型云端方案 vivo_Agent_LM_7B 亮相
vivo 的大模型云端方案 vivo_Agent_LM_7B 在 C-Eval 排行榜上获得第五名,得分为64.4分,与第二名的 GPT-4接近。该方案由 vivo AI 全球研究院自主研发,拥有70亿参数。vivo 在大模型领域的发力将带来智能手机市场的竞争格局变化,同时也推动 AI 技术的发展,为 Jovi 助手带来全新体验。
11.小米仿生四足机器人 CyberDog2配备21TOPS 算力 AI 处理器
小米发布了全新的仿生四足机器人 CyberDog2。CyberDog2进行了全面的技术升级,配备了新一代小米自研高性能电机和19组传感器系统。CyberDog2还配备了高达21TOPS 的算力的 AI 处理器,使其能够进行复杂的智能交互,并更精准地理解和响应人类的行为和情绪。售价为12999元。
12.小米宣布小爱同学、小爱音箱升级 AI 大模型 已开启邀请测试
小米宣布小爱同学已实现全新升级,接入了更强大的大模型。升级后的小爱同学可以答疑解惑、激发灵感、创造艺术,还可以进行角色扮演对话。用户可以在小米社区 APP 中报名参与内测。
13.百度吉利发布 “极越” 汽车机器人品牌 将搭载文心一言等 AI 能力
百度和吉利合作推出汽车机器人品牌 “极越”,旨在打造智能化领先的汽车机器人,提供高阶智驾、智舱产品和创新数字化服务,为用户创造智能科技出行体验。品牌首款车型被命名为 “极越01”。百度将通过自身的智能座舱、智能驾驶和文心一言等 AI 技术能力,为极越全面赋能。
14.上海AI实验室开源“书生·万卷”1.0多模态预训练语料
上海 AI 实验室联合语料数据联盟发布了多模态预训练语料库 “书生?万卷”1.0,包含文本数据集、图文数据集和视频数据集,总量超过2TB。这个语料库经过清洗、去重和价值对齐等处理,具备多元融合、精细处理、价值对齐和易用高效的特点。
15.科大讯飞发布 iFlyCode1.0编程助手 基于星火大模型
科大讯飞在发布会上发布了智能编程助手 iFlyCode1.0,该工具基于讯飞星火 V2.0大模型,具备代码生成、代码补齐、代码纠错、代码解释、生成单元测试等功能。据测试数据统计,iFlyCode1.0在一些典型场景中,代码采纳率达30%,编码效率提升30%,综合效率提升15%。这款工具将大大提升开发者的效率和用户的编程体验。
科大讯飞发布了星火认知大模型 V2.0,新增了代码能力和多模态能力。从测试结果来看,星火 V2.0的 Python 和 C 语言代码编写能力已经接近于 ChatGPT,差距仅为1% 和2%。星火 V2.0还增加了多模态能力,包括图像描述、图像理解、图像推理、识图创作、文图生成和虚拟人合成。
鸿海集团成功获得了英伟达 HGX 服务器 AI 芯片基板的大单,供货比重超过五成,并且已成为英伟达最大的芯片基板供应商。此外,鸿海还获得了英伟达另一款 DGX 服务器 AI 芯片基板的订单。
华为与欧洲机构 ECMWF 合作,利用华为的盘古气象大模型进行天气预报。盘古气象大模型在预测台风路径、寒潮、热浪等极端天气条件方面表现出高效性和准确性。该模型可以提前1小时到7天预报全球天气,已经被广泛使用。
小米最近发布了一个参数规模为64亿的大规模预训练语言模型 MiLM-6B。该模型在 C-Eval 和 CMMLU 上都取得了同尺寸最好的效果。MiLM-6B 在 C-Eval 评估中平均得分为60.2,在不同学科和难度级别上表现出色。
20.OPPO 小布将具备 AI 大模型能力 基于 AndesGPT 打造
OPPO 将基于 AndesGPT 打造全新的小布助手,并开启大型体验活动。小布助手将具备 AI 大模型能力,使其在对话能力和内容创作能力方面更加强大。AndesGPT 是 OPPO 安第斯智能云团队开发的基于混合云架构的生成式大语言模型,结合了中文对话数据的持续学习、指令精调、人类反馈强化学习和知识增强等关键技术。
[国际要闻]
1.微软开源 Azure ChatGPT 支持企业私有化部署
微软开源了 AzureChatGPT,这是专为企业打造的安全版 ChatGPT。它的功能与 ChatGPT 基本一样,但最大的亮点是支持企业私有化部署,企业可以完全掌控数据和网络通信,避免数据泄露给外部机构。Azure ChatGPT 内置数据隐私保护功能,不会与 OpenAI 分享任何数据。
美联社发布了使用人工智能的指南,强调人工智能应作为记者的辅助工具而非取代记者的工具。指南要求记者谨慎使用生成式人工智能平台的结果,并遵守采编标准。美联社承诺不会使用 AI 生成的照片、视频或音频,除非其是新闻报道的主题。
谷歌的一个人工智能团队正在利用生成式人工智能开发至少21种不同的生活建议、规划和辅导工具。这些工具可以将生成式人工智能转变为个人生活教练,帮助用户处理生活中的各种问题和冲突。谷歌已与初创公司 Scale AI 签订合同,测试这些工具的效果。
谷歌的人工智能搜索功能在地理知识方面存在严重问题,无法正确回答关于以字母开头的国家的问题,甚至给出了错误的答案。谷歌承认人工智能搜索仍处于实验阶段,并表示将继续改进和优化。
谷歌照片应用新增了一个 “回忆” 选项卡,为自动生成的照片集合提供专用位置。新增的生成人工智能标题功能可以帮助用户命名照片集合,以更好地总结内容。用户将能够将类似 Instagram Stories 的风格演示中的回忆集合命名。该功能将在美国首先推出,并在未来几个月内全球推出。
6.谷歌的人工智能搜索体验增加了 AI 驱动的摘要、生词定义和编码改进
谷歌今天更新了基于人工智能的对话式搜索模式,添加了一些新功能。其中包括查看生词的定义工具、提高对编码信息的理解以及在浏览时利用人工智能的能力。这些改进旨在帮助用户更好地理解复杂的概念或主题,并提升编程技能。通过悬停在单词上,用户可以预览定义和相关图片,帮助深入了解特定主题。
OpenAI 介绍了使用 GPT-4进行内容审核的方法,该方法可以加快审核速度、降低人力成本,并提供更一致的审核结果。通过给 GPT-4提供审核准则和示例数据集,让其学习并判断内容的合规性。同时,通过与人工审核结果的对比进行分析和改进,可以得到更精确和高效的审核结果。
根据 SimiliarWeb 的数据,OpenAI 的 ChatGPT 在七月份的访问量下降了11.2%。然而,这可能是因为处于暑假期间,学生减少了作业时间。另一方面,谷歌的 Bard 聊天机器人在七月增长了34.5%,但用户规模仍较小。尽管 ChatGPT 的访问量有所下降,但这并不意味着 AI 热潮已经消退。同时,AI 搜索引擎 Perplexity.ai 在六月和七月都有增长,微软的 Bing 也有增长,但整体流量仍无法与谷歌抗衡。
纽约时报近期更新了其服务条款,禁止人工智能公司将其文章和图片用于模型算法训练。这是因为科技公司继续通过 AI 语言应用获取未经授权的大规模数据。新的条款明确表示,纽约时报的内容仅供个人非商业使用,不包括训练机器学习或人工智能系统。违反规定可能会导致法律处罚。
10.微软:Bing Chat 性能优于原始 GPT-4但价格昂贵
微软方面表示,必应聊天功能优于原始的 GPT-4,但这是有代价的。微软使用的是 OpenAI 的 GPT-4,但成本较高,需要多个模型和搜索调用。此外,微软还发布了关于必应聊天基础设施升级的最新情况,升级工作已经完成了99%,即将上线,旨在改善速度和可靠性,并引入新功能,如第三方插件和无搜索功能。
报告称,OpenAI 的人工智能服务 ChatGPT 每天的运营成本高达近70万美元,使公司面临破产的风险。尽管 OpenAI 正试图将 GPT3.5和 GPT-4商业化,但公司仍未实现盈亏平衡。预计 OpenAI 在2023年实现2亿美元的年收入和2024年达到10亿美元的目标似乎难以实现。
12.亚马逊自研 AWS 芯片在生成式人工智能领域追赶微软和谷歌
亚马逊正在通过自研的 AWS 芯片在生成式人工智能领域赶超微软和谷歌。亚马逊的定制芯片 Inferentia 和 Trainium 为 AWS 客户提供了训练和加速大型语言模型的替代方案,解决了 GPU 采购困难和成本昂贵的问题。然而,微软和谷歌已经更快投入更多资金来抓住生成式人工智能商机。
PART2 热门产品
1.Open LLM 榜单再次刷新,比 Llama2更强的「鸭嘴兽」来了
近期,Meta AI 发布了被誉为开源领域最强的大模型 LLaMa-2,它在 Huggingface 的 Open LLM 榜单中取得了不错的成绩。而最新的 Open LLM 榜单中,一个名为 Platypus(鸭嘴兽)的模型登上了榜首。Platypus 同样是基于 LLaMa-2模型进行微调,作者使用了 PEFT 和 LoRA 以及数据集 Open-Platypus 进行优化。Platypus 在 STEM 和逻辑方面得到了增强,并在 Hugging Face Open LLM 排行榜中表现优秀。
2.GPT-4大杀器谷歌 Gemini 来袭,祭出类 Midjourney 生图能力
据 TheInformation 爆料,谷歌已集结数百工程师团队,全新大杀器 Gemini 结合了 GPT-4、Midjourney、Stable Diffusion 三大模型的能力,即将于今年秋天上线。Gemini 不仅能进行文本对话,还具备类 Midjourney 生图的能力,可以生成图像。
该篇文章介绍了10个最火爆的 AI 音乐生成工具,包括 Magenta Studio、WavTool、BOOMY、AIVA、Orb Producer3、Soundful、Loudly、Ecrett Music、AI Studio 和 TuneFlow。这些工具通过人工智能技术实现音乐创作和生成,为独立音乐人和创作者提供了创作灵感和节省制作时间的途径。这些工具提供了丰富的功能,如旋律转化、鼓填充音生成、随机音乐生成、声音连接等,帮助用户轻松创作出高质量的音乐作品。
AI Town 是一个开源的虚拟城镇,AI 角色可以在其中生活、聊天和社交。它提供了一个强大的基础平台,支持共享全局状态、事务和事件日志记录,适用于从简单的项目到可扩展的多人游戏。用户可以根据自己的需求和喜好,定制和扩展 AI Town 的各个方面,包括角色、故事和环境等。
5.AI 换脸神器 roop: 提供一张脸部图片实现视频一键换脸
roop 是一个使用 Deepfake 技术的工具,可以让用户在视频中替换面孔。与传统的 Deepfake 方法不同,roop 不需要大量的数据集或复杂的训练过程。用户只需提供一张所需脸部的图像,roop 就可以通过计算机视觉和人脸识别技术将该图像应用到目标视频中。roop 还支持多种帧处理器,保留原视频特性,处理多个面孔,自定义参考面孔位置等功能。
FaceChain 是一个用于生成数字孪生的深度学习工具链。用户只需提供至少1张肖像照片,就可以使用 FaceChain 的 Python 脚本或 Gradio 界面进行训练和生成照片。FaceChain 依赖于多个模型进行训练和推理,包括人脸检测模型、图像旋转模型、人体解析模型等。
7.GPT-4新应用Rewind :让 GPT-4能穿梭时空,过目不忘的私人 AI 助理
文章Rewind 是一款结合了 GPT-4能力的时空搜索工具,每月12刀可获得一个过目不忘的 AI 助理。该应用帮助用户寻找过去在 iPhone 和 Mac 上浏览过的所有数据,并以此为基础回答问题。用户可以通过 APP 的时间线浏览以前的浏览记录,并使用搜索功能查找具体内容。Rewind 还利用 GPT-4的能力,针对用户的浏览历史回答提问,并提供相关链接。用户数据只保存在本地,不上传到云端。
8.Meta 华人提出语言模型 Shepherd 用于评估模型生成
Meta AI 最近提出了一种名为 "牧羊人"(Shepherd)的语言模型,用于评估其他模型生成的文本并给出改进建议。该模型使用了约70亿个参数,并通过社区反馈和人工标注的数据集进行训练。牧羊人模型在与其他竞争模型比较时表现出较高的胜率,平均为53-87%。
9.字节大模型新进展:首次引入视觉定位,实现细粒度多模态联合理解
字节跳动的大模型 BuboGPT支持文本、图像和音频三种模态,并能够实现细粒度的多模态联合理解。BuboGPT 能够通过视觉定位、声音定位等方式,准确判断图像和音频的来源以及相互之间的关系。该模型还能够根据图像描述指出图中对象的具体位置。
10.文字生成3D 模型 CSM 支持文本、图像、视频转3D
美国公司 CSM 推出了一款支持使用 AI 从视频、图像或文本创建3D 资产的服务。用户只需上传一张2D 图像,即可获得对应的3D 模型。CSM 的网页版本已于今年6月底发布,用户可以在官网上免费体验该服务。上传图像后,模型会很快生成,用户可通过下载按钮保存模型文件。
11.Stability.ai 宣布推出生成式 AI 产品 Stable Chat
Stability.ai 宣布推出了一款生成式 AI 产品 Stable Chat,该产品基于开源大语言模型 StableBeluga1/2开发而成。Stable Chat 具备推理、数学解答、生成创意文本、文本翻译、提取摘要、知识问答等多项功能,支持中文、多轮连续问答和文本响应迅速等技术亮点。用户可以通过免费账号或 Gmail 帐户直接登录使用。
12.数学能力超 ChatGPT,70B 开源大模型火了:用 AI 微调 AI,微软全华班出品
微软最新开源大模型 WizardMath 在数学能力上超过了 ChatGPT 等一众大模型。经过 GSM8k 数据集测试,WizardMath 的数学能力位列第5名,仅次于 GPT-4、Claud1.3和2.0,以及 PaLM2-540B。WizardMath 是通过用 AI 生成的指令来微调羊驼大模型得到的。作者使用了 Evol Instruction 这一新方法,通过 AI 自动生成涵盖各种难度级别的开放域指令。
PART3 观点
1.Gartner 技术成熟度曲线显示:生成式 AI 处于 “过热期” 峰值
根据2023年 Gartner 新兴技术成熟度曲线(Hype Cycle)显示,生成式人工智能位于 “过热期” 峰值位置。生成式人工智能受到过高期望的影响,存在厂商的误导宣传和市场的混乱。下一步将进入 “幻灭低谷期”,但仍有争议是否能为企业和社会带来长期价值。
2.报告称67% 的 IT 领导者表示 AI 可以提高员工效率
根据 AMD 进行的一项调查,67% 的 IT 领导者认为人工智能(AI)可以提高员工效率。这一结果对于许多人来说是好消息,因为在快速变化的世界中,许多人担心 AI 会取代 IT 工作者并导致他们失业。调查还发现,超过50% 的 IT 领导者还没有尝试过最新的自然语言处理(NLP)应用程序,这表明他们对 AI 的采用持乐观态度。
本文指出大型语言模型(LLM)在企业使用中存在挑战,而较小的语言模型更适应企业需求。较小的语言模型可以在安全环境中操作和训练,速度更快、准确性更高。较小的语言模型可以基于企业敏感数据进行定制,与其他数据集结合使用,为企业提供更有价值的洞察力。
据报道,科学家谢卡尔?曼德博士在一次讲座中指出,专家预测人工智能将是人类灭绝的首要原因,其次是核战争和类似新冠病毒的病毒传播。
最近的研究发现,人们更喜欢由人类创作的艺术而非由人工智能生成的作品。实验表明,人们更倾向于欣赏具有强烈叙事性的由算法生成的图像。而当人们相信艺术的创作付出了努力时,他们更容易欣赏艺术作品。
加州大学欧文分校的研究团队发现,机器人在解决验证码方面的准确性和速度超过了人类。尽管验证码技术不断进化,越来越复杂,但破解验证码的技术也得到了极大改进。研究结果显示,机器人的准确率高达99.8%,远高于参与者的准确率。
王小川指出,大语言模型如 ChatGPT 已经实现了 “读万卷书”,但缺乏来自线下的经验,即 “行万里路”。长时间坐在电脑面前的工作如平面设计、程序员等,都可能被 AI 取代,因为现在几行指令就能够完成相应工作。然而,如果工作需要采风、采点、与他人交流,被 AI 取代的风险就会降低。
8.郭明錤:AI/AIGC 已是明确的趋势 产业的变化将会创造新赢家与输家
郭明錤表示,AI/AIGC 已成为明确的趋势,但产业的变化将会创造新赢家与输家。虽然有报道称人工智能公司 OpenAI 可能会在2024年底破产,但郭明錤表示不用担心。他指出,若 AI/AIGC 无法创造可持续获利的商业模式,产业对其投资可能会放缓。
报告预测,全球合成数据生成市场在2031年将以35.8% 的复合年增长率达到35亿美元的规模。合成数据生成市场的增长受到数字化转型和人工智能等先进技术的推动,以及对物联网和连接设备的需求增加的影响。
研究发现,与就读于精英大学的学生相比,AI(ChatGPT4)在创造新产品创意方面的效率提高了40倍,创意质量也相当不错。另一项研究显示,ChatGPT4在著名的托伦斯创造性思维测试中排名前1%,击败了99% 的人类。
PART4 深度
在 WAVE SUMMIT 大会上,百度展示了文心大模型、飞桨平台等一系列技术和产品。文心大模型通过插件机制和知识增强技术,实现了更好的理解生成能力,并与百度搜索、览卷文档、一镜流影、说图解画、E 言易图等插件进行整合,实现了更多场景下的应用。飞桨开源框架在大模型训练、推理和多硬件适配方面进行了升级,提高了文心大模型的训练和推理效率。
淘宝 App 上线了面向 C 端的 AI 装修产品 “真能造”,用户上传空间照片后可免费生成10种风格的装修设计图。同时,淘宝天猫宣布开放试测了两年的 AIGC 和3D 技术,帮助商家降低内容制作成本,并提高生产效率。AI 技术在家装行业中的应用可以减少用户的装修成本和周期,提高装修方案的效率。AI 装修工具可以根据用户上传的照片一键生成装修设计图,并提供购买相关商品的链接。
3.谷歌:大模型不仅有涌现能力,训练时间长了还有「领悟」能力
谷歌的研究表明,大模型在训练到一定时间后会出现「领悟」现象,即从开始只会「记忆训练数据」转变为对没见过的数据也表现出很强的泛化能力。研究人员在训练微型模型时发现,模型的权重会在训练过程中出现周期性变化,这是模型从记忆数据转变为具有泛化能力的关键。
华为成为手机行业中首个给出大模型具体落地时间表的厂商,预计在8月下旬开放测试其内置的语音助手小艺,成为首个具备 AI 大模型能力的智能助手。华为 Mate60系列也将搭载大模型能力,成为对抗苹果 iPhone15系列的卖点。相比之下,苹果对大模型的开发相对谨慎。
本文介绍了三个利用 AI 进行引流和小生意的新玩法。利用 AI 工具预测胎儿长相,在小红书、淘宝等平台上提供服务,吸引宝妈粉进行购买,进而引流到私域,后续赢利点丰富。利用 AI 制作老人祝福号,在视频号上分享祝福视频,吸引中老年客户,后端销售养生、保健品等产品。卖 AI 防封二维码服务,利用 AI 绘画工具将普通二维码美化,可以躲避平台检测,可用于引流和个人使用。
6.GPT-4只是 AGI 的火花?LLM 终将退场,世界模型才是未来
人类距离 AGI 还有多远?中将 AGI 大致定义为一个「能够理解世界的模型」,而不仅仅是「描述世界的模型」。他认为,人类要想真正达到 AGI 的世界,就需要建立一个「能够质疑自身现实、能够自我探究的系统」。而这个伟大的探索过程中,也许谁都没有资格和能力来给出一个具体的路线图。
7.1分钟毛坯房变精装修,AIGC 如何改变4万亿家居产业链?
AI 在家居设计软件中的应用,主要体现在提升出图效率、提供设计灵感、智能纠错等三个方面。随着 AI 技术的不断进步,室内设计师可以利用 AI 家居设计软件快速生成装修效果图,节省时间和提高效率。AI 工具还可以应用于家具厂商和定制厂商的门店销售和线上营销,提供更直观的设计展示,提高顾客的购买决策速度。AI 在家居设计领域的应用有助于降低设计门槛,突破产业链的成长限制,并实现个性化定制设计。
近期,国内大模型创投市场进入了 “无公司可投” 的阶段。创业者面临着越来越难以获得新一轮的大额融资,而投资人则难以找到适合的项目。随着大模型赛道的热度逐渐消退,市场资源有限且时间窗口短暂。明星公司的估值飙升,其他创业公司的资源竞争也变得激烈。而对于投资方来说,大模型创业的高估值意味着更高的成长预期和盈利压力,投资选择变得更为保守。大模型创投界正逐渐进入第一波冷静期。
9.AI 产生自我意识,「古墓丽影」劳拉觉醒!电子游戏革命来了
一位外国 up 主,用 ChatGPT 给 AI 智能体注入了自我意识。产生「生命」的劳拉觉醒了,开始自己在「古墓丽影」中闯关。或许在未来,电子游戏角色可以被赋予更深、更灵活的个性,对环境做出更快的反应,以及许多我们无法想象的变化。
(举报)