查看原文
其他

从OpenAI开始的AI爆炸周,现在终于轮到腾讯秀肌肉了

卷毛 月山橘 AI新榜
2024-09-24


作者 | 卷毛 月山橘‍‍‍‍‍‍
编辑 | 张洁

继OpenAI和谷歌接连深夜炸场,字节把大模型的价格打下来后,腾讯也迫不及待秀出了肌肉。

5月17日,在腾讯云生成式AI产业应用峰会上,腾讯公布了一系列产品研发进展:

腾讯混元大模型能力持续升级,三大版本将面向产业客户和个人开发者全面开放接入;


腾讯一站式AI智能体创作与分发平台“腾讯元器”正式发布,即日起开放申请体验;


腾讯混元大模型面向个人的助手App“腾讯元宝”将于5月30日发布;


腾讯云推出大模型原生工具链,三大引擎工具助力企业高效开发AI应用。


此外,面向企业客户和开发者,腾讯还发布了多款开箱即用的SaaS产品,腾讯云TI平台、向量数据库等AI开发工程能力也全面升级。


腾讯元宝+元器,

AI搜索和智能体全拿下


此前,腾讯混元助手只能在微信小程序或网站(https://hunyuan.tencent.com/bot)上使用,很快手机端App也要上线了。


在本次大会上,腾讯宣布将于5月30日推出混元大模型面向个人的助手App“腾讯元宝”

据介绍,这是一个基于混元大模型及搜索引擎驱动的高效信息整合工具,界面设计简洁,可以搜索实时信息,可以对上传的多格式文档进行总结、翻译,也可以语音对话练习口语。


看来AI搜索大战即将迎来一位重磅选手,有腾讯内容生态支持的AI助手App,到底表现如何?“头号AI玩家”后续将跟进评测,欢迎关注。

除了腾讯元宝,腾讯还发布了另一个名字相呼应的产品腾讯元器

腾讯元器是基于混元大模型的一站式AI智能体创作与分发开放平台,用户可以通过提示词、插件、工作流、AI辅助创建等能力,低门槛创建专属AI智能体。


同时,腾讯元器预集成了腾讯生态特色插件、知识库资源,还将开放第三方能力,为创作者提供开箱即用的工具。

创建好的智能体还可以发布到QQ、微信、腾讯云等腾讯全域分发渠道,优质智能体有机会获得流量扶持

可以看到,AI智能体的市场竞争激烈,腾讯元器、字节的扣子、OpenAI的GPTs等智能体平台都在争夺开发者和用户,期望构建起基于自家大模型的繁荣生态。

即日起腾讯元器可通过官网申请体验: https://open.hunyuan.tencent.com/my-creation

“头号AI玩家”在第一时间拿到了内测资格,在智能体商店页面,共有人物角色、效率工具、休闲娱乐、游戏消遣、生活助手、情感帮手等6个类别。


比如问问“高情商Bot”,怎么礼貌地跟老板拒绝周末加班?

(以一种温和而坚定的语气)老板,我理解有时候项目紧急需要我们牺牲休息时间来加班。但是,我也相信工作与生活的平衡对于保持工作效率和个人健康都是非常重要的……


还可以让智能体专家解析一下姓名“甄嬛”,从这个回答来看,合理怀疑混元已经偷偷过了10次情关。


“甄嬛”这个名字就像一幅美丽的画卷,展现了一个既聪明又善良的女性形象。这个名字的主人可能在生活中表现出极高的智慧和情商,能够在复杂的人际关系中游刃有余。



想要自己创建一个智能体,操作也很简单。输入名称、简介就可以AI生成头像,再借助AI生成详细设定,包含角色、技能、原则等,右侧预览页面可以输入问题进行调试。



比如我们创建了一个“土味情话bot”,基本拿捏了土味的精髓,文艺中夹杂着油腻。



在发布页面,可以看到腾讯元器支持推送到QQ、微信客服、小程序、公众号,不过需要经过平台审核才能向所有人开放。




混元大模型全面升级,

视频生成可达16秒


自2023年9月亮相以来,腾讯自研的混元大模型持续迭代升级,率先采用混合专家模型(MoE)结构,推动了性能提升和推理成本下降。据介绍,混元在中文表现尤其是文本生成、数理逻辑和多轮对话上性能表现卓越。


在文本生成方面,混元提升了“时新”问题的回答表现。比如“秦岭棕色大熊猫最近一次是什么时候被拍到”这个问题,混元能准确回答最新的时间,而ChatGPT只能根据新闻信息来回答。


在数学、推理能力上,混元也有大幅提升。比如1、4、5、6这四个数字算24点,ChatGPT用基本的减法和乘法算错了,而混元运用减法、除法和括号组合计算得出了24。


而目前大热的多模态领域,也是腾讯混元正在积极探索的一个方向。

在大会前几天,腾讯刚刚宣布混元文生图大模型全面升级并对外开源,其采用了与Sora一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。

腾讯文生图负责人芦清林今天在接受媒体群访时表示,文生图从Stable Diffusion改成DiT后有更好的扩展性,语义表达能力会更强,可以容纳更多的信息量。


ChatGPT支持通过文字指令对图片进一步修改,混元如今也能通过多轮对话对生成的图片进行局部修改,比如给图片中的兔子戴上一个红帽子,其主体和背景都能保持基本一致。



同时,混元文生图支持生成高质量的2D、3D游戏画面,也可高效合成商品素材,目前已在广告场景投产,能够为客户节省制作成本。



单图生成3D模型只需30秒,在动漫、汽车、建筑等产业已有不少应用。



混元目前还未向C端用户开放视频生成能力,据腾讯副总裁、腾讯混元大模型负责人蒋杰介绍,混元生成视频的分辨率和运动幅度都优于Pika和Runway



腾讯混元和清华大学、香港科技大学在今年3月联合推出图生视频模型“Follow-Your-Click”,带来了新的交互方式。基于输入模型的图片,只需点击对应区域,加上少量提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。 



混元的下一代视频模型,正在基于ST-DiT全面升级架构,目前可以生成时长达16秒的视频,Q3预计可以达到30秒



芦清林提到,现在最大的技术难点在于不同的模态之间是不对齐的,就像视频和音频如果想用一个模型同时生成的话会有很大的混淆,腾讯混元团队正在解决多模态的对齐问题。



面向开发者开放三大版本,

文生文模型即将开源


开放,是本次大会的关键词之一,围绕混元大模型,腾讯云正在做大生成式AI产业生态。


据大模型评测机构SuperCLUE最新发布的《中文大模型基准测评2024年度4月报告》,腾讯混元大模型位列国内大模型第一梯队,处于卓越领导者象限。


目前混元已扩展至万亿级参数规模,在基础的大模型能力上,腾讯混元这次推出了三个灵活的模型规模版本,分别为混元hunyuan-pro、hunyuan-standard、hunyuan-lite,通过腾讯云面向企业、个人开发者全面开放


根据不同业务需求,开发者可选择最适合的模型。其中最大的混元hunyuan-pro是目前混元模型的效果最优版本,上下文长度最高达32k tokens,可用于复杂的文本创作、逻辑推理、数学计算、智能NPC、专业领域等应用场景。


腾讯云副总裁、腾讯云智能负责人吴运声在谈到近期行业出现的“价格战”趋势时表示,腾讯更关注大模型能力的提升,致力于为行业提供能力和价格兼具的产品。


在本次大会上,腾讯还宣布将在今年三季度开源混元最核心的文生文模型


腾讯内部正在训练三种尺寸(S、M、L)的文生文模型供开源使用,S版主要部署在手机端,拥有3B参数量;M版主要部署在PC端,参数量为5B;L版主要部署在云/数据中心,是30B参数量的MOE架构模型。



此外,腾讯云还推出了三款PaaS产品:“大模型知识引擎”“大模型图像创作引擎”和“大模型视频创作引擎”,旨在简化大模型的应用,推动产业AI的普及。


大模型知识引擎将大模型知识问答能力升级,简化了数据工程、模型精调和应用开发的流程,提供包括文档解析、向量检索和多轮改写,以提升企业知识问答的准确率和查询效率。目前,腾讯云的大模型知识引擎已在政务、金融、教育等多个行业得到应用。

图像创作引擎提供AI图像生成与编辑能力的API技术服务,可基于文本或图片智能创作图像内容,包括图像风格化、AI写真、商品背景生成和线稿生图等,以满足不同行业场景的需求。

视频创作引擎提供视频生成和处理能力,支持视频转译、风格化、图像跳舞、人脸融合等,适用于短视频平台、影视制作等场景。


目前,混元大模型已在腾讯600多个业务场景中得到应用,并通过公司生态不断优化。


面向C端用户的如微信读书基于混元大模型推出AI问书、AI大纲等新功能,大大提升了用户的阅读效率和体验。腾讯客服则通过模型升级,显著提高了智能对话的准确性和效率,日处理用户请求量达150万次。




面向B端的如腾讯广告的AI创意平台“妙思”借助混元大模型提高了广告效率,腾讯会议的AI助手也通过模型优化提升了会议效率,其使用量四个月内增长了20倍。


“大模型的打造只是起点,把技术落地到产业场景,创造价值才是目标。”腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生说道。





「头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。


欢迎分享、点赞、在看

 一起研究AI

继续滑动看下一个
AI新榜
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存