来源:极客公园

体验完字节所有的 AI 产品,杀手级 应用可能比想象中更远  第1张

  字节跳动在 AI 时代的动作非常坚决,正在以火力覆盖的方式寻找下一个超级应用。

  作者 | 连冉 编辑 | 郑玄

  字节的豆包,悄悄成了国内用户最多的原生 AI 应用。

  最近一场活动上,字节跳动产品和战略副总裁朱骏透露:5 月中,豆包的月活已经达到 2600 万。目前,豆包 APP 下载量超 1 亿,平台上创建的智能体数超过 800 万。从月活来看,豆包已经超过了今年以来大火的 Kimi Chat 和百度文心一言。

  虽然字节的豆包大模型(原云雀大模型)去年 8 月才推出,但不到一年时间,无论是从模型层还是应用层的发布来看,字节跳动都已经成为发布数量最多的公司——据极客公园不完全统计,到目前,字节跳动已经有 11 款 AI 产品。

  与以往在 XR、地产、教育、SaaS 等领域启动新业务线的‘高调’不同,在生成式 AI 爆火的一年半里,字节跳动的打法可以用一个古代行军打仗的成语来形容:就是‘衔枚疾进’。

  一方面,字节搭建了有着全明星阵容的技术中台,并推动各个业务线尝试拥抱 AI,还组织多个新团队探索各个领域的原生 AI 应用。另一方面,与投入的力度相比,字节在 AI 领域的发声却极其低调。在今年 5 月之前,只有飞书发布了一个智能体相关的新应用。而据极客公园了解,去年字节曾有多个团队希望发布 AI 产品,但都被高层压了下来。

  低调不代表没有实力,实际上在不少行业人士眼中,字节就被认为是国内最有可能在这波技术浪潮里做出杀手级大模型或原生 AI 应用的国内大厂。原因至少有四:

  字节在 AI 领域有很强的积累,其本身是全球最早将 AI 技术大规模用于信息分发,并在过去几年里积累了海量的 GPU 算力资源。

  作为移动互联网时代的连续依靠今日头条、抖音等产品突破国内 BAT 天花板的创业公司,字节有着国内最顶尖的产品研发和运营团队。

  作为今日头条、飞书、抖音、番茄小说等产品的母公司,字节跳动拥有庞大的用户基础和内容生态,积累了海量的优质数据。

  后者的重要性不言而喻,它是推动 AI 技术发展和应用的关键“燃料”。

  最后也是最重要的一点:

  背靠抖音的字节有着国内甚至全球最优质的流量池。很多创业者梦寐以求的百万千万日活,对字节来说‘轻轻’推一下就能达成。

  这就像当年游戏行业的腾讯,字节不用担心流量,只需要做出好产品即可。

  毫无疑问,字节是国内原生 AI 应用的种子选手,这或许也是字节选择‘衔枚疾进’的原因。而进入 5 月,随着豆包大模型的发布,字节的 AI 战略显然要进入下一阶段。在这个时间节点,极客公园梳理并体验了目前字节所有已经公布的 AI 产品,希望通过这种方式探究这些产品背后的思维方式,并借此窥见字节全盘 AI 战略的一角。

  火力覆盖:不错过

  任何一个品类 

  穷则精准打击,富则火力覆盖。后者用来形容字节在 AI 应用领域的战略再恰当不过。

  据极客公园不完全统计,去年 8 月至今,字节跳动在 AI 领域一共推出了 8 款大模型、2 个智能体开发平台,和接近 20 个原生或基于现有产品的 AI 应用。

  如下图所示,极客公园对字节跳动目前的 AI 产品进行了分类整理:

体验完字节所有的 AI 产品,杀手级 应用可能比想象中更远  第2张

  整体来看,字节的 AI 产品体系覆盖了最基础的模型层、开发 Agent 的中间层,以及落到产品层面的应用层。其中模型层和中间层都比较常规,应用层则呈现出非常明显的多元化,可以说是百花齐放。

  根据极客公园的统计来看,在已经公布的产品中,字节已经覆盖了聊天、社交、图像/视频、教育、音乐等领域,其中既有 Dreamina、CodeGen 等偏生产力的工具型产品,也有猫箱(原话炉)、豆包这种更 ToC 的应用。

  在产品层面,字节基本上不会错过任何市面上比较热门的品类,上述产品基本都可以在市场上找到对标。比如 AI 对话类产品豆包,有 ChatGPT、文心一言和 Kimi;AI bot 开发平台扣子,则对标 GPTs;‘猫箱’(原‘话炉’)对标的是 MiniMax 的‘星野’;教育产品 Gauthmath,类似的有猿辅导的数学学科产品;还有海绵乐队,海外的 Suno 和国内昆仑万维的天工都是同类产品。

  可以看出,在过去一年,字节正在复现移动互联网时代‘App 工厂’的魄力,技术和产品团队一直在迅速前进。

  产品体验:

  字节想做什么? 

  极客公园按图索骥,体验了一圈字节的产品。这里我们挑选了三个比较有代表性的产品和大家重点聊一下:分别是豆包、‘猫箱’和剪映‘即梦 Dreamina’。

  豆包

  豆包是字节跳动基于豆包大模型(原云雀大模型)开发的 AI bot,可以看到豆包有辅助写作、图像生成、AI 搜索、PDF 问答、翻译、网页摘要等诸多基础功能。下载桌面版后,还可以开通设置权限,让桌面上的每一个应用都接入 AI。

体验完字节所有的 AI 产品,杀手级 应用可能比想象中更远  第3张

  在豆包上,可以自行创建各式各样的智能体。字节跳动产品与战略副总裁朱骏此前在发布会上提到,团队成员在豆包上捏了一个英语老师的智能体。除了用自然语言定义了‘这个老师需要用英文对话,并且在对话中随时指正用户的语法错误’这个功能,也定义了该成员自己喜欢的声音和形象。平时在路上和‘他’用语音消息的方式对话,回到家还会用实时通话模式来模拟英语口语对话。

  从笔者个人的使用体感来看,字节跳动的豆包与百度的文心一言并没有太大区别,只是目前,豆包的使用还是免费的,这在一定程度上降低用户的尝试和使用成本,而文心一言则已经需要付费才能调用文心大模型 4.0 并解锁高级功能,

体验完字节所有的 AI 产品,杀手级 应用可能比想象中更远  第4张

  进一步的体验中,豆包的 TTS 语音技术令笔者眼前一亮。在创建智能体时,只需朗读一小段文字,即可即刻生成与自己声音别无二致的智能体。

体验完字节所有的 AI 产品,杀手级 应用可能比想象中更远  第5张

  在对话中,豆包上的智能体在回复时会在括号里加点语气词来模拟真人的说话语气,互动更自然。

体验完字节所有的 AI 产品,杀手级 应用可能比想象中更远  第6张

  这一点背后是字节跳动很早对很大力度优化语音交互体验的投入,包括基于大模型的 ASR 和超自然的 TTS 音色,这些都是为了尽量做到类似和真人对话的感受。

  豆包几乎是国内最早确立语音交互入口作为默认交互界面的大厂,后来其他公司陆续跟进了这一功能。

  猫箱

  ‘话炉’是一款以 AI 角色为核心的社交应用,同样由抖音豆包大模型驱动,和豆包数据互通。4 月 11 日,‘话炉’改名为‘猫箱’。

  ‘猫箱’的特点在于其高自由度的互动内容和由用户决策影响的故事走向,这给了用户一种全新的社交娱乐方式。

  在猫箱的体验中,一进入应用,笔者就被推荐了一系列 AI 角色,他们各具特色,让笔者迫不及待想要开始对话。

  ‘猫箱’支持文字和语音两种输入方式,这让交流变得更加自然和便捷。在与 AI 角色的对话中,笔者发现笔者的每一个决策都会影响故事的发展,这种参与感让人仿佛置身于一个真实的故事世界中。每一次选择都可能导致不同的故事走向,这种体验起初让笔者感到乐此不疲。

  如果用户对当前的虚拟角色感到乏味,‘猫箱’提供了一个简单而直观的解决方案:只需轻轻一划,就能刷新出全新的虚拟伙伴。这种类似抖音上下滑动短视频的设计,‘以前刷短视频 现在刷智能体’,让笔者体验到了从言情到玄幻、从猜谜游戏到日常闲聊的多样化聊天乐趣,每一次刷新都是一次全新的探索。

  但新鲜感很短暂。初见各具特色的 AI 角色,对话下来发现大同小异,它们的回答和反应模式逐渐显露出一种机械化的重复性,缺乏真实人类交流中的复杂性和不可预测性。尽管语音输入是比打字省事多了,但讲话讲久了,不自觉期待一些其他的玩法。很遗憾,现在还没看到。

  尽管‘猫箱’的语音输入功能确实为交流带来了便利,让笔者能够更自然地与 AI 角色对话,但长时间的交流后,笔者开始渴望更多的互动方式,期待能够通过更多元化的玩法来丰富这种交流体验,遗憾的是,在目前的版本中,更有新意的功能还未出现,这让笔者对这款 APP 的长期吸引力产生了疑问。

  人真的有这么多话可以说吗?在跟一个纯粹虚幻的 AI 产品对话的过程中,得到的快感有多少?这样的产品吸引力能持续多久?

  疑问过后笔者强迫自己多刷了好一会儿,可能因为在霸总频道停留的时间略微久了一点,‘猫箱’给笔者推荐的霸道总裁越来越多了。

体验完字节所有的 AI 产品,杀手级 应用可能比想象中更远  第7张

  这一点跟抖音的个性化推荐别无二致,但区别在于,‘猫箱’并不能查看各个 AI 角色的互动数据,比如点赞、转发和评论数。而这些互动机制是抖音平台设计的一部分,让用户能够发现和观察内容的热度,也让平台能够了解哪些内容受欢迎,并据此进行内容推荐。

体验完字节所有的 AI 产品,杀手级 应用可能比想象中更远  第8张

  虽然也支持对外分享,但目前页面设置来看,一方面,‘猫箱’似乎更倾向于私人化体验,用户可能无法看到其他人在玩什么,社交性不足,交流有所受限,但这样的设计也减少了社交影响,让用户的注意力能够更集中在互动本身;另一方面,相比用户之间的社交互动,‘猫箱’可能更强调用户与 AI 角色的互动,这种设计看起来是在进行一些 AI 原生的人机交互探索。

  在这样的前提下,要让用户爱上使用这个产品,想来就更考验 AI 角色本身的交互性以及内容的创造性了。

  即梦 Dreamina

  前段时间,字节旗下 AI 创作平台‘即梦 Dreamina’的视频生成功能也开放测试。笔者上手体验了一下。

  可以看到‘即梦 Dreamina’的页面非常简洁,主要有 AI 作图、AI 视频两大功能分区。

体验完字节所有的 AI 产品,杀手级 应用可能比想象中更远  第9张

  不过从侧边栏看,AI 工具有:图片生成、智能画布、视频生成以及尚未开通的故事创作四项。

  笔者这次主要体验了视频生成功能,先试文本生视频,输入了一段简短的文字:

体验完字节所有的 AI 产品,杀手级 应用可能比想象中更远  第10张

  可以看到有随即运镜、推进、拉远、顺时针旋转以及逆时针旋转 5 种镜头运动,16:9、4:3、1:1、3:4、9:16 5 种视频比例以及慢速、中速、快速 3 种运动速度。

体验完字节所有的 AI 产品,杀手级 应用可能比想象中更远  第11张

  生成视频需要 12 积分,系统每天会赠送 60 个免费积分。

  等待了约两分钟后,‘即梦 Dreamina’给笔者生成了一个 3 秒的视频。在这短短的三秒中,画面中的金色短发女生看起来是通过转头、叹气以及眼角似有若无的泪水表达了伤心以及思考。

  可以看到在生成视频下方有三个创作选项:再次生成、重新编辑和延长 3 秒。再次生成同样需要花费 12 积分。延长 3 秒要开通 69 元的月度 VIP 才可以。

体验完字节所有的 AI 产品,杀手级 应用可能比想象中更远  第12张

  69 元的会员权益包括单月 505 积分,下载无水印视频以及延长视频生成时长、第多种音色以及视频对口型。

  由于笔者先没有开通会员,只是又花了 12 个免费积分重新生成了一个 3 秒的视频:

  这一次生成的视频自动从侧面转向正面,但是视频中女主的右眼双眼皮好像有点不利索,眨巴的速度轻微落后于左眼,感觉还不如第一次生成的符合预期?

  充个会员看看给出的效果能不能好点?

  这是笔者输入的文字提示词:春江花月夜,一个身穿旗袍的盘发女子,正走在苏州河畔,她好像迷路了,正好有人走过,她走上前问路,那人却不耐烦地推开了她。

  这是笔者花了 69 元开了会员,使用了延迟 3 秒以及对口型(需要花费 36 积分)等会员功能后生成的视频,总体还是怪怪的不说,后半句的文字内容也没有呈现出来。

  从目前生成的效果来看,‘即梦 Dreamina’能吸引到的可能也就是那些对视频创作感兴趣但可能缺乏专业技能的用户群体。平台通过积分系统和会员服务,提供了一个激励机制,试图鼓励用户进行创作并为增值服务付费。但从现在生成视频质量的稳定性与精细性来看,‘即梦 Dreamina’背后的 AI 算法还需要不少优化。

  ‘人盯人防守’下,

  创新还未出现

  从去年 8 月推出豆包大模型(原云雀)以来,不到一年时间,字节跳动已经推出了 11 款 AI 产品,覆盖 Agent 定制、聊天、社交、图像/视频、办公、教育、电商内容创作、音乐、教育以及代码生成等领域,基本覆盖了当前应用层创业的主流方向——可以说,目前所有的产品范式,都有字节参与的身影,几乎是采用了‘人盯人防守’的打法。

  同时,字节内部很可能也存在一个国内国外双轮驱动的产品发展战略:即通过在海外市场先行测试产品,验证 PMF 和提升产品与技术的匹配度,以利于在国内推出更成熟的 AI 应用,保持市场竞争优势。目前在国内市场上,字节跳动依托自主研发的‘云雀’大模型提供技术支撑,而在国际市场上,则至少部分采用了基于 GPT 的技术服务。

  比如 AI 对话类产品豆包,海外版为 Cici ;对标 GPTs 的 AI bot 开发平台扣子,海外版为 Coze;AI 角色交流工具‘话炉’,海外版为 BagelBell;AI 工具合集‘小悟空’,海外版本为‘ChitChop’……

  字节跳动的优势在于它在移动互联网时代,积累下的最多的数据,最多的流量,以及较多的算力,但它目前并没有展现出与 OpenAI 所不同的明确看准的下注方向,而在全面的确保不掉队,能跟上。

  同时,作为产品大厂,字节在产品上也在探索 AI 原生功能,比如‘猫箱’目前似乎更倾向于私人化体验,用户可能无法看到其他人在玩什么,在设计上可能更强调用户与 AI 角色的互动,而不是用户之间的社交互动。

  几轮体验下来,可以感觉到现阶段,这些产品整体并不成熟,这点在我们与业内人士的交流中也得到了印证。换句话说,尽管这些产品或服务在概念上具有创新性,但实际的吸引力却并不如预期。一些智能体给出的场景设定或许有趣,但反馈多依托于用户的聊天技巧,如果用户不能很好地设置或者调动智能体,使用体验感多会低于预期。

  从用户的角度来看,目前市场上‘猫箱’这类的 AI 对话产品在功能上看起来颇为相似,无论是角色扮演还是对话交流,大多数都依赖于文本或多模态交互。

  在与这些 AI 产品交流时,感觉似乎是在进行一场单向马拉松,不断地输入内容,却只能得到单维度的回应。这种‘高交互、低媒介’的模式,要求用户投入大量的精力,却不一定能得到同样丰富的反馈。

  如果产品继续沿着这一路径发展,其潜在的用户规模将受到限制。这是因为大多数用户要么不愿意投入太多努力,要么缺乏通过多轮对话来展开有深度内容的能力。

  从对话历史记录中可以看出,如果想要获得更好更有趣的回复,用户需要具备一定的聊天技巧,比如在对话中加入动作表情或描述性词汇。然而,大多数用户并不具备这样的表达或陈述能力。

  但目前的这种形态也正是用户最易于接受的,用户不太可能直接与一个复杂的大模型互动,或者仅仅通过一个简单的对话框就能充分体验 AI 的功能。必须得给用户一个有基本设定、有情感代入、有基础形象的一个产品形态,用户才能够上手。

  未来,如果 AI 对话产品想要扩大其用户基础和市场影响力,就需要考虑如何降低用户与产品交互的门槛,同时提升媒介的互动性和反馈质量,从而吸引更广泛的用户群体。

  而豆包等产品上的智能体,虽然通过强大的语言处理能力和持续学习特性,为用户提供了从知识获取到文本创作的全方位服务,甚至已经后来者居上,月活一度超过文心一言,但该产品同样面临着行业内普遍存在的挑战,即如何在同质化中突围找到核心竞争力,毕竟类似的产品实在太多了。而找到属于自己的核心竞争力,同样是字节跳动在 AI 时代面临的课题。

  这对广大的 AI 创业者来说,可能也是一个好的消息:即使是字节这样的大厂,今天在 AI 应用领域也只是摸索阶段,距离做出抖音、头条这种杀手级的应用还需要更长的时间。

  但面对大厂在 AI 领域的‘盯防’策略,创业者可能也必须在创业第一天就去思考,渡过了产品的 0 到 1,在 1 到 10,10 到 100 的阶段,什么才是自己产品真正的核心竞争力,让有流量、资金的大厂无法轻易模仿和取代。

  每个新的技术时代都会有创新者冲破上个时代的天花板,当年的字节跳动冲破了 BAT 的天花板,曾经也被看作是不可能的,但是任何大厂都有自己的‘大’带来的绝对优势,也一定有‘大’带来的天生弊病,即便是字节跳动也无法避免。

  对于 AI 时代的创业来说,正值当打之年的字节跳动毫无疑问是绝对无法忽视的重要变量,唯一的希望在于,AI 的时代刚刚展开,做出的所有努力,也只是在跟随和探索,未来尚未被书写,向前走就对了。