发布时间:2024-07-05 作者: 行业新闻
进入位于搜狐网络大厦的智谱AI(人工智能)办公区域,公司愿景映入眼帘。随着ChatGPT、Sora相继问世,智谱公司也在这波人工智能大模型浪潮中更为忙碌,调研、合作接踵而至。
“创业像用百米的速度跑马拉松。”创业的快节奏让张鹏团队不断拓展边界,跨出舒适圈。这正是众多风口创业者的常态。
坐落在北京中关村的搜狐网络大厦,见证着中国互联网行业腾飞,助力一批又一批明星企业成长。如今,再度站在风口,吸引众多人工智能创业企业入驻。
张鹏和AI的缘分追溯至1998年,当时互联网行业在中国萌发,计算机尚未普及。彼时,张鹏填报了清华大学计算机专业,也逐渐打开人工智能世界的大门。张鹏在清华园浸润二十多年后,开启创业,“从研究到产业落地需要一段时间过渡,在这样的历史浪潮中,产生了科技成果向社会转化的契机,我们该厚积薄发。”
“用人工智能技术谱写未来的华章。”这是智谱企业名称的由来,张鹏团队创业之初便试图解局——如何将研究到实践落地的过程缩短,或者亲自下场产生更大价值。
目前,智谱AI专注于人工智能大模型研发与商业化落地。近日,针对Sora技术难点、行业发展的新趋势和公司商业化进展等问题,新京报贝壳财经记者专访了智谱AI CEO张鹏。
张鹏:OpenAI近期发布了视频生成模型Sora,能够生成一分钟的高精度视频。更重要的是,让大家看到也许这是构建物理世界通用模型的可能路径。
这确实是相当的好的进展,文生视频研发有段时间了,之前可能只实现几秒,或者分辨率不高,或者是生成的画面有闪烁、跳帧、前后不一致的情况,从去年下半年开始进展还比较明显。
Sora主要的优点是生成视频的连续性更好、分辨率更高、逻辑性更强,本质上解决了一些关键性的问题,对文生视频的理解和了解更深入、广泛。
张鹏:Sora的主要技术思路是用视觉块编码(Visual Patch)的方式,把不同格式的视频进行统一编码,然后用Transformer(变换器)架构进行训练,并引入类似Diffusion的Unet方式,在降维和升维的过程中做加噪和去噪。
Sora提到的Diffusion Transformer(扩散型变换器)架构,和之前的“小”视频模型不同,Sora是一个很大的视频模型,估算起来可能和千亿Dense语言模型需要的训练量(算力)相当。
Sora可以生成长达60秒语义丰富的视频,这说明训练的序列也比较长,训练时的窗口至少也得有5s+。
张鹏:Sora的出现更鲜明地体现了OpenAI在技术方面的领先,它把这种领先具象化了。
这里面有很多原因,总体上看,Open AI对大模型技术路线的认知更早、更透彻,目光更长远,足够坚持探索AGI(人工通用智能)机理。在人才方面,其团队足够强,都是世界比较顶级的人才聚集,有共同的理想和愿景。此外,专利、资金、数据等各资源能够集中发挥作用。
张鹏:不好判断,文生视频技术有许多团队都在研究,关键是需要点对点针对性处理问题。此外,模型规模变大,数据量增加,数据的标注、清洗、选择、合成都有待探索,所以很难有准确时间预估。
贝壳财经:智谱已经在大语言模型上有诸多成果,比如智谱清言去年上线公测,目前使用效果如何?
张鹏:智谱清言是C端产品,产品本身根植在模型之上,它的版本迭代和效果提升,绝大部分来自于模型本身的迭代,从去年到今年更迭了3个版本,效果提升了许多。
智谱清言产品本身也做了非常多的优化,早期具备简单聊天功能,现在已经是比较全面的AI效率工具,无论是工作学习和日常生活都可以用AI赋能。
贝壳财经:1月16日,智谱AI发布了基座大模型GLM-4,从标准大模型评测角度看,其性能整体上已经逼近GPT-4。不过,怎么样看待有些评测的效果并不是很惊艳?
张鹏:从主流、标准的大模型测评角度看,我们在1月的智谱AI技术开放日上已经公布了完整的 benchmark(基准)测评结果,GLM-4性能整体比肩GPT-4,在一些测评中还有所反超,比如在基于AlignBench的测评中,GLM-4的中文对齐能力优于GPT-4。
当然,我们留意到了在某些案例中,智谱清言的效果不尽如人意,我们的产品团队正在持续优化,努力为全用户提供优秀体验。完美的产品是靠打磨出来的,大模型是个新生事物,在发展过程中肯定会出现很多问题,在某一方面存在差距非常正常,我们正视差距,努力做到超越大家的预期。
贝壳财经:你曾表示希望2024年让大模型真正落地,大模型如何从实验室到商业化?
张鹏:2021年就提出商业化落地,目前商业化效果还可以,现在已经有2000多家合作伙伴,其中有1000多家实现了规模化落地,有200多家深度共创的用户。商业化并还有很大的空间。
另外,我们也在思考大模型商业化落地的逻辑和范式是什么?市场上可能有各种各样的声音,是做通用技术模型还是做行业垂直模型,是以标准化产品的方式做平台,还是定制化开发应用落地,大家都有很多的讨论。
张鹏:我觉得我们给大家的价值应该是技术本身的优势,重要的是把技术做到最好,技术决定模型能力的好与坏。我们努力给客户提供存在竞争力的价格方案。
张鹏:我们起步比OpenAI晚,人家做得比我们好,需要承认差距,但是我们的目标一致,那就是AGI。现在OpenAI还是处于领头羊,有非常多可以让我们学习的地方。
张鹏:团队从2021年开始布局文生图和文生视频。其中,根据CogView(模型名),我们研发了基于大模型的文本到视频生成模型CogVideo,采用了多帧率分层训练策略,生成高质量的视频片段,提出一种基于递归插值的方法,逐步生成与每个子描述相对应的视频片段,并将这些视频片段逐层插值得到最终的视频片段。这个工作引起了脸书、谷歌、微软的广泛关注。
实现全系列新产品矩阵对标Open AI,是我们大模型系列新产品布局的一贯目标,多模态模型在其中扮演着重要角色,也始终是我们的研究重点。
张鹏:首先创业团队做事要聚焦,我们布局文生图、文生视频,终究是要收拢,并不是去做一堆的模型,更要看重技术之间解决了哪些核心问题,有没有一致性。我们的愿景是“让机器像人一样思考”。
最后要解决通用AI认知问题。文生图、文生视频就是把人的认知能力拆解,一项一项解决,最终才能把这些事情统合起来解决。真正的通用AI不是单项能力的突破,而是追求本质上的认知能力突破。一旦让机器具备这种认知能力,就有可能突破人脑上限。