当OpenAI的文生视频模型Sora给世界带来新一波的冲击时,国内对人工智能领域的投资热情也再次被点燃。
2024开年,有市场消息称,AI创业公司“月之暗面”已完成新一轮超10亿美元融资,投资方包括红杉中国、小红书、阿里,老股东跟投。美团也曾参与了该公司上一轮融资。本轮融资后,月之暗面估值达25亿美元。
若以10亿美元的融资规模来计,该轮融资是自ChatGPT掀起人工智能热潮后,国内AI大模型公司迄今获得的单轮最大金额融资。
为什么月之暗面能成为一众资方的追逐焦点?英诺天使基金合伙人王晟告诉《每日经济新闻》记者,对于早期投资的AI项目,考察的核心因素主要还是团队。
月之暗面方面在接受《每日经济新闻》记者采访时表示,目前团队超80人,其中大部分是技术人员,“每个月都有在全球某个领域有着显着影响力的人加入。”
“历史上所有的架构演进本质上都是在提升有效的context length(文本长度)。”在产品方面,像创始人杨植麟在今年2月对媒体表述的这样,月之暗面现已推出的产品Kimi智能助手正是以领先的长文本处理能力受到了外界和资本的关注。未来,月之暗面还想在大模型领域做出To C的超级应用。
月之暗面的Kimi智能助手以领先的长文本处理能力受到了外界关注 图片来源:月之暗面官方微信号为何是月之暗面?
很难想象,作为国内AI领域最大单笔融资的获得者,这家创业公司还未满一周岁。
2023年3月1日,年轻的“天才AI科学家”杨植麟创办了他的第二家AI公司月之暗面。和这家明星创业公司一样,杨植麟有着似乎和年纪不太匹配的学术成就和创业经历。
2015年从清华计算机系毕业后,杨植麟前往美国卡内基-梅隆大学攻读博士,师从苹果AI研究负责人Ruslan Salakhutdinov和谷歌首席科学家William Cohen,并与多位图灵奖得主合作发表论文。
月之暗面向《每日经济新闻》记者介绍,杨植麟是Transformer-XL与XLNet两篇重要论文的第一作者,两者均为大语言模型领域的核心技术。同时,他也是中国35岁以下NLP(自然语言处理)领域引用最高的研究者。
记者从业内人士处了解到,2016年,杨植麟曾参与创立循环智能(Recurrent AI),2021年12月,循环智能宣布完成由博裕投资和红杉中国联合领投的3800万美元新一轮融资,老股东金沙江创投、靖亚资本、真格基金、万物资本等跟投。报道显示,循环智能的技术团队曾与华为云联合发布了国内首个千亿中文语言模型“盘古NLP大模型”。
此外,月之暗面的两位联合创始人周昕宇和吴育昕,也均出身清华,拥有meta、旷视科技等知名科技公司的工作经验。
关于现有团队规模,月之暗面方面表示,目前团队超80人,其中大部分是技术人员,囊括了NLP、CV(计算机视觉)、RL(强化学习)、Infra(基础架构)方面的新生代人才,“每个月都有在全球某个领域有着显着影响力的人加入。”
英诺天使基金合伙人王晟在接受《每日经济新闻》记者采访时表示,对于早期投资的AI项目,考察的核心因素是团队,“我们对项目的收入、利润没有什么要求,最重要的本质还是人。”
考虑到月之暗面的核心成员参与过Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发项目,它成为资本的争抢对象也不奇怪了。
有大模型创业公司CTO对《每日经济新闻》记者表示,早在杨植麟创立循环智能和研发华为盘古模型的时候,便对其团队有所关注。
企查查显示,月之暗面在2023年6月首获超2亿美元融资,投资机构包括真格基金和红杉中国,彼时估值3亿美元。8个月后,月之暗面斩获超10亿美元融资,估值跃至25亿美元。
为何另辟蹊径定位To C?
除了“顶配”的创业团队,月之暗面也交出了外界看来还算出色的研发答卷。
2023年10月,月之暗面推出了首款大模型产品Kimi智能助手。月之暗面方面介绍,与其他大模型产品相比,该产品的主要技术优势在于超长的无损上下文处理能力和卓越的指令遵循能力。
据了解,Kimi智能助手支持输入20万汉字,按OpenAI的计算标准约为40万token(模型可以理解和生成的最小意义单位),是彼时全球大模型产品中所能支持的最长上下文输入长度。同期大模型Claude支持的最大长文本为10万token。
“在投资机构和大厂的内部综合评测中,Kimi智能助手的中文实力直追OpenAI,在理解和生成中文内容方面表现出色。”月之暗面方面向记者强调了该产品的中文处理能力优势。
“AI产品榜(aicpb.com)”统计的数据显示,Kimi智能助手在2024年1月的访问量达142万,在大模型创业公司的“AI ChatBots”产品中居于首位,月环比增长率为94.1%,增长速度也在大模型创业公司中排名第一。
另外值得关注的是,不同于市面上大多数大模型公司选择做B端产品,Kimi智能助手的定位关键词之一是“to C”。
杨植麟曾向媒体表示,AI Native的产品会在to C领域产生新的流量入口,成为AI时代的超级App,“这是一个非常大的机会”,他说,“To C就是一个自然而然的选择”。
为什么选择做To C领域,月之暗面向《每日经济新闻》记者解释,因为模型的能力还在快速迭代中,国内市场的B端产品往往需要私有化部署和定制化开发,而基于现有模型的某个版本做私有化部署和定制化的开发,将会导致B端产品的能力和用户体验完全跟不上模型能力的快速提升,很快就会被淘汰,最终浪费大量的人力、物力和财力资源。
王晟也对《每日经济新闻》记者表示,投资人去年都在投资算力、芯片等基础设施,今年会更关注AI能力的大幅度增长和成本的下降,应用端也会有机会开始出现,尤其是Agent(智能体),“因为Agent是和过去移动互联网完全不一样的东西,大家会率先开始在Agent中找相关的应用落地。”
同时,To C领域也是一众互联网大厂的AI探索方向。
AI与电商的结合是阿里巴巴当前的加码重点。记者了解到,2024年起,淘宝天猫将全量向商家陆续发布十款智能工具和服务。淘宝还发布了“AI生态伙伴计划2.0”,提供1亿元计算资源补贴、接口费用减免以及免佣等激励政策,进一步丰富并扩大AI开放生态。
此外,阿里云目前已在IaaS+PaaS层形成完善的AI基础设施,有观点认为,阿里云已经立志从为大模型提供云计算能力中找到机会。
而据去年5月消息,小红书从该年3月份起筹备了独立的大模型团队,核心员工来自广告业务的NLP技术团队。然而,小红书在大模型上并没有明确进度,只在电商业务上加快步伐。不过,去年底,小红书在主APP中内测了一个名为“Davinic”(达芬奇)的AI聊天功能。
去年12月,小红书COO柯南在一次媒体对话中提到,去年比较意外的一个发现就是搜索价值,大量的新用户因为搜索而进入小红书。她表示,接下来,如何用AI更好地驱动搜索非常重要。
月之暗面真正的价值何在?
技术的突破造就了ChatGPT的一炮而红,对于以技术为主打的创业公司而言,技术始终是其能否保持长期领先优势的关键。
长文本,是月之暗面选择的突破方向。
杨植麟在2023年11月的一次外部演讲中认为,如今基于Transformer架构的大模型,是“新时代的计算机”,参数数量决定计算复杂度,上下文长度决定内存大小——因此,上下文长度是毫无疑问的关键所在。
他认为,规模化是通向AGI的核心,而随着模型不断迭代,长文本会逐渐取代微调,成为定制模型的关键技术。
月之暗面也对《每日经济新闻》记者表示,通往通用人工智能(AGI)(的发展中),长上下文(long-context)会是一个很重要的点。在其看来,某种程度上看,所有问题都是上下文长度问题。
那么,Kimi智能助手支持20万汉字的长文本输入,主打无损记忆。这一突破究竟有多难?
上述大模型创业公司CTO对记者表示,月之暗面对文本长度的突破有一定难度,但途径也有多种,较成熟的有位置编码的外拓,或者工程上的切片召回策略等。他表示,具体到月之暗面,由于没有披露这块细节,暂时无法得知其实现方法。
北京市社会科学院管理研究所副研究员王鹏对《每日经济新闻》记者表示,支持超过20万字的长文本输入在技术上确实是一个挑战,但是否算作重大突破,要取决于具体应用场景。
他提到,例如,在处理长篇小说、历史文档或复杂的法律文件时,能够处理如此长的文本输入将大大提高AI的理解和分析能力。
“这要求模型不仅要有强大的计算能力,还需要有优秀的内存管理能力来保持对长文本的连贯理解。”王鹏说。
深度科技研究院院长张孝荣对《每日经济新闻》记者表示,支持超过20万字的长文本输入确实可以算是一个技术上的突破。在自然语言处理领域,处理长文本一直是一个挑战,长文本需要大模型有更强的“记忆”能力。当大模型有了这种长文本能力,才能更方便地处理小说、财报等。
张孝荣告诉记者,大模型能够处理长文本输入,可以带来多方面的影响。首先,这可以提高自然语言处理的准确性和效率,使得模型能够更好地理解和生成自然语言文本。其次,这也为一些需要处理大量文本数据的任务提供了可能,比如文献分析、文本挖掘等。
此外,长文本处理技术的发展,还可以推动自然语言处理在其他领域的应用,比如更加真实的智能客服、通过多篇财报进行市场分析、处理超长法务合同文本、基于长篇小说进行角色扮演等。
当创业公司以技术驰名,注定着它需要面对保持技术领先性的压力。与此同时,好技术如何变成好生意,同样是一个需要在探索中回答的难题。对于月之暗面而言,完成迅速崛起不过是万里跋涉第一步。
在演讲中,杨植麟曾表示,“爬楼梯”是月之暗面真正想做的事情。
他发现,做大模型的主要是两种人,一种是看风景的人,用AGI解锁了很多可能性,另一种是勇攀高峰的人。
“勇攀高峰,其实是爬楼梯,但不代表说我们不看风景,而是说在你看风景的同时,你可能要花更多的精力,花更多的时间去以周为始的思考:到底月球的背面是什么?”杨植麟说。