DeepSeek 创始人梁文锋访谈:为什么我们要开源?

这个周末,国产模型 DeepSeek 在美国 AI 界闹翻了天,各种角度的解读充斥了媒体:使用体验、技术分析、对比测试、经济效应、地缘政治等等。

 

很多人不敢相信,一家名不见经传的中国小公司,据说只有200个员工,在美国封锁芯片的情况下,只用550万美元的训练成本,就做出了可以与业界顶级模型媲美的产品,要知道那些顶级模型的训练成本在1亿美元左右,这怎么可能?

 

而且,DeepSeek 的所有模型都是开源的,任何人都可以自由使用。这简直太讽刺了,业界领头的 OpenAI 公司,号称自己的使命是“用 AI 造福全人类”,可是它的顶级模型都是封闭的,既没有代码,也没有论文,你想使用还要付200美元的月费。

 

现在,大家纷纷质疑,那些美国巨头公司投入几十亿美元,购置硬件、收罗人才,是否是正确的做法?

 

DeepSeek 创始人是浙江大学的计算机博士梁文锋,他很低调,很少面对媒体,只在去年接受过两次业内专访。

 

他谈了很多,为什么要把模型无偿公开,以及他们公司是怎么管理的。我把要点整理在下面。

 

(1)我们要做的不是生成式 AI,而是通用人工智能 AGI。前者只是后者的必经之路,AGI 会在我们有生之年实现。

 

(2)任何 AI 公司(短期内)都没有碾压对手的技术优势,因为有 OpenAI 指路,又都基于公开论文和代码,大厂和创业公司都会做出自己的大语言模型。

 

(3)在颠覆性的技术面前,闭源形成的护城河是短暂的。即使 OpenAI 闭源,也无法阻止被别人赶超。我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。

 

(4)我们不会闭源。我们认为先有一个强大的技术生态更重要。

 

(5)当前阶段是技术创新的爆发期,而不是应用的爆发期。大模型应用门槛会越来越低,创业公司在未来20年任何时候下场,也都有机会。

 

(6)过去很多年,很多的中国公司习惯了别人做技术创新,拿过来做应用变现,自己等着摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。中国也要逐步成为贡献者,而不是一直搭便车。

 

(7)大部分中国公司习惯 follow,而不是创新。中国创新缺的不是资本,而是缺乏信心以及不知道怎么组织高密度的人才。我们没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。

 

(8)我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。

 

(9)我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。

 

(10)我们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们就是有吸引力的。

 

(11)中国产业结构的调整,会更依赖硬核技术的创新。很多人发现过去赚快钱很可能来自时代运气,现在赚不到了,就会更愿意俯身去做真正的创新。

 

(12)我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。以后硬核创新会越来越多,因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。

版权声明:
作者:玉兰
链接:https://www.techfm.club/p/186827.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>