“灵犀包含30万颗麒麟970芯片和1.6万颗昇腾910芯片。”李飞向诸位大佬介绍道:
“昇腾910芯片与同等规模的英伟达h100芯片系统相比,它要快2倍,节能效率高1.7倍……”
“目前超过90%的训练都在灵犀上进行……”
“主要是给模型输入数据,让它能够生产类似人类的语言,另外生成图像等等。”
“灵犀的性能、可拓展性、可用性的表现,已经成为大数据模型训练的主力。”
“要搭建一个规模如此大的模型不是简单的事情。”
“因为语言模型不可能存储在单一芯片上,而是需要分布在数千、上万颗芯片上。”
“因此改善芯片与芯片之间的连接,成为搭建超算的关键难题”
李飞继续介绍道:
“但是,我们解决了这个难题。”
“它可以轻松配置芯片之间的连接,能够避免问题并优化性能。”
“如果在运行过程中,有芯片组发生故障,会不会影响超算的运行?”任总问。
“不会,超算会自动跳过这些故障组件,继续运行。”李飞自信说道:
“同时,它还会提醒我们的工程师,究竟几个芯片组发生了故障。”
任总点头:“这点就难能可贵。”
老徐问:“那这么说,这台超算可以随机应变,改变芯片互联的拓扑结构,加速模型学习?”
“对,徐总,我们可以通过电路切换做到这一步。”李飞说。
“大数据模型目前学习进度怎么样?”常乐更关心这一点。
超级计算机如何搭建?
算力多高?
成效多高?
特点如何?
常乐这些都听不懂,听得懂的就是进度,形象进度。
“好的,老板,各位老总,我们去楼上看看。”
李飞前方带路,带着众人离开地下室的超算中心。
电梯里,小马哥对常乐说:“我们公司借鉴项目组的经验也开发了一个模型,叫wechatGame,正在训练它玩游戏,王者。”
“哦?段位怎么样?”常乐好奇。
谷歌也有类似的游戏大模型。
“呵呵,倔强青铜,偶尔能胜一场,大多数都是输。”小马哥摇头笑道。
“这么差?训练多长时间了?”常乐问。
“刚刚开发完,训练了半个月吧。”小马哥说。
“那还算正常。AlphaGo能战胜李世石,也是准备很多年时间,这套算法是可以的。”常乐说。
“万里长征第一步,这个事急不得。”任总说:
“据我所知,我们的脚步不算慢。”
“说的也是。”
众人来到wechatGpt数据模型训练中心。
李飞对着正在训练的模型向众人介绍道:
“各位老总,一年多以前,我们搭建了第一代模型,采用了无监督的训练方法,对互联网文本大规模训练,使模型具备了初步理解语言结构并生成类似语言的能力。”
“半年多以前,大模型迭代到第二代。采用更大的互联网数据集进行训练,生成了更强大的模型。”
“到了第二代,它已经能够生成连贯而流畅的段落,具体形容就像一个中学生的作文,是优秀作文的那种。”
“一个月以前,模型已经迭代到第三代。”
“规模、性能都取得显着突破,参数更是突破2000亿。”
“问答、翻译、摘要等方面已经相当于人类的水平。”
“还可以撰写连贯优美的文章以及文艺性的诗歌。”
“也能写一些简单的代码,但是在情感表达上有些不伦不类。”
介绍到这里,李飞亲自示范。
他问“生命的意义是什么?”
wechatGpt:“生命的意义是一个深奥又复杂的话题,不同的人可能会有不同的答案,通常有如下几类观点:一是实现个人价值……”
这个回答,中规中矩没有丝毫特色。
但也符合标准意义上的AI风格。
小马哥问:“李白的父亲,有三个儿子。大儿子叫大白,二儿子叫二白,那么三儿子叫什么?”
wechatGpt:“三儿子叫李白。”
这个问题,已经有了一定的思考倾向,但也可以从互联网的记忆中得到答案。
任总问:“怎么做到教育均衡发展。”
wechatGpt:“教育均衡发展是指在教育资源的分配和利用上,实现公平、公正、合理的原则,使每个学生都能够获得平等的教育机会和优质的教育资源。以下是一些实现教育均衡发展的方法……”
“一是加强教育投入……二是优化教育资源配置……三是推进义务教育发展……四是促进教育公平……五是加强家庭教育和社会教育……”
又是一段中规中矩的回答,简而言之就是没有特色。
这时,徐总问:“你有意识吗?”
wechatGpt:“作为一个人工智能程序,我没有真正的意识或情感。我只是根据我所接收到的输入和编程指令来生成回答。虽然我可以模拟对话和理解自然语言,但我没有自我意识或主观体验。”
李飞继续解释:“目前,我们一方面继续训练它的文本表达能力,另一方面开始训练它的数学解答能力……”
“另外,我们正在推进新的方向,就是图片生成能力,根据文字描述生成图片……”
徐总皱了皱眉头说:“我总觉得这个模型迭代速度有些快,语言表达能力已经非常熟练。”
在场所有人愣了一下,包括李飞。
确实快,一年时间,迭代了三次。
此时,谷歌对他们的模型训练速度不满意。
准备自研tpU芯片来取代英伟达的通用芯片,搭建专门训练模型的tpU系统。
openAI自2015年成立后,就一直在慢慢摸索。
今年年初刚刚搭建第一代模型,然后油尽灯枯。
因为ceo想商业化获取更多资金。
而马斯克拒绝商业化,这会影响他的股权和决策效用性。。
他想夺权,结果被董事会孤立。
接着,他离开了openAi,顺带撤走了他的一亿美金。
大模型最关键的因素是什么?
钱!钱!很多钱!
至于语言模型原理,并不稀奇。
因为辛顿师徒,已经将卷积神经算法以论文方式公开。
各大公司根据这套算法,发展出了自己的运算模式,不过都大同小异,关注点不一样。
关键还是投入的算力规模和算法训练的速度。
小马哥照着徐总的话问了一句:
“照这个速度,迭代下去,会不会产生自主意识?”
小马哥的话说完,在场之人都愣了一下。
这不是没有可能。
在场的人都知道,李飞采用的卷积神经网络就是冲着意识去的。
2012年辛顿师徒的卷积神经网络算法,又叫AlexNet架构,公开后,逐渐分成了两条线路。
一条路线叫人类反馈强化学习。
这条路线,就是不断灌输模型答案。
如,你告诉模型1+1=2,模型就知道1+1=2;
如果,你突然问模型2+2=?,模型不知道。
你要先告诉模型2+2=4。
依照这种方式,不断灌输模型数据,待数据无穷大,模型几乎万能。
但是前提你得万能,然后告诉他答案。
第二条路线就是希顿师徒倡导的。
慢慢训练模型学习、理解、成长,直至有自己的理解能力。
李飞团队采用的路子就是第二种。
通过海量数据训练模型形成理解、分析、推测、推断能力。
“迭代的速度这么快,迟早会形成意识,那怎么办?”
是啊,怎么办?