首页 热点资讯正文

智源研究院|从生命智能到智能生命,看似方向迥异实则殊途同归

hezhisheng026 热点资讯 2023-05-01 15:10:02 91 0

在对话框里输入“黄河远上白云间”,只消两三分钟,一幅滚滚黄河水在山间奔涌的水墨画便跃然纸上;输入“数峰无语立斜阳”,一片夕阳西下群峰耸立的景象顷刻间呈现在眼前。这位反应机敏笔法老练的“画家”,其实是由北京智源人工智能研究院(简称智源研究院)研发的最 大的中文多模态通用预训练模型——“悟道·文澜”。除了国画创作,看图写话、视觉问答、情感分析对它来说同样不在话下,且技术水平已达国际领先。

更“科幻”的场景也在一行行代码的生长过程中被实现。一只“活”在电脑中、“神经”和“肌肉”均由数据构成的“智能线虫”,竟像真实线虫一般在仿真水流中蠕动前行。在前不久举行的 2022 智源大会上,智源研究院院长黄铁军发布了模拟精度达到全球高水平的仿真秀丽线虫“天宝1.0”。

从生命智能到智能生命,二者看似方向迥异,实则殊途同归,科研人员希望从中找到生命运转的通用逻辑,进而创造出真正的人工智能,乃至智能生命。

从“单行道”到“双塔”

一个小婴儿呱呱坠地,从他降临到世界的第 一秒开始,学习将伴随一生。这里的学习并不仅仅指狭义的知识传授,他从环境接收到的每一个刺激,以及对这个刺激所作出的反应,都是学习的一部分。而在眼睛看到物体的同时,听觉、嗅觉、触觉等多种感官也在同时接收着信息,大脑将所有信息汇总处理,形成一个整体的认识。这便是人类的学习过程。

人工智能到底能不能像人一样学习、思考?这是所有人工智能科学家都想要攻克的关键问题。

当下最常见的人工智能模型是深度学习模型。它更像是一条“单行道”,根据使用需求构建起一个固定的场景,在符合条件的场景下,通过大量的数据训练,实现较高的准确率。但一旦场景切换,所有训练都要从头再来。同时,模型本身需要尽可能“干净”的数据投喂,数据标注的过程十分繁琐,需要消耗大量的人力、物力。

例如,将一张图片直观描述为“生日蛋糕上插着燃烧的蜡烛”,深度学习模型通常可以理解其含义;但如果图片的配文是“许个愿吧”,关联性变弱,就很可能超出模型的理解能力。

“人工智能模型开发的难点不是训练过程本身,而是如何用一个模型去适应千变万化的场景。”智源研究院“悟道·文澜”团队成员、中国人民大学高瓴人工智能学院教授卢志武希望探索出一个“全能”的人工智能模型,它能像人一样,同时学习文字、图片、视频等多模态信息,且不论面临何种场景,都能给出最合适的反馈,“就像真人一样,即使换了一个生活、工作环境,也能很快适应。”

时间回溯到 2020 年。当时,全世界对多模态预训练模型的探索都还停留在理论阶段,虽然学界提出了一些实施思路,但卢志武研究后发现,这些思路都需耗费大量资源、提供极大的数据量才能实现,“从理论走向现实,一定要考虑成本,否则根本没法落地。”

于是,卢志武大胆提出了与主流设计思路迥异的“双塔”模型,即在图像和文本之间建起一座桥——弱相关,以让模型具备理解“生日蛋糕”与“许愿”之间联系的能力。这一思路没有任何来自前人的经验参考,团队只能从零开始探索,“我们完全是在黑暗中摸索,如果方向错了,或是模型训练效果不好,将会‘颗粒无收’。”

2020 年 10 月,智源研究院文澜拥有了自己的第 一行代码。随后,团队历时三个多月,为它搭建起框架,并在互联网上尽可能多地搜集到了约 3000 万对图文数据。无需对数据进行标注处理,训练便开始了。

与深度学习模型不同,智源研究院文澜的学习过程不需要人的监督,无需研发人员“告知”它“这句话的关键词是什么”“那张图片意味着什么”,它就能像一个求知若渴的孩子,不断地自我学习、演化进步。这就解放了研发人员,他们可以将更多的精力投入模型的架构升级中。

发现通向人工智能的新路

训练数据从几百万到全部 3000 万,模型参数量从一亿到十亿、数十亿……当不断扩充的训练数据和模型参数量遇到有限的计算资源,智源研究院研发人员对模型分布式训练的框架反复进行迭代升级,前后历经数十个版本,最终,数千行代码组成了文澜的“大脑”。

“其实网络上每一条信息的产生,哪怕是几个字、一句话,都包含着人类的思想和情感。”卢志武说,文澜就像是婴儿浸润在人类的思维环境中,迅速成长起来,进步速度让所有人都感到惊讶。

2021 年 3 月,智源研究院“悟道·文澜”正式上线,成为最 大的中文多模态通用预训练模型。随着6. 5 亿条数据的陆续输入,经过多次迭代的文澜能力愈发突出,它精通中、英、日、韩、德、法、捷克语共七种语言,同时能实现文字、图片、视频之间的随意转换。

卢志武向系统中输入了一首王阳明的诗:山近月远觉月小,便道此山大于月。若有人眼大如天,当见山高月更阔。一眨眼的工夫,两幅古色古香的传统国画便呈现出来:一幅是明月出于山间,另一幅的月亮则被巍峨的高山衬得愈发显眼,诗中想要表达的辩证思想跃然纸上——这意味着,智源研究院文澜已经达到了一个十多岁孩子的理解水平。

通过画面,我们得以看到文澜的“内心世界”。不过,高山、明月都是生活中的常见景象,卢志武又输入了“熊熊燃烧的大海”“月球上的宫殿”等需要想象力的场景,文澜依然顺利“画”了出来。此外,“读图”也不在话下,这项技术应用在智能手机上,可以以摄像头作为眼睛,为盲人“读”出眼前的世界。

初步成果令人惊喜,但依然有很多疑问等待文澜团队解密。古诗文是汉语和诗人情感的高度凝练,文澜是怎样“读”出诗中的情感的?它又为何能“想象”出世界上不存在的场景?

为了回答这些问题,团队与脑科学家展开了合作。文澜本身由 43 层结构构成,每一层所擅长处理的内容都不尽相同。有趣的是,这似乎对应了人类大脑的不同脑区,核磁共振实验显示,人类读到、听到不同诗句所激活的脑区,与文澜的多层结构竟有高度的对应性——在巨量数据的训练下,文澜真的“进化”出了与人脑相似的特性。

“让我们惊喜的是,文澜在一定程度上获得了‘理解’和‘想象’的能力,建立了‘脑机制’,而不仅仅是对6. 5 亿数据的简单记忆、加工。好像我们突然就找到了一条新的路。”卢志武说,这是人工智能领域的重大突破。智源研究院文澜团队的相关研究成果于今年 6 月在《自然·通讯》上发表,这是纯粹的多模态工作首 次登上《自然》杂志子刊,是多模态模型迈向通用人工智能的重要进展。

而文澜团队,其实只是智源研究院研发人员的一部分。由文澜、文源、文汇、文溯共同组成的“悟道”大模型攻关团队,接连创下目前“中国首 个”“世界最 大”纪录。

历时数年,数以亿计数据的输入和训练,才让“悟道”变得如此聪明。不过,人工智能并非只有一种模式和定义,智源研究院已经踏足另一个更高端的领域——智能生命。

在电脑里造一条“虫”

“如果能将大脑的信息处理过程制成一个‘计算机软件’,将能够真正实现人工智能。这条路看似最难,其实是一条最直接的路径。”智源研究院生命模拟研究中心副主任马雷说。

由于人脑的结构过于复杂、精密,我们距离能够扫描、模仿它还差得很远。不过,在自然界,每种生物其实都具备令人着迷的“智能”。体长仅约 1 毫米、全身只有 302 个神经元的秀丽隐杆线虫,历经亿万年演化生存到今天,能够适应环境的不断变化,完成感知、逃逸、觅食、交配等一系列智能行为,这样的能力,已是今天的人工智能系统所难以比拟的。

小小的一条线虫,为何只需几百个神经元,就能自主实现这一系列动作和功能?答案是:自然演化。

设计再精巧的无人机,其飞行能力都远远逊色于一只小小的果蝇。从各个方面来看,果蝇的规模都要小得多,能耗也低得多,但面对再复杂的树林环境也能通行自如。此前,国际上已有科学家发表论文,称仅用 19 个神经元的计算能力,便能控制一辆自动驾驶汽车。

黄铁军说,人工智能与生命模拟是两条路线。在人工智能框架下的自动驾驶技术,需要运用几百层的人工神经网络进行海量数据训练,对算力、资源的消耗都是巨大的,“几百层和 19 个的显著对比,可以看出生物神经元的通用智能潜力。”生物体的所有功能都受到神经系统的控制,如果生命模拟能走向现实应用,对相关领域效率的提升将是极其可观的。

“人工智能模型的训练需要消耗大量资源,同样的,地球上的生命也是经历了 38 亿年的演化过程,消耗了无数能量,才演化成了现在的大千世界。”黄铁军表示,遗憾的是,截至目前,科学家还只能观察、描述线虫的神经、肌肉结构,依然不能很好地解释它究竟是依靠何种机制完成这一切的。

作为标准的模式动物之一,秀丽线虫被马雷团队选中。此前,生物学家已经完成了对秀丽线虫全部神经元连接关系的绘制,结合相关科研成果,智源研究院的研究人员对秀丽线虫作了一次“数字孪生”。

从纳米级的离子通道开始,工程师逐步构建起神经元,再组成神经网络,一行行代码跑出了数字线虫机体最 底层的运行逻辑。与活体线虫一样,数字线虫按照生物线虫神经系统高精度重建。它同样拥有 302 个神经元、 96 块肌肉、 3341 个运动单元,最复杂的神经元由 2313 个舱室组成。

不过,这绝不仅仅是结构上的“搭积木”。

生物神经元的结构,可以通过解剖看到,但神经元和神经系统究竟是怎样工作的,电信号到底如何流动,是神经科学研究人员一直以来的主要研究方向。要实现数字线虫生理上的真实性,神经回路必须足够逼真,神经系统与肌肉要有效结合,每个神经元的反应都不能出错,才能实现全身的协调蠕动。

生存在自然环境中的生命体,时刻都在与周围环境发生着交互,而要实现对数字线虫最真实的模拟,也要为它同步建构一个仿真环境。接受环境的刺激后,高精度建模的线虫神经系统怎样作出反应、作出什么反应,都需要不断通过算法调试去逼近结果,建立起线虫的神经网络模型,并与线虫的生理解剖结构、连接强度以及电生理动力学实验数据相匹配,“要利用算法解开神经环路的‘灰箱子’,工作量巨大。”马雷说。

怎样让线虫的形态更真实?线虫电生理数据怎样获得?如果出现连接关系缺失,该怎样处理……这些问题的答案,都藏在近年来生物学、神经科学、人工智能等领域的海量前沿文献中,跨学科合作势在必行。专攻生物学、人工智能、计算神经科学的人才也陆续加入团队,而曾在工业软件公司工作过的马雷,专业方向是相对小众的计算机图形学,却在仿真流体环境的构建中大显身手。

“教”数字线虫学会爬行

2022 年春节刚过,实验室就传来了好消息:在电脑屏幕上,数字线虫成功动了起来。但让马雷和团队有些失望的是,它的动作显得笨拙且不自然。

于是,工程师变身“老师”。在几个月的时间里,这条线虫一直扭动在生命模拟研究中心高 级工程师王宁的电脑屏幕上。通过反复调试代码,优化神经和肌肉的反应,中心的线虫仿真团队慢慢地“教”会数字线虫爬行。从最初不合理的扭动,到越来越接近真实线虫运动的实验录像,一只“活”在计算机中的“智能线虫”终于被创造出来。

其实,世界上也有不少团队同样在开展智能生命的技术攻关。此前已有科学家基于Open-Worm c302 框架,做出了“半条线虫”——通过 39 个神经元的构建,实现了从线虫神经系统模型到物理仿真环境的通路,在此基础上,智源研究院的团队将从环境到神经系统的通路打通,完成了闭环,产出了真正的数字线虫“天宝1.0”。

“在数字空间重现生物体,可以说是科研人员的共同梦想,而我们站在巨人的肩膀上继续突破,有幸走到了前列。”马雷说。

经过整整一年的攻关,目前,智源研究院“天宝1.0”的模拟精度已达全球高水平,可以蠕动前行到兴趣目标。“我们做的可不是三维动画。”马雷笑道,天宝的每条神经受到刺激的响应模式都不同,其神经元模拟达到了亚细胞级别,神经突触连接精细到位点,采用 14 种离子通道模拟神经细胞动力学特性,用很高的精度,重现了线虫嗅觉和运动神经环路。

研发团队将自己的高精度模拟平台取名为“天演”,这意味着天宝绝不是一个简单的“数字复制品”,而是可以在高精度仿真环境中演化成长的“生命”。而环境是智能的摇篮,三维模拟流体的动态训练环境就是天宝的“舞台”,相比只能前进、后退、转向的二维平面环境,这里更加自由。仿真环境越真实,天宝的肌肉和神经系统反应就越接近现实世界。

“生物历经一代代演化,已经消耗了大量的能量和资源,天演平台要做的不是重复生命的演化过程,再‘进化’出一条线虫,而是‘站在巨人的肩膀上’,让天宝学习具备更多的功能。”智源研究院院长黄铁军说。

重磅成果的发布,只是天演团队探索的一个节点,在实验室中,对天宝的环境适应训练正在进行。科研人员将训练其实现自主避障、觅食等复杂智能行为,并从中尝试寻找生命运转的通用逻辑。

“这只‘智能线虫’是一个里程碑。”黄铁军表示,拥有蠕动的能力,是天宝神经系统高度逼近生物本身的证明。生命智能,必须有物理的载体作为依托,而天宝就是团队在生命智能领域迈出的第 一步;未来,对果蝇、斑马鱼、小鼠直至人类重要器官和人类大脑的模拟,所涉的神经元和细胞数量呈几何级增长,计算的复杂度也就更高。天演平台的目标,是开发出由生物神经网络支撑的芯片,即“电子大脑”,以生物大脑的能耗,发挥出远超现有半导体芯片的功能。

从人工智能发展到智能生命,会不会颠覆人们对于生命的定义?

“生命的定义不会被改变,我们的研究,是利用生命科学的成果支持人工智能的发展。”智源研究院院长黄铁军肯定地回答道,“同时,对人工智能、智能生命的研究,也将对生命科学的研究有所裨益。”

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

本文链接:https://www.16i.cc/post/36606.html