知乎CTO李大海:大模型是智能年代的蒸汽机 OpenTalk

热度:1 发布时间:2023-08-09 10:53:35 来源:江南体育全站登录入口


  ChatGPT对教育的影响已引发许多讨论,教育与大模型的结合会有哪些或许?在多知网近来举办的OpenTalk第40期“‘教育+大模型’的实践与创想”活动上,知乎合伙人、CTO李大海共享了知乎知海图AI中文大模型的开展和运用远景和幻想。

  1.2022年末发布的 ChatGPT 能够当作智能年代的第一台蒸汽机,快马还有许多问题和约束,但无疑现已敞开了一个新的年代。

  2.未来必定会呈现很好的大模型通用智能,但在这个过程中,当通用还不行的时分,咱们也需求用许多场景里边的专有常识去做对齐。

  3.大模型特别有用的一个才干是了解才干,了解才干是比生成才干更早老练的。对知乎这样的场景来说,了解才干能够更精密地描绘内容,然后能够更精密描绘用户,做内容跟用户衔接的时分,功率和精确性会更高,这对分发体会有很大的协助。

  5.咱们现在以为ChatGPT这个产品必定不是通用智能未来的终极产品形状。由于这种对话式的方法门槛仍是蛮高的,问不出好的问题作用会很差,人类要学会用AI的方法发问。

  咱们下午好!首要十分感谢多知网约请我来参加这个共享沟通。我是李大海,2015年参加知乎,是知乎的合伙人和CTO。跟着AI技能的前进,知乎也在不断用更新的技能装备整个技能系统。

  ChatGPT发布之后,让整个技能圈都震动了。OpenAI做得很了不得的一件事是,让一切人在很短冷清里到达一致,即这是十分有运用远景的技能。如此大范围的一致到达是十分不简略的。

  我归于技能激进派,我以为ChatGPT的问世是一件十分重要的平等,这是一个年代的初步。我其时的描述是“这便是智能年代的蒸汽机”。关于智能年代来说,ChatGPT仍有许多缺陷,可是三年后再看,必定会十分不相同。本年2月份的时分,我周围还有朋友对这件事表明置疑,甚至有一些NLP范畴长辈们以为,这仅仅一个概率游戏。任何一个新的事物呈现,有不同的观念是十分正常的。可是到今日,我信任持有这种观念的人越来越少,哪怕非技能圈的人也对这个技能越来越buy in了。咱们也能够看到技能圈的人十分焦虑,曩昔几个月,每天早晨起来一刷新闻就看到又有新模型或许新运用方法出来了,连论文都读不过来,更甭说自己着手做了。所以整个技能圈的人都有点焦虑。

  GPT4、PaLM2或StableDiffusion这些大模型的开展十分快。在知乎4月举办的发布会上,我讲到过,客观来看,现在大模型在中文跟英文上的言语才干仍是有差异的,它的中文才干会稍弱小一点。这背面的原因首要仍是数据。现在的大模型现已完彻底全是一个data centric 型的平等了。有多少数据就有多少智能,大模型年代,数据的量和质决议了模型的才干。

  可是,咱们在平等的过程中也能够看到,整个我国的语料仍是十分丰富的,只不过能够揭露获取的数据规划会少一些。不过,咱们很快乐看到北京市前几天发布了一份文件(《北京市促进通用人工智能立异开展的若干办法(2023-2025年)(征求意见稿)》),政府也意识到数据揭露的重要性,所以安排工业界、学术界一同构建敞开的数据库。

  我有决心,中美在大模型开发上的竞赛中,咱们至少不会被甩开。由于AI的要害要素之一是数据,此外许多平等也归于工程范畴,这些范畴我国都有自己的优势。大模型在这条路上有模仿人脑的感觉了。有一本书叫《千脑智能》,它的中心逻辑便是,人的大脑功用结构是十分单一的,处理视觉信号的大脑区域,跟做决议计划做逻辑剖析的区域结构相同,仅仅人脑发育过程中经过学习会自动构成分区。现在大模型从模型结构上越来越简略,越来越往这个思路上接近。所以未来模型上的开展,更多是功率上的优化,是怎样把推理功率和练习功率提高起来,怎样能支撑更大规划的练习,这些都是工程方面的平等。我国的工程才干十分强,所以工程这块我国是不会输给美国的。所以我信任冷清略微拉长一点,咱们在这个竞赛中必定能发挥自己的优势。

  简略介绍一下知乎在大模型方向上的平等。ChatGPT发布今后,咱们跟业界许多公司沟通。在新年前后,咱们跟面壁智能做了深度沟通,他们的源代码是敞开的,也有API,咱们就做了一个比较深度的评测,十分认可这家公司的技能才干。所以咱们对面壁智能做了一轮战略出资,现在咱们两个团队在一同无间地平等。

  面壁智能是2020年开端做大模型开发的,他们联合北京智源研究院一同研制出了CPM-1到CPM-3三个大模型。在这个根底之上,面壁智能又做了CPM-Ant和CPM-Bee两个大模型。

  大模型自身是分三层,首要要有一个预练习模型,逻辑上像是一个咱们先培育一个人把握通识教育,让他不断背书学习,能够到达一个中学生或许一般大学生的本质水平。然后在此根底上去做对齐,也便是做专业练习,比方把他培育成一个律师,培育成一个心思咨询师等。预练习模型的潜力决议它做对齐时的功率。预练习潜力越高,对齐时教它的东西越少,触类旁通地越快。

  知乎跟面壁智能一同做了大模型预练习之后,本年4月份,用知乎自己的数据同步上线了一个功用,便是对热榜问题下的观念进行抽取和聚合,这个功用叫做“热榜摘要”。

  知乎热榜摘要现在大概是有两种款式:一种是很敞开的条理款式,一个问题底下用户有不同的表达,聚合起来一般是多种首要观念,咱们把这些观念直接展现在这儿,让用户一眼就能够看到这个问题下答复的大致方向。另一种是一些比较关闭的问题(比方是与否、会与不会等),咱们会把一切的知友答复中心观念抽取出来,依照答复的类型分类。

  这是大模型在知乎的第一个运用,也是一次试水,意图是为了测验一下咱们的大模型在内容了解、抽取等方面能做到什么程度。

  做这个产品的过程中咱们也有一些经历和收成:未来必定会呈现很好的大模型通用智能,可是在这个过程中,平等是混合的,当通用还不行的时分,咱们也需求用许多场景中的专有常识去做对齐。这个对齐是很有必要的,咱们做了许多对齐的平等,也体会到数据的重要性。

  咱们现在仅仅测验了大模型在知乎场景的其间一个运用,未来还会有更多,这些运用都建立在整个模型平等的系统化结构之上。假如没有这些结构,咱们做许多平等的功率会低许多。

  方才讲了热榜摘要算是知乎的第一个大模型运用,我以为,大模型能够将知乎整个事务都重写一遍、晋级一遍。

  第一是内部才干的提高。许多平等都能够经过大模型来提效,包含运营、规划、产品等等。

  第二,知乎自身是一个在图文范畴很有优势的高质量社区。大模型特别有用的一个才干是了解才干。其实了解才干是比生成才干更早老练的。它能够更精密地描绘内容,有了对内容更精密的描绘,咱们就能够更精密描绘用户,做内容跟用户衔接的时分,功率和精确性会更高,这对分发体会有十分大的协助。

  第三,对知乎来讲,咱们仍然是一家以人为本的社区,所以人是最重要的。咱们一直在讲,AI是人类才干的扩增,人才是中心。大模型开发过程中,咱们会考虑给创造者供给满足的创造赋能,这个赋能是Copilot的人物,它不是主角。咱们期望创造者拿到AI辅佐功用之后,能在修辞、行文平等上敏捷提效,可是创造的思维有必要是自己的,这是十分重要的一个点。

  回到今日共享的主题:教育。未来在教育范畴,咱们信任也有十分多能够落地的当地。由于教育自身便是天然需求个性化、需求更多智能来做的。有教无类,要完成个人教育过程中的价值最大化,必定要贴向用户的共同的特点来进行。依据这样的逻辑,我信任在数据量满足大的情况下,大模型定制化地给个人供给的价值,或许比规划好的千人一面的教育计划要更大。

  经过大模型的才干,构建智能化的学习方法和学习场景,用户在言语学习场景具有完好度的体会。

  在大模型推出之前,咱们就看到许多头部教育公司现已在这个方向探究,比方构建海量的题库,依据他们搜集的数据,经过不同的学生对这个标题做出来的精确率,来衡量这个标题难度。反过来经过学生每道题做得怎样样,去衡量这个同学的把握情况,再针对性地给他更有价值的标题等等。

  有大模型推出之前,颗粒度是在标题上,标题是一个方针,会抽取一些常识点,但颗粒度比较粗糙。但在大模型年代,拔尖的了解才干和生成才干能够把这些都打碎,大模型能够依据自己的了解,让颗粒度更细化,我信任这是大模型能带给教育的十分高的价值。

  在超真实体会方面,大模型配上虚拟人,配上声响,我信任它也能够处理陪同的问题。由于虚拟人跟每个学生的交互,能够让学生感觉到自己得到重视。在上大班课的时分,是否得到教师重视,学生感触是十分不相同的。有了这样陪同式的体会,我信任对学生来说是有额定的价值的。

  现在市道上有一些结合大模型的教育运用。比方日韩的一款运用speak,也是OpenAI出资的一家公司,该产品在日本和韩国的事务数据十分好。运用了大模型今后,speak能够十分个性化地靠近用户,用更地道的白话跟用户谈天,让学习不再是一件单调的平等,而是一个以人为本的平等。

  ChatGPT这样的产品现在仍是智能年代的蒸汽机,还有许多缺乏。现在大模型还面对着许多应战:

  比方可信度方面,存在错觉,会胡言乱语;时效性方面也有待提高;运用门槛方面也存在问题。咱们以为ChatGPT这个产品必定不是通用智能未来的终极产品形状。由于这种对话式的方法门槛还很高,问不出好的问题作用会很差,所以现在人类还要会用AI的方法发问。

  就数据而言,整个中文敞开语料相对英文来说,小了许多。所以,怎样把现存的中文优异语料让咱们更低本钱地拿到,关于我国AI开展是十分重要的。咱们能够看到,图画大模型的开展很快,便是由于海外有几个英文的开源图文对数据集,质量和数量都很好。由于有这些敞开的语料,大模型卷起来会十分快。别的,数据的安全合规也会变成一个十分大的应战。由于数据收集越来越简略,怎样在过程中把用户隐私与合法有用的数据区分隔,不要让AI脱缰,十分重要。

  在标示方面,标示难度、标示本钱、标示成见都存在应战。对齐数据质量十分重要,需求在不同的标示员间细心地拉齐标示的规范。别的,对齐数据规范太高,需求更多更专业的人来做,咱们曾经做简略使命标示的同学,实践中无法担任这个平等。因而也对本钱和配套的练习提出很高的要求。

  面向未来,现在的AI仍是一个在学走路的“小朋友”,未来它逐渐长大,到必定程度的时分,它的安全性也是一个十分大的问题。咱们信任技能演进对错线性的,在某个阶段或许有必定的爆发性,存在指数上升的或许,或许这天来得比咱们幻想的快,咱们是不是预备好了AI安全性上的安全办法,是否能够做得满足到位?这也是很大的应战。

  我今日的共享就到这儿,也期望跟工作里的朋友们多沟通,能够跟咱们一同供给满足好的中文AI服务。大模型年代,让我国用户享用与英文用户相同优质的服务。谢谢咱们。

  发问:由于知乎是问答社区,咱们特别猎奇,假如有人用GPT答复的内容在知乎上灌水,这样的内容,知乎是怎样过滤的?

  李大海:咱们很重视这个问题,也做了一些对抗性的平等。不过这个平等比较难,不或许全面精确地做出检测。

  第二点,咱们也以为,以人为中心的平等,AI是能够在其间起作用的。不是说有AI成分便是彻底不对的。

  结合在一同,咱们更倾向于以为,假如你的内容自身十分有优势,有你的洞见,咱们并不重视其间有没有AI参加。本年咱们3月份上线了一个功用,叫做AI创造声明,一旦创造者运用了这个声明,咱们就不会对内容做干涉。当然,关于乱用 GPT 的账号,咱们是不欢迎的。

  发问:您说到的问一个好问题也是十分重要的,我曾经在教育工作,现在我是记者,所以平等首要便是问问题,现在ChatGPT大模型能够生成许多答复,这个答复是不是自身就能够是好问题?我的问题是,要想让大模型答复自身便是一个好问题,怎样样才干让它生成这样恰当的好问题?

  李大海:大模型当然能提出很好的问题。最近跟一些工作里的朋友谈天,看到有一些场景,是拿大模型去训谈天机器人。谈天机器人这样的场景,和 ChatGPT 这种场景其实不太相同,AI 模型需求自动引发论题,才干聊起来,才会给用户带来陪同感。从一些产品的 demo 感触来看,大模型在这个场景的发问并不差。

  您方才问的问题或许跟您的工作比较相关,这是通用场景。我没有试过怎样引导模型提好问题,不过主张能够往这个方向测验一下:您平常原本就会问许多问题,能够拿这些一切问题来先问大模型,哪些是好问题,再让它提出一些相似的好问题,模型是能够用启发式的方法沟通的。

  发问:我有一个关于模型巨细的问题,咱们都知道知乎是现在我国互联网上语料或许数据优势度相对来说最高的渠道,在语料优势到达必定程度的情况下,咱们关于不同巨细的模型,在事务实践场景下的作用评价上,大概是怎样的?

  李大海:模型的巨细跟它练习语料的数量和练习的时长有必定的线性关系。假如你的模型特别大,可是给它的语料不行,它是欠学习的状况,还不如平等语料的情况下,让一个小规划的模型充沛学习,作用反而更好。

  回到事务上,模型规划的判别涉及到详细的事务方针。由于不同巨细的模型,在不同范畴的才干是不相同的。比方现在咱们的感觉是,大模型最难出现的才干是逻辑推理,假如事务需求的是这个才干,那就需求十分大的模型。

  发问:知乎我感觉更倾向内容交际,您也展现了内容方面比方语义提取,在交际范畴这块有没有一些提早的规划或许方向?由于前一阵子比较火的一个AI社区,便是城市AI人,知乎在交际互动方面是不是也能够引进一些问答或许沟通类的?是不是有这方面的规划?

  李大海:交际是知乎很重要的一个要素。所以咱们也确真实考虑,怎样能够用大模型来赋能产品,在交际上能有更好的功率。可是详细怎样做,还需求好好的想一想。由于大模型的根底才干怎样跟事务结合在一同,需求许多考虑。

  发问:我想问关于数据的敞开性的问题。其实教育工作相同面对这样的问题。一方面期望模型比较好用,事务直接拿来就用。另一方面不乐意敞开自己的中心数据。由于涉及到是否敞开的问题,或许知乎跟面壁是深度协作,但假如是百度阿里等其他的大模型跟知乎协作,知乎会不会考虑数据敞开性上的问题?

  李大海:这的确是一个很难的问题。咱们仍是很敞开的。2016年-2017年的时分,我记住其时有一个高校的教授找到咱们,想要对接NLP科研项目。对方说,知乎数据太难爬了,很累,问咱们能不能直接给他们,咱们就敞开了部分数据。当然,和业界其它公司的协作,详细到什么程度,这个需求更多事务上的考虑。

  咱们最近也在跟开源界许多朋友沟通,是不是能够敞开一些高质量数据给到社区。其实从咱们的视点来讲,假如这个事对社区有协助,绝地也没有明显影响到咱们日常运营,咱们是乐意敞开的,可是咱们也不能用自己的观念去要求一切人。总的来说这是一个难题,的确期望从方针和工作层面来安排推进破这个局。