专访达观数据董事长陈运文:专业大模型并非一问一答式,更强调专业化、人机协同

2023-10-24 22:13:24 每日经济新闻 

近日,达观数据董事长陈运文在上海张江公司总部接受了《每日经济新闻》记者专访。

达观数据专注于文本智能机器人(300024),利用自然语言处理、智能文档处理、光学字符识别、知识图谱等技术为大型企业和政府机构提供机器人流程自动化(RPA)、文档智能审阅等产品。

关于达观数据“曹植”大模型研发的经过,陈运文介绍,春节以前,达观数据就已经着手大模型的开发,还在全公司为大模型征名,刚过完春节,就把名字定下来。彼时,大模型的热度还没有起来。

在选择模型名称时,达观数据考虑了各种山川宇宙、神仙等名字,但最终选择了“曹植”。原因在于,“曹植”内含文化典故,在中国文化中具有一定的知名度。

“大模型幻觉”何解?

目前,大模型普遍存在“一本正经地胡说八道”现象,这也被称为“大模型幻觉”。对于如何解决这一问题,陈运文表示:“我们在垂直领域强调人机结合。这些工作100%让人工智能做是不现实的,需要人去控制,即人工智能可以当你的助理。”

陈运文举例:“比如写一个报告,不是让人工智能从头到尾全写,而是给到人工智能报告中主要观点。观点是人定的,人定大纲、人定骨架,人工智能去填里面细节文字。这种(人机)结合的方式,在我们(智能文本)这种专业领域是非常好的办法。”

此前,记者在采访时了解到,目前大模型在应用层面仍需进步。比如目前ChatGPT仍旧是对话框形式,这种对话模式是否限制了大模型能力的发挥?

陈运文端着笔记本,一边向记者展示一边说道:“你看我们写报告的界面,这个是曹植大模型写的,人工智能根据标题,生成文章大纲。但人工智能生成的大纲,未必能够满足要求。因此,生成大纲之后,人可以在生成的基础上修改,修改完以后,它(人工智能)会根据写好的大纲生成正文,并且在正文里还可以配图、配表。这是一个人机交互的过程,并非如ChatGPT那样一问一答式。”

陈运文具体描述称:“我们不仅分步骤,也是分段写。比如100页的投标书或者项目结项报告,AI并不是从头到尾100页一下子全写好。这种专业报告是非常复杂的,报告里面有图有表、各个部分还分小标题。我们是一段一段写,每一段都有提示词,每一段都有写作标准,每一段都有自动化审核的系统。写完之后,我们还要AI去审核判断是否符合需求。”

提示词是达观数据事前内置还是内置后由客户修改?陈运文表示:“会提前内置我们觉得很好的提示词,客户也会根据需求叠加修改。提示词既有代码,也有自然语言。”

专业大模型还是通用大模型?

自大模型火热起来之后,通用大模型与专业大模型之争便一直持续,陈运文也给出了他的见解。

陈运文表示:“曹植大模型是垂直专用大模型,喂的是专用知识。通用大模型有点像一个985的名校本科生,很聪明,综合能力也很强,各种知识都懂一些。你问他各种知识,也能回复得很好。但大学毕业生在专业岗位方面还缺乏培训,比如银行对公信贷业务,还需要上岗前专业知识的培训。以前这个专业岗位上,别人是怎么写报告的、写作要求是什么样的。并且需要懂对公信贷业务、同业拆借等等。”

简而言之,通用大模型是985本科生,而“曹植”这类专业大模型是进一步做了上岗前培训。

陈运文举例:“比如说,我们给它导入的是工业制造领域的工艺工序、设备操作、产品手册等等这些专业的文档,大模型学完以后,生成出来的报告才是专业领域所要求的报告。”

那么,专用大模型相比通用大模型,是在语料输入方面存在差异,还是在语料、算法方面都作出改变?

陈运文表示,在算法和产品形态两个方面都作出了改进。“如果我让你写一个100页的报告,一问一答式怎么帮你写呀?”他笑称。

因此,他总结:“所以我们讲,真正在专业领域,它的产品形态跟消费者使用的一问一答式是不一样的。我们这个系统要更专业、更垂直化,然后才能解决大模型幻觉问题。我觉得曹植大模型与ChatGPT最大的区别,就在于我们强调专业化、强调人机协同。”

封面图片来源:视觉中国(000681)-VCG41N1188747468

每日经济新闻

(责任编辑:王治强 HF013)
看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读