海埠记事 | 海埠法律研究院聘任孙澎博士为研究院研究员,并举行主题讲座

发表时间: 2023-03-29 10:20:10

作者: 广东海埠律师事务所

浏览:

图:雷新平院长为孙澎博士颁发聘书


2023年3月28日,海埠法律研究院正式聘任孙澎博士为海埠法律研究院研究员。


孙澎先生是博士后研究员,2010年毕业于中南财经政法大学电子商务专业,获管理学学士学位。2014年于山东大学计算机科学与技术专业获工学硕士学位,主要研究方向为:机器视觉和三维重建。2020年于香港大学工业与制造系统工程系获博士学位,主要研究方向为:机器视觉、SLAM。取得博士学位后从事科研等工作。


孙澎博士在人工智能、机器学习、机器人及物流和仓储等方面有扎实理论基础和丰富的实践经验,参与过多个产学研合作项目,有大型项目开发经历。


图:海埠法律研究院院长雷新平律师致辞


随后,孙澎博士为大家带来了主题为《ChatGPT 赋能人类:机遇与风险》的专业分享。


图:孙澎博士

此次分享,主要论述了关于ChatGPT如何制造(发展历史、技术原理、工程创新);如何应用(应用范畴、限制因素、风险提示、使用窍门);未来发展(最新动态,发展方向,未来受影响的领域)这三个板块。



如何制造


ChatGPT,其本质就是一个自然语言处理模型。自然语言模型,就是希望计算机处理和分析人类的自然语言输入,并输出一个符合人类认知的结果。


当前流行的自然语言处理方法,绝大部分使用的是深度学习模型,ChatGPT也不例外。深度学习的流程大致可以抽象成以下四个元素:数据准备、估计输出、评估结果、反馈。


Transformer模仿了人类注意力的机制。当人在看长文章的时候,注意力往往只集中在很少的几个关键语句。利用这一机制,Transformer大大改善了之前神经网络的“记忆力”。同时,通过打破位置依赖,提高了并行处理的能力。


GPT1所希望解决的一个问题是,如何降低深度学习对于数据标记的依赖,因为在实践中,数据标记是项目中最耗时、最枯燥甚至令人感觉在浪费人力的一个部分。GPT1的预训练模型通过海量无标记的数据给模型以“语感”,之后只用相对少的标记数据就可以达到甚至超过以往方法的性能。


GPT2在GPT1的基础上,进一步解决了这样一个问题,我们能不能抛开所有微调部分,只用预训练模型就完成任务?它提出了一个论断:只要数据量足够多,一切有监督的学习都是无监督学习的一个子集。于是它使用极大量的数据进行训练,最终性能大大超过了当时有监督学习的性能。GPT2让人们看到了完全使用无标记数据,直接使用预训练模型的可能,深挖了这个方向的研究可能性。


GPT3的成功,与其说是学术上的创新,我个人认为更多的是工程上的成功。其使用了极大的模型和海量的训练数据,在高昂训练费用的推动下取得了极其优异的成绩。


GPT3虽然强大,但在问答类任务上,输出的文本并不尽如人意。这需要引入人工对其输出进行评价和对模型进行微调。但是由于预训练数据过多产生的“惯性”而且模型过大,即使对其微调需要的标注数据量也是不可接受的。有没有只是用少量的标记数据来对其进行微调呢?强化学习是一个很自然的选择,我们可以把它看做是训练模型的“绩效考核”,人工设定绩效规则之后,模型做出的每一个行动都会被打分,并且模型根据打分会进一步调整自己的行为。一个著名的例子就是AlphaGo。


InstructGPT的核心组件,如果用小孩子学说话来比喻,那么分成三个部分:牙牙学语,妈妈的话和察言观色。InstructGPT通过引入人类评价,较GPT3的输出质量有了较大提高,特别是在问答任务上更人性化。


ChatGPT没有公开的论文,我们无法知道它的技术细节。但从媒体流露的信息,它相较InstructGPT没有本质上的进步,应该是对产品化作了一些细节调节。


ChatGPT的每一步都在解决之前遇到的问题:


Transformer 解决了网络“记忆力”差和并行程度低的问题;


GPT1用预处理模型解决了标记数据缺乏的问题;


GPT2更进一步用超大训练模型启示了无监督学习的可能性;


GPT3用更高一个量级的数据进一步实现了可实用的通用无监督学习模型;


GPT3.5解决了GPT3中生成数据和人类需求之间的差别,并同时将强化学习引入到自然语言处理中


最后,OpenAI或者说微软强大的财力和工程能力,是这一切实现的基础。


图:精彩讨论


如何应用


ChatGPT可以进行质量不错的翻译。但是需要注意的一点是其训练数据小语种的资料比较少,这就会影响他们的翻译效果,特别是和其他小语种之间的互译。这时一个窍门是使用英语作为中介语言。


ChatGPT可以用来提取长文本中的关键信息,并能在引导下进行修正。


ChatGPT能够给出工作中需要操作的建议,注意需要尽可能给出详细的要求。比如可以告知Excel文件中可运用什么样的公式以达到预期效果。此外,在提问中让ChatGPT去扮演某个角色,并且详细的说明你想让他做的事情是什么。这可以避免ChatGPT生成长文本的倾向,也可以更有针对性的获得你想要的输出。


在运用ChatGPT中,也应注意虚假和有害信息,“幻觉”在自然语言处理中是指模型输出了无意义或者不可信的内容。GPT3虽然取得了极佳的成绩,但仍旧会有很多幻觉出现。同时,由于海量未验证的网络文本被使用在训练过程中,其中可能包含冒犯或者有害的信息。


在数据安全中方面,ChatGPT可能会采集用户数据用于模型训练,这带来了隐私及秘密数据泄露以及数据跨境传输的风险。如果公司采用ChatGPT或其他人工智能内容生成模型,需要对员工进行涉密数据处理教育,以及加强敏感数据监控。


在著作权方面,ChatGPT,乃至于其他人工智能内容生成模型。其模型中蕴含的训练数据以及生成的内容,都可能带来著作权方面的风险


图:活动期间


发展方向


作为一个大规模语言模型,ChatGPT只能接收文字输入。但新推出的GPT4,已经开始尝试读懂图片内容了。同时,其可以处理更复杂的任务和生成更“正确”的回答,比如:全美律师资格考试前10% ;新竹市清华大学系统神经所生物学考试75%正确率。


此外,ChatGPT还可以进行自动化操作,虽然目前ChatGPT只能输出文字,但是通过将GPT模型和其他应用相结合,就可以直接调用现有的功能,实现自动工作。通过将GPT模型和现有搜索引擎配合,已经可以在一定程度上得到基于即时信息的回答了。


目前最有可能受到ChatGPT影响的领域有:


物流(在物流方面,最有可能实现的是不同国家、不同港口、不同机构同一业务表格的实质统一);


市场营销(香港KBQuest已经开始使用Azure OpenAI 开发企业投诉管理方案);


媒体(例如已经有公司开始使用AI进行插画创作,相比人工插画创作,AI插画虽然合格率低,但工作时间长,工作效率高。因此,流程化的、对原创度要求不高的媒体行业都可能受此冲击)。


图:活动合影


海埠记事 | 海埠法律研究院聘任孙澎博士为研究院研究员,并举行主题讲座
长按图片保存/分享

咨询/商务合作 :13802573939

传真/Fax:(+86 755)8299 0246

总机/Tel:  0755-8299 0380/0755-8608 4033

13802573939

联系地址:11008 Beihuan Boulevard, 

Nanshan   District  Shenzhen, Guangdong

广东省深圳市南山区北环大道11008号 豪方天际广场23楼

图片展示

Copyright © All Rights Reserved  

广东海埠律师务所 

粤ICP备2023011606号 

  企业公众号

  微信咨询

   海埠小程序

联系方式
二维码
在线客服
联系方式
全国热线1
0755-8299 0380
全国热线2
0755-8608 4033
二维码
二维码
添加微信好友,详细了解产品
使用企业微信
“扫一扫”加入群聊
复制成功
添加微信好友,详细了解产品
我知道了