主动的语料库构建与更新则包括数据爬虫、图书数字化、收集学术文献数据等方式,其中以数据爬虫为主。OpenAI官方网站的“我们的方法”页面表明,为支持其人工智能系统的训练和发展,OpenAI使用数据爬虫技术来获取大量的文本数据。这些数据来源包括博客、Bing搜索引擎、维基百科等公共网站和在线资源,以及专业非营利性组织如Common Crawl通过其他渠道获得的数据。数据爬虫技术可以通过程序自动地收集互联网上的大量数据,这种收集方式的优点在于其能够快速、高效地获取大量的数据,使得模型的训练和表现更加准确和可靠。然而,这些数据中可能存在个人信息,其来源难以追溯和验证。生成式人工智能通过“灌入”这些数据,未经告知和征得信息主体同意,直接架空个人信息处理的告知同意规则。可见,在生成式人工智能语料库构建与更新的过程中,无论是被动的个人信息“输入-收录”还是主动的数据爬取,告知同意规则均在一定程度上处于缺位状态。
(二)最小必要原则被虚置的风险
最小必要原则要求信息处理者在处理个人信息时,必须有明确、合理的处理目的,并且该目的必须与个人信息的处理直接相关,同时采用对个人权益影响最小的方式进行处理。该原则包括三方面的内容,即最小化、相关性和合比例性。最小必要原则源自传统的比例原则,是国内外法律实践中被普遍接受的个人信息处理原则,我国个人信息保护法草案历次审议稿中均包含关于最小必要原则的规定。然而,在生成式人工智能应用实践中,存在着信息收集超出必要范畴、信息处理期限不明、信息用途不清晰等问题,这些问题导致最小必要原则难以得到有效的贯彻。
首先,最小必要原则中的信息处理最小化要求个人信息处理应限制在为实现特定目的所必不可少的范围内,即离开某项个人信息的处理,就无法合理地通过其他手段实现目的。信息处理最小化可进一步细化为最少数量、最少类型、最短存储时间、最小共享范围、最低处理频率等具体内容。生成式人工智能作为一个超大型语言模型,通常需要逾亿万单词的人类语言数据支持。海量训练数据的收集是其获取语言生成能力、上下文理解能力和世界知识能力的关键前提,但也可能因此在信息处理数量、频率、类型等方面违背信息处理最小化要求。例如,在生成式人工智能应用实践中,由于其数据处理方式的复杂性和不确定性,往往难以确定个人信息的处理期限。当生成式人工智能的应用场景发生变化或数据集需更新时,信息处理者可能需要重新处理之前收集的个人信息。这种情况可能会导致信息主体只同意了一次处理,却面临自己的个人信息被无期限处理的情形,这与个人信息处理的最小必要原则不相符。其次,根据《个人信息保护法》第6条第1款,最小必要原则中的相关性要求必须是直接相关,即实现处理目的与个人信息处理之间具有必然的、紧密的联系。在语料库构建过程中,生成式人工智能有时会收集与处理目的无关的个人信息,例如用户的搜索记录、设备信息、通信信息,用户的时区、地点、国家、日期和具体接触时间等。这些信息的收集与最终的文本生成服务之间缺乏必要联系,违背最小必要原则中的相关性要求。最后,最小必要原则中信息处理合比例性要求个人信息处理所带来的风险与特定目的实现所带来的利益相比须符合一定比例。然而,生成式人工智能语料库数据中包含大量敏感的用户个人身份信息,如姓名、电子邮件地址、电话号码等,而这些信息并非实现优化模型目的必不可少,一旦这些敏感个人信息泄露或被不当利用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害。因此,处理敏感个人信息所带来的风险与实现特定目的所带来的利益(优化语言模型)相比显着不合比例,不符合最小必要原则中最小化、合比例性两个子原则的要求。
(三)虚假信息生成与累积的风险
生成式人工智能强大的泛化和生成能力也为个人信息保护带来一系列负面影响,尤其是大量虚假信息生成与累积。根据《个人信息保护法》第8条,处理个人信息应当保证个人信息的质量,避免因个人信息不准确、不完整对个人权益造成不利影响。然而,据美国新闻可信度评估与研究机构NewsGuard测试,ChatGPT模型能够在极短时间内改变信息,生成大量令人信服但缺乏信源的内容。究其原因,生成式人工智能生成的内容是基于对语料库的学习和预测,是一种经验的再现,并非从语义和逻辑角度进行推理和判断的产物,对于生成内容本身的真实性和准确性,生成式人工智能无法进行判断。这一特点可能导致生成式人工智能产生大量虚假信息,从而侵害个人信息权益,甚至造成对公共利益和国家利益的危害。
这章没有结束,请点击下一页继续阅读!