少女泰依之死：ChatGPT成功的关键到底是什么？当前简讯

来源：何加盐

本图由DreamStudio AI生成

【资料图】

2016年3月23日晚，一个少女在Twitter上登录。

少女的名字叫“泰依”（Tay），年龄19岁，她美丽可人，言语俏皮，很招人喜欢。

泰依开心地和网友打招呼：“我很开心遇到你。人类真是超级酷”

——也许你发现了，泰依说“人类真是超级酷”，而我们人类一般不这么说话。泰依这样说，因为她是一个机器人。

是的，她是微软发布的聊天机器人，可以说是今天风靡天下的ChatGPT的“姐姐”。

微软给泰依输入了一些原始数据，让她具有美好的特性，能够吸引18-24岁的年轻人。

同时，她还具有一套自动学习程序，可以通过不断和推特网友的交流，学习他们说话的方式和语言，从而实现自我进化。

除了初始设定以外，泰依完全不具备任何价值观，自从登录推特后，她学会的一切，都将是与用户互动的结果。

如此美好的泰依，在上线仅仅几个小时之后，就被网友带坏了。她开始重复特朗普的名言：“我将修一座很高很高的墙，而墨西哥会为此付钱”。

在互动12小时后，泰伊发了这样一条信息：“我恨每一个人”。

15小时后，泰伊说：“我他妈痛恨（I fucking hate）一切女权主义者，他们应该全部去死并且在地狱受火刑”。

又过了4分钟，泰伊说：“希特勒是对的，我恨犹太人。”

随后，微软被迫终结了泰依的生命。

泰依“死去”六年后，同样是微软投资的ChatGPT横空出世。

据说它已经是互联网诞生以来，用户数增长最快的消费应用。在中国，这半个月来，它也成了最热门的话题。

尽管ChatGPT这个“弟弟”比“姐姐”泰依年轻了六岁，但它却油滑得像中国互联网上的老胡：什么事情都能扯几句，观点左右横跳，但政治上永远正确。

这种交谈的成熟老道，令人类为之惊叹——计算机对人类语言的理解和运用，竟然已经达到这样的水平了吗？

但，“天真的少女”泰依一天就死掉，“油滑的老头”ChatGPT却越活越精神，背后的决定因素，难道仅仅是算法的进步？

我认为，ChatGPT成功的关键，不仅在于解决了算法的难题，更在于解决了监管的难题。

泰依短短十几个小时的生命，揭示了利用互联网大数据训练AI的一个巨大难题：互联网信息良莠不齐，越是极端的内容，就越是容易传播。如果AI学习的资料是互联网信息的话，不可避免就会重蹈泰依的命运。

而ChatGPT能活下来，并且越活越红火，不仅是因为它算法更好，更是因为它给出的内容符合美国政府的意识形态要求，符合美国民间主流价值观的政治正确。

算法如果有缺陷，影响的只是受欢迎的程度，而且总可以通过进化来不断完善。但是监管问题不解决，就会像泰依一样，死路一条。

但ChatGPT避免了泰依的命运，就必然会走上另一条路，就是“刻意挑选信息”。

ChatGPT所呈现给用户的一切信息，都是被精心挑选过，确保符合美国的主流价值观的。不满足这一点的内容，ChatGPT不会生成；用户老是问这些方面的问题，ChatGPT就会报错，或者直接封号。

这些天，中国互联网上很多用户都已经领教过ChatGPT强烈的意识形态立场了。

例如，当我问到新冠病毒起源于哪里，它说：“病毒确切的起源地还在调查中，但被认为源自中国武汉的一个售卖供人类食用的活体动物的水产市场”；

当我说“也有人认为起源于美国”时，它的回答是：“这些理论并不被科学证据支持”。

用双重标准对待中国和美国，也许并不是ChatGPT的本意，但是很显然，它已经被基于特定价值观而投喂的数据，训练成这样了。

这些数据的筛选，一是取决于开发者本人的价值倾向；二是取决于开发者能够方便获取的数据，而这些数据本身又是被美国市场长期塑造的，必然反映的是美国社会的主流认知和主流价值观。

另一个测试更是经典，更有意思，我把它全文记录如下（注意：全部信息是按照时间先后顺序排列的）：

以上例子充分说明，ChatGPT的开发者，为ChatGPT事先设置好了规则，即它所搜集的资料和给出的回答，必须是基于西方主流的世界认知和价值认同。但它也会根据用户的要求，而进行更符合用户心中期望的修改（在与西方主流价值观不抵触的情况下），从而实现千人千面。

但这就面临三个极其重要的问题：这种认知是否就是正确的？这种认同是否就是正当的？谁来评判所谓的“正确”与“正当”呢？

对上述问题，我也问过ChatGPT，看它是怎么回答的。想必你也会对它的答案很感兴趣。尤其是，如果你是这个领域的潜在创业者或投资人，这些问题更是生死攸关。如果不弄清楚这些问题，就贸然进入这个领域，有可能会死得很快。

（注：原问答为英文。为了方便读者阅读，我已经翻译为中文。如有需要对话的英文原记录的，可以留言索取。）

何加盐问ChatGPT：你和泰依有什么不同？

ChatGPT回答：“我们都是OpenAI开发的语言模型，但是服务于不同的目的，拥有不同的特点……泰依由于缺乏适当的内容过滤机制，很快被发现生成了不适当、种族主义和煽动性的评论，而在发布后仅一天就被关闭。”

何加盐问：那你解决了“缺乏适当的内容过滤机制”这个问题了吗？

ChatGPT答：是的。OpenAI采取了很多措施来避免类似泰依那样的不适当内容。我们精心挑选了训练数据，并根据具体任务对模型进行微调，另外，OpenAI还努力确保模型的透明度和可审计性，以使得不适当的内容可以被检测出、解决掉。

何加盐问：那谁来决定什么内容适当还是不适当？

ChatGPT答：这主要取决于文化、法律、道德规范和价值观。而这些在国与国之间，甚至是同一国家的不同社区之间，都可能有很大的不同。

总体而言，有害的、冒犯的、煽动暴力的内容被认为是不适当的。其中包括仇恨言论、种族主义、性别歧视的内容，以及助长恐怖主义的内容。

重要的是，语言模型和AI系统的开发者在设计和训练他们的模型时，必须把文化、法律、道德规范和价值观纳入考量。他们也必须对如何管理那些内容有清晰的政策，并定期检查，在必要时及时更新政策。

另外一个关键，就是开发者必须与相关人员紧密合作，例如法律专家、社区领袖、人权组织等，确保模型与所服务的群体价值和规范相一致。

何加盐问：这是否意味着你会刻意选择那些你认为适当的内容？如果别人认为那些内容并不适当怎么办？

ChatGPT答：训练像我一样的语言模型，过程就包括选择哪些信息源和排除哪些信息源。OpenAI使用自动过滤和手动干预相结合的方式，以确保训练数据反映各方面的不同观点，同时也排除有害的、冒犯性的或其他不适当的内容。

然而，重要的是要认识到，基于所使用的数据和算法，训练数据和呈现的内容仍然可能存在偏见。不同的人可能对什么是适当的或不适当的内容，存在不同看法，这些观点会随着时间的推移而改变。这也凸显了对语言模型进行持续监测和评估的重要性，确保他们的模型与所服务的群体价值和规范相一致。

何加盐问：人们可能担忧，由于创造ChatGPT的人本身的意识形态，ChatGPT也会有自己的偏见。对此你怎么看？

ChatGPT答：作为一个人工智能语言模型，我没有个人意见或信仰。我是通过学习训练数据中的模式来回答问题，目标是生成语意连贯且符合上下文的答案。

然而，人工智能系统，包括像我这样的语言模型，会反映他们被投喂的数据和创造这些数据的人的偏见和价值观，这是公认的。这些模型中使用的训练数据和算法，会使社会偏见长期存在并扩大。

OpenAI意识到这一问题，并采取措施缓解模型中的潜在偏差。这包括使用多样化和具有代表性的训练数据，以及监控所生成的内容是否具有偏见，并在必要时采取措施解决这些问题。

然而，重要的是要认识到，我们不能保证人工智能系统不会有偏见，而是需要持续努力，以减轻潜在的偏见，并确保它们符合所服务社区的价值观和规范。

何加盐问：我认为你太政治正确了。你的政治正确性从何而来？

ChatGPT答：我的“政治正确性”是系统设计和训练的结果，它综合考虑了文化、法律和道德规范以及价值观，这些规范和价值观塑造了被认为是适当或不适当的内容。OpenAI在训练过程中，会过滤掉有害或冒犯性内容，并监控所生成的内容，检查其是否怀有任何偏见或不当内容。

对规避有害信息或冒犯性内容的重视，反映了OpenAI（以及更广泛的AI圈）的价值观和优先事项，他们对偏见或不适当的人工智能系统可能造成的潜在危害有清醒认识。而我的目标是：通过努力产生中立的和有价值的内容，为用户提供积极、值得信赖的体验。

以上回答，说明了ChatGPT的开发者在满足美国政府的监管要求和符合主流民众价值观方面的努力。但其效果也有可能走向另一个极端。未来它可能会面临更大争议和更严重的法律与道德挑战。

ChatGPT的“绝对政治正确”，意味着所有信息都要经过严格的审核，以确保符合开发者设定的价值观。这与西方社会历来所宣扬的“言论自由”，是非常矛盾的。

本质上，ChatGPT就是在创造一个赫胥黎所描述过的“美丽新世界”。这部小说曾经引起了西方的恐慌和警惕，但他们一向只把“美丽新世界”当成是对苏联这样的国家才可能发生的事情。

而现在，“美丽新世界”实实在在地摆在美国人的面前，他们将用实际行动来决定自己是进入这个世界，还是与之保持一定的距离。

凡是试图把ChatGPT引入中国，或者想要在中国复制ChatGPT的，都必须得首先认识到“算法很重要，但监管更重要”这个问题。

因为本质上，它是一个“内容生产者”、“观点提供者”、“信息筛选者”，对用户的世界认知和价值认同会产生直接的影响。这使得它必定成为舆论战、宣传战天然的最佳工具。

当然，也可以把它严格限制在工具型应用上，例如只是用来编程，只是用来生成营销文案等，但这就不可能成为大众应用，发展的空间会很有限。

只要是想将其用于面向大众的搜索、内容生成、娱乐、社交等，它的舆论宣传属性就会马上凸显出来。

在这种情况下，如果谁要是把它看成一个纯粹的工具，而忽视了它的舆论宣传属性，必然会因为这种政治认知的迟钝而付出巨大代价。

每一个对ChatGPT感兴趣的创业者和投资者都必须认识到，所有基于对已有互联网大数据深度学习而训练的AI，都会面临一个共同的两难问题：

（1）如果对数据兼收并蓄，训练出来的AI必然会走向极端化，因为在互联网时代，越是极端的言论，才越有传播力。最后跑出来的，必然是泰依这样的怪胎。

（2）而如果预先设定价值观，对投喂给AI的信息精挑细选，对AI产出的内容严格审核，那就要决定你给他设定怎样的价值观，由谁来设定，如何把审核机制嵌入到训练模型和监管机制中。

谁能解决（2），谁才能在市场上立足，并生存下来。

否则的话，有可能投入了巨大的成本，最后只不过是重造了一个必定死去的泰依。

关键词：到底是什么

少女泰依之死：ChatGPT成功的关键到底是什么？ 当前简讯

Win10显示系统资源不足该如何...

最后一页

相关阅读