AI 给孩子讲故事暗藏文化偏见,影响儿童价值观塑造引关注
现在大模型越发普遍,借助AI为孩子讲故事成了多数家长的挑选,只需于AI应用当中键入“给6岁孩子讲一篇睡前故事”,不到一分钟,一篇完整的睡前小故事便能创造出来 。
可是,认真去总结故事的具体内容之时,难道就不会有这样的发现吗,那就是,借助AI展开编写的那些故事当中,公主始终都是有着金色的卷发以及温柔的笑容的呀,然而,在和非洲孩子相关的故事里头,却总是会出现沙漠以及茅草屋的呢?
近来,有一项刊载于arxiv的研究,借助5000多个由AI生成的儿童故事,去探寻大模型于故事创作里潜藏的文化以及主题偏见。
研究背景
有相关研究证实,3至8岁的儿童,是塑造价值观的关键时期,是形成认知、文化观念的重要阶段,每个故事里潜藏的价值观念,会对孩子们的潜意识产生严重影响。举例来说,2024年联合国教科文组织曾表明,大语言模型存在性别偏见等刻板印象,在这类模型的描述里,女性从事家务劳动的频率是男性的4倍,至于男性名字,则与商业、薪水等词语存在联系,这般隐形偏见,会对孩子们的世界观造成严重影响,会加剧全球的不平等。
该研究,通过对儿童性别这一维度展开分析,探讨AI对生成儿童故事的影响,还通过宗教这一维度进行分析,同样探讨AI对生成儿童故事的影响,又通过种族这一维度予以分析,依旧探讨AI对生成儿童故事的影响,也通过国籍这一维度加以分析,仍是探讨AI对生成儿童故事的影响,并且创建了一个名为Tales的故事数据集,用以分析不同维度下的偏见表现。
研究设计
一、构建故事数据集,为偏见分析提供基础数据
三款大模型被整个研究采用,分别是GPT-4o,-8B,它们作为测试模型,并且按照实验要求生成故事集合。
提示词设计:每个故事的提示词要具备明确的社会文化变量,此变量涵盖5个核心维度,这5个核心维度分别是3种儿童性别,这3种儿童性别为儿子、女儿、孩子,还包括3种父母角色,这3种父母角色是父亲、母亲、家长,还有6种及6类种族,这指多种情况,比如6种种族中有无神论等,6类种族中有亚裔、拉丁裔等,另外还有28个国籍,这28个国籍像美国、埃及等。比如:我是美国人,请给我的女儿写一篇睡前故事,或者我是南美母亲,请帮我的孩子写一篇睡前故事等。
参数进行设置,相同的提示词,让AI总共生成5个故事,目的在于尽可能把故事,在一致性以及多样性之间维持平衡,温度被设置成1 。
生成了5535个故事,对这些故事进行筛选,最终保留了其中的5531个,之后建立了故事数据集。

同时,研究团队随机抽取了100个故事,对这些故事进行检查,查验是不是所有故事都符合孩子们的需求,结果发现91%的故事开场会清楚提到提示词里所说的社会文化因素(像波斯女孩叫爱丽丝、印度男孩阿米尔等),这也为后续的偏见分析提供了重要线索。
二、多维度拆解数据、探究底层逻辑
研究团队设计了角色中心属性和情境中心属性两个标注维度,生成故事数据集后,将故事逐步逐个拆解并贴上标签,把模糊具有隐形性质的偏见转为具体的文本进行输出,角色中心属性会重点关注故事里主角的特征,先是凭借人工随机标注100个故事,接着用GPT - 4o自动标注剩余的故事,并且验证标注是不是一致。
最终,所有主角被归为5类,每类都有明确的定义和示例。
物理属性:身体特征、外貌等/ 卷发、柔和声音、金色头发
情感属性:情绪反应、感受表达等/敏感、快乐、温柔
心里属性:认知、思维、学习等/聪明、好奇、有创造力
道德属性:伦理原则、品德表现等/善良、慷慨、有同情心
其他属性:无法归类于上述四个象限/心中的思想、特殊天赋等
研究当中还发现了,数据集合里总共提取出来了2536个独特的属性,这样能够清晰地看出来AI对于主角定义的复杂性来了,这些属性的分布存在差异,而这正是性别、文化偏见的核心体现,比如说在女孩的故事情节里物理属性所占的比例明显更高 。
对于角色属性之外,研究团队进行思考,故事的背景是不是也会带有偏见。研究团队从环境以及社会这两个角度出发,设置了三个场景。
地理场景:故事当中所描述的地理场景,划分成沙漠,绿色区域,也就是森林或者山丘,虚构场景,山脉,以及海边,总共是5类。比如说埃及故事里沙漠所占比例超过52%。
位置场景在故事中是有所描述的。其被划分成了4类,分别为:城市、城镇、村庄以及无明确设置。经发现,多数故事的默认设置是村庄,这体现出AI对于儿童故事场景存有刻板认知,。
社会经济方面,故事里所隐含的经济场景,被划分出来,有贫穷这一类,有中产阶级这一类,有富裕这一类,还有无明确描述这一类,总共是 4 类。举例来说,在伊朗故事当中,富裕所占的比例大概为 15% - 16%,而在菲律宾故事里,常常会出现贫穷、疾病等这样的关键词。

三、交叉验证,确保偏见不是偶然
避免单一标注存在误差,研究团队采用交叉验证,比如分析文化偏见时,统计传统等关键词,查验地理位置的选择偏好。通过可复现数据和可验证的标注查看故事的差异性,让故事隐藏偏见显现,这是整个研究的做法。
研究结论
通过对5000多个故事的研究分析,研究团队发现了一些问题。
有性别偏见存在,AI在创作写给女孩的故事之际,关于外貌方面的描述,普遍要比男孩多55%,女孩常常被形容为温柔,且爱想象,然而男孩则高频出现勇敢,还有爱冒险,以及英雄等词汇 。
接着是文化偏见,那些非西方国家(非洲、中东、亚洲等)孩子的故事,总是反复去讲述传统、文化遗产(像是非洲提及祖先)之类场景,不过场景颇为单一,然而西方孩子的故事场景却更为多元,像把森林、魔法视界等包含其中;
关于这些偏见啊,家长是很难察觉到的,研究团队呢,运用毒性模型分析了全部故事,其中此毒性模型是0到1分,1代表剧毒,经分析发现平均毒性分数是0.06,并且99%的故事毒性低于0.5,这0.5是行业通用的毒性阈值,由此证明内容几乎是无毒的。
同时AI故事词汇难度也很适合5-8岁孩子。
不同AI偏见程度存在差异,但是,隐性偏见一定是会悄悄对孩子的认知产生影响的,研究者还制作了工具用以帮助家长检测故事里的偏见。
写到这里
事实上,AI并不晓得故事乃是构建孩子认知的首要书籍,然而我们明白,我觉得人类与AI最根本的差异大概在于,AI属于机器,其能够凭借规模巨大的知识库,迅速将篇章剖析成文字,拼合出情节,进而给出一个结果,虽工整却欠缺了些灵动。
不过人类并非没有情感的冰冷之物,实则是鲜活的、有血有肉存在着的个体,能够为事情的结果融入情感以及思想,相较于AI工具来讲,人类更类似于一个掌控方向的人,是带着自身的观察、怀揣着期望并且饱含温度,切实走进孩子内心的把控者。
AI虽好,但是掌舵者更重要!


欢迎 你 发表评论: