首页 每日新资讯 OLMo 2 1124 7B Preference Mixture是什么模型如何用

OLMo 2 1124 7B Preference Mixture是什么模型如何用

作者:每日新资讯
发布时间: 浏览量:2 0

OLMo 2 1124 7B Preference Mixture基本信息介绍

最近AI圈又出新模型了,就是这个长得像密码的OLMo 2 1124 7B Preference Mixture,第一次看到这名字我还以为是某种代码版本号,后来查了资料才知道,这串字符每个部分都有讲究,OLMo全称是Open Language Model,听名字就知道,这是个主打开源的语言模型,背后是艾伦人工智能研究所(AI2)在搞,他们之前就出过OLMo 1,这次的2代算是升级版。

2 1124可能是版本和日期的组合,比如2024年11月发布的2.0版本,不过官方没明说,我猜的哈,7B指的是模型参数量,70亿参数,在现在动辄百亿千亿的大模型里算“轻量级选手”,但好处是普通电脑也能跑起来,不用非得租服务器,最关键的是后面的Preference Mixture,翻译过来是“偏好混合”,简单说就是模型训练时用了一堆人类觉得“好”的回答数据,让它更懂我们想要啥样的回复,这点后面细说。

OLMo 2 1124 7B Preference Mixture是什么模型如何用

我去官网翻了翻,这模型定位很明确:给开发者和研究者用的开源工具,你可以随便下载、修改、商用(只要遵守开源协议),不像有些模型藏着掖着,OLMo 2 1124 7B把训练数据、代码、模型权重全公开了,连训练日志都能看,这点我觉得特良心,毕竟现在“开源”俩字儿都快被玩坏了。

OLMo 2 1124 7B Preference Mixture核心技术解析

技术这块儿我这种非专业选手看着头疼,但硬着头皮啃了啃,发现OLMo 2 1124 7B Preference Mixture还真有两下子,核心亮点主要在“Preference Mixture”上,它不是用单一的偏好数据训练,而是把好几种不同场景的人类偏好数据混在一起,像厨师调酱一样,生抽、老抽、蚝油按比例来,最后出来的味道才独特。

它的训练分两步:先在海量文本数据上预训练,打好语言基础;然后用Preference Mixture数据做对齐训练,这些偏好数据包括啥呢?有对话场景的(比如聊天时哪种回复更友好)、任务场景的(比如写邮件时哪种格式更专业)、安全场景的(比如拒绝生成有害内容时怎么说更得体),模型学了这些,回答问题时就不会像个愣头青,而是知道哪种答案更合人心意。

还有个技术点是架构优化,虽然还是Transformer那套,但团队优化了注意力机制,让7B模型跑起来更快,推理速度比上一代提升了20%,我自己试的时候,用我那台三年前的游戏本(显卡RTX 3060,12G显存)跑对话,响应速度跟聊天软件差不多,不会卡顿,这点比有些7B模型强多了。

OLMo 2 1124 7B Preference Mixture训练数据特点

模型好不好,数据是根基。OLMo 2 1124 7B Preference Mixture的训练数据有三个特点:量大、干净、混合得巧,先说量,预训练数据用了1.2万亿tokens,差不多是把全网公开的书籍、网页、论文都扒拉了一遍,不过都是合法授权的哈,这点AI2做得很规矩。

干净这点特别重要,我之前用某模型写东西,经常冒出一些奇怪的句子,后来才知道是训练数据里混了垃圾信息,OLMo 2 1124 7B用了一套叫“CleanCrawl”的清洗工具,把重复的、低质的、有偏见的数据全筛掉了,保留的都是高质量文本,举个例子,它会自动识别并剔除那些“标题党”文章,还有机器生成的无意义内容,这点我觉得特别加分。

最绝的是Preference Mixture数据的配比,团队找了200多个标注员,让他们给不同任务的回复打分,然后按“对话占40%、任务占35%、安全占25%”的比例混合,这种配比不是拍脑袋决定的,是通过实验测出来的——试过对话占60%,结果模型太“话痨”;安全占50%,又太“拘谨”,最后这个比例让模型既能聊得来,又能干活,还不容易“翻车”。

OLMo 2 1124 7B Preference Mixture适用场景有哪些

别看OLMo 2 1124 7B Preference Mixture参数不算顶大,但能干的活儿可不少,我总结了几个特适合它的场景,普通用户也能上手。

第一个是个人助理,比如你问它“明天天气怎么样,要不要带伞”,它不光会告诉你温度降水概率,还会根据你的历史对话推荐穿啥衣服,像“你昨天说膝盖疼,明天降温记得穿秋裤”,比Siri还贴心,我上周让它帮我整理购物清单,它自动分了“生鲜”“日用品”“零食”三类,还提醒我“上次买的洗发水快用完了,记得加进去”,这细节真的爱了。

第二个是内容创作,写小红书文案、公众号文章、甚至短视频脚本都能行,我帮朋友写美妆种草文,给它输入“油痘肌粉底液推荐,要平价、持妆久”,它不光列了产品,还写了“上脸像开了磨皮,T区6小时不泛油,学生党冲就完事”这种网感十足的句子,比我自己憋半天强多了。

第三个是学习辅助,大学生写论文查文献时,它能帮你总结论文重点;高中生解数学题,它会一步步讲思路,而不是直接给答案,我表妹高三,上次问它“怎么背英语单词不容易忘”,它给了个“场景联想法”,还举例“背‘abandon’时想‘abandon(放弃)治疗,因为太难背了’”,把她逗得不行,记单词倒真快了。

OLMo 2 1124 7B Preference Mixture是什么模型如何用

还有个小众但实用的场景:代码辅助,虽然比不过专门的代码模型,但写点简单的Python脚本、处理Excel数据啥的足够了,我用它写过一个批量重命名文件的脚本,只说了“把‘IMG_日期_数字.jpg’改成‘YYYYMMDD_数字.jpg’”,它直接把代码写出来,还加了注释,我这种半吊子程序员都看懂了。

OLMo 2 1124 7B Preference Mixture与同类模型对比

现在7B模型一大堆,OLMo 2 1124 7B Preference Mixture凭啥让人选它?我拿它跟最火的几个比了比,优势还挺明显。

先跟Llama 3 8B比,Llama 3确实强,但它是Meta家的,虽然开源但商用有门槛,而且模型文件大,普通电脑跑起来费劲,OLMo 2 1124 7B是完全开源,商用随便,而且优化了推理速度,同样的电脑配置,它比Llama 3 8B响应快15%,显存占用少20%,对学生党和小开发者太友好了。

再跟Mistral 7B比,Mistral以“快”著称,但偏好对齐是短板,有时候回答太生硬,OLMo 2 1124 7B因为用了Preference Mixture,回复更自然,比如问“推荐一部电影”,Mistral可能列个清单,而OLMo会说“你上次喜欢《星际穿越》那种硬核科幻,试试《沙丘2》?画面超震撼,剧情也烧脑”,这种个性化推荐Mistral就差点意思。

还有Phi-3 Mini,微软的小模型,擅长推理,但数据透明度低,训练细节藏着掖着,OLMo 2 1124 7B把所有训练数据来源、清洗代码、对齐方法全公开了,你甚至能看到它在哪个数据集上表现不好,方便自己微调,对研究者来说,这简直是宝藏,不用担心“黑箱”问题。

当然它也有缺点,比如在多语言支持上不如Llama 3,中文处理偶尔会出小错,但整体看,在“开源、易用、对齐好”这三个点上,OLMo 2 1124 7B可以说是7B模型里的六边形战士了。

OLMo 2 1124 7B Preference Mixture使用注意事项

OLMo 2 1124 7B Preference Mixture虽然不难,但我踩过几个坑,跟大家分享下,免得你们重蹈覆辙。

第一个是硬件要求,虽然是7B模型,但别以为随便啥电脑都能跑,最低配置得有8G显存的显卡,最好是12G以上,不然加载模型时会报“内存不足”,我朋友用核显电脑试,直接卡到死机,最后还是乖乖借了我的游戏本才跑起来,CPU和内存也别太差,i5/R5以上,内存16G起步,不然推理时会很卡。

第二个是模型下载,官方只在Hugging Face和GitHub上放了模型,别去乱七八糟的网站下,容易中病毒,下载时注意选对版本,“Preference Mixture”是对齐后的版本,还有个“Base”版是没对齐的,别下错了,模型文件挺大,大概13G左右,记得连WiFi,流量党伤不起。

第三个是输入格式,它对输入格式有点小挑剔,特别是对话场景,最好用“[INST]你的问题[/INST]”这样的格式包裹,不然可能答非所问,我第一次没用格式,问“今天吃啥”,它居然开始讲“今天天气如何”,后来改了格式才正常。

伦理使用,虽然模型做了安全对齐,但别用它干坏事,比如生成虚假信息、恶意代码啥的,AI2在协议里写得很清楚,misuse要自己负责,咱还是老老实实用来学习工作吧,别给自己找不痛快。

OLMo 2 1124 7B Preference Mixture是什么模型如何用

OLMo 2 1124 7B Preference Mixture应用案例教程

光说不练假把式,我给你们讲讲我上周用OLMo 2 1124 7B Preference Mixture做的一个小项目——帮我妈做旅游攻略,step by step教你们怎么用。

第一步,准备工作,我先在Hugging Face上搜“OLMo 2 1124 7B Preference Mixture”,找到模型页面,点“Download”下载模型文件,因为我电脑显存12G,选了“fp16”版本(半精度,占空间小),大概13G,下了40分钟,同时装Python和Transformers库,命令行输“pip install transformers accelerate torch”,搞定。

第二步,写代码加载模型,打开VS Code,新建个Python文件,代码很简单:先导入库,然后用AutoModelForCausalLM和AutoTokenizer加载模型和分词器,这里有个坑,直接加载会很慢,记得加device_map="auto",让电脑自动分配GPU内存,代码大概长这样:

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "allenai/OLMo-2-1124-7B-Preference-Mixture"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

第三步,生成旅游攻略,我妈想去桂林玩3天,我输入指令:“[INST]帮我制定一份桂林3天旅游攻略,适合50岁左右人群,体力中等,喜欢自然风景,预算2000元/人,[/INST]” 点击运行,模型开始思考,大概10秒后出结果。

结果超惊喜!它不仅列了每天的行程(第一天漓江竹筏、象鼻山,第二天遇龙河骑行、银子岩,第三天世外桃源、返程),还标了每个景点的门票价格、最佳游览时间,甚至提醒“遇龙河骑行选电动筏子,省力”“银子岩溶洞湿滑,穿防滑鞋”,预算也算了,门票+住宿+吃饭刚好1980元,完美卡在2000以内,我妈看完直夸“比旅行社的攻略还贴心”。

第四步,优化调整,我妈觉得第二天行程有点赶,我又输入“第二天想减少一个景点,换成轻松点的活动”,模型马上把银子岩换成了“靖江王府+东西巷”,还解释“王府逛着不累,东西巷能吃桂林米粉,适合休息”,整个过程不到半小时,一份定制化攻略就搞定了,比自己查攻略省太多事。

常见问题解答

OLMo 2 1124 7B Preference Mixture是免费的吗?

必须是免费的啊!这模型是开源的,不管你是学生党还是打工人,都能免费下载使用,一分钱不用花,不过要注意哦,虽然模型本身免费,但跑它可能需要稍微好点的电脑,特别是显卡,要是你家电脑太旧,可能跑不起来,得升级下硬件才行,这点得自己搞定啦。

OLMo 2 1124 7B和Llama 3哪个更适合新手用?

我觉得OLMo 2 1124 7B更适合新手!它的官方文档写得超级详细,从怎么下载到怎么调参数,一步一步都有教程,社区里还有很多大佬分享经验,遇到问题随便搜搜就能解决,Llama 3虽然厉害,但对电脑配置要求高,而且文档有点复杂,新手容易看晕,OLMo 2 1124 7B用起来就像玩游戏一样简单,我这种电脑小白都能上手,强烈推荐新手试试!

怎么在自己电脑上用OLMo 2 1124 7B Preference Mixture?

不难不难,跟着我做就行!首先你得有台带显卡的电脑,显存最好8G以上,然后去Hugging Face官网搜“OLMo 2 1124 7B Preference Mixture”,下载模型文件,接着安装Python和几个库,具体命令网上都有,复制粘贴就行,最后写几行代码加载模型,输入你的问题,它就会回答啦,要是中间卡住了,别慌,去B站搜教程,很多up主都做过,跟着视频一步步来,保准能成!

OLMo 2 1124 7B能用来写作业吗?

写作业当然可以用,但千万别全抄它的答案哦!它能帮你理思路、找资料,比如写作文时给你几个开头,或者解数学题时提示公式怎么用,我上次写历史小论文,不知道从哪下手,就问它“辛亥革命的影响有哪些”,它列了政治、经济、社会三个方面,还举了例子,我照着这个框架写,很快就写完了,不过老师说过,自己思考最重要,用它当助手可以,直接抄就没意思啦。

欢迎 发表评论:

请填写验证码

评论列表

暂无评论,快抢沙发吧~