首页 每日新资讯 可灵大模型是智能AI助手 如何实现多模态交互

可灵大模型是智能AI助手 如何实现多模态交互

作者:每日新资讯
发布时间: 浏览量:2 0

可灵大模型基础信息介绍

可灵大模型是科大讯飞推出的新一代认知智能大模型,定位就像给手机装了个会思考的大脑,能听懂人话还会看图说话,它跟普通聊天机器人不一样,主打“多模态交互”,简单说就是不管你发文字、图片还是语音,它都能接住话茬还能给出有用的回应,我第一次用的时候是朋友安利的,当时随手发了段夹杂着四川方言的语音,说“帮我看看明天成都的天气,顺道推荐个吃火锅的地方”,本以为会像其他工具一样让我“请说普通话”,结果它直接回“明天成都阴转小雨,温度18到24度,穿薄外套合适哈,火锅的话,牛市口那家老灶火锅味道巴适,就是要早点去排队”,那瞬间感觉不是在跟机器聊天,倒像是在跟住在成都的发小唠嗑。

可灵大模型是智能AI助手 如何实现多模态交互

可灵大模型核心功能有哪些

可灵大模型的核心功能就像个全能型选手,文本、图像、语音样样拿手,文本交互方面,你让它写个请假条、改段文案,甚至分析一篇文言文,它都能快速搞定,有次我帮同事改产品介绍,初稿写得干巴巴的,我把需求丢给可灵大模型,说“要突出年轻人喜欢的潮酷感,加点网络热词但别太夸张”,三分钟后它就给了三个版本,其中一句“上手秒变科技潮人,朋友圈晒图点赞数直接翻倍”被同事拿去用了,后来反馈说客户看了都觉得“这文案懂我们”。

图像理解功能更绝,可灵大模型像博物馆讲解员,拍文物照片能讲朝代工艺和纹路细节,上周去博物馆玩,看到一个青铜鼎不知道是啥,拍了张照发给它,它不仅说出是西周的饕餮纹鼎,还解释“饕餮纹代表威严,当时贵族用来象征权力”,连旁边的游客都凑过来看我的手机屏幕,问“你这用的啥APP啊,比导游讲得还清楚”。

语音对话也很能打,支持十几种方言和外语,连“夹生普通话”都能精准识别,我奶奶不会用智能手机,上次教她用可灵大模型打电话,她用湖南方言说“帮我查下去长沙的火车”,它立刻播报“明天有三趟高铁,最早的是早上8点15分,二等座还有票”,奶奶听得直点头,说“这东西比孙子还听话”。

可灵大模型产品定价情况

关于可灵大模型的定价,我特意翻了APP设置和官网,目前官方暂无明确的定价方案,基础功能比如文本聊天、语音问答、简单图像识别这些都是免费的,每天能用的次数也没限制,不过高阶功能像是长篇文案生成、复杂图表分析、专业领域知识库查询这些,现在处于内测阶段,需要申请试用资格,我前阵子申请了“职场办公套餐”的内测,用它生成过季度工作总结的数据分析图表,确实比自己用Excel捣鼓快多了,至于以后正式上线会不会收费,客服说“还在调研用户需求,会尽量让大部分人用得起”。

可灵大模型适用场景推荐

学生党用可灵大模型简直是“学习搭子”,我表妹上初二,数学的几何证明题老是卡壳,她把题目拍给可灵大模型,它不会直接给答案,而是用动画演示辅助线怎么画,还标注“这里要用到全等三角形的判定定理”,现在她数学作业的正确率提高了不少,老师都问她“最近是不是请家教了”。

职场人用它办公能省不少事,我们部门每周要开例会,以前记录会议纪要得全神贯注听两小时,现在用可灵大模型的语音转文字功能,边开会边录音,结束后它自动把重点内容标出来,还分了“待办事项”“问题反馈”“决策结果”三个板块,我只要稍微修改下就能发给领导,上周因为这个还被表扬“工作效率高”。

日常生活里它也超实用,周末想在家做饭,打开冰箱拍张照,它能根据现有食材推荐菜谱,连调料放多少都写得明明白白;出去旅游订酒店,把预算和偏好告诉它,它会对比好几家平台的价格,还提醒“这家酒店靠近地铁站,但早餐评分一般,要不要换个带免费早餐的”,比我自己刷半小时APP靠谱多了。

可灵大模型是智能AI助手 如何实现多模态交互

可灵大模型使用注意事项

用可灵大模型的时候,有些细节得注意,别发太敏感的信息,比如身份证照片、银行卡号这些,虽然APP里说有加密保护,但小心点总没错,上次我同事为了让它帮忙填报销单,把工资条照片发过去了,结果被系统提示“涉及个人隐私信息,已自动模糊处理”,吓了他一跳,后来再也不敢乱发敏感图了。

网络不好的时候它会“变笨”,有次我在地铁里没网,想让它查下附近的咖啡店,结果等了半分钟才回复“网络连接不稳定,请稍后再试”,后来连了地铁WiFi才正常使用,所以想用它处理重要事情,最好找个网络信号好的地方。

AI的回答别全信,得自己核对一下,之前帮朋友查历史知识点,可灵大模型说“李白是唐朝中期诗人”,我觉得不对,翻了课本发现李白是盛唐时期的,再去问它,它才纠正“抱歉之前记错了,李白活跃于唐玄宗开元、天宝年间,属于盛唐”,所以不管是学习还是工作,用它查资料后最好交叉验证一下。

可灵大模型和同类工具对比优势

跟百度的文心一言比,可灵大模型对中文网络梗的理解更到位,我发过“退退退”的表情包给两个模型,文心一言回“这张图片包含文字‘退退退’,请问需要什么帮助”,可灵大模型直接接梗“这是在驱赶不好的事情吧,需要我帮你念一段‘好运来’吗”,瞬间觉得更懂年轻人的笑点。

和阿里的通义千问比,多模态交互更自然,通义千问切换文本和图像功能时,经常需要重新进入对应模块,可灵大模型就不用,你发完文字接着发图片,它会自动关联上下文,比如你先问“这是什么花”,发完图片再问“能水培吗”,它直接回“这是绿萝,可以水培,记得每周换一次水,放在散光处”,不用重复解释前因后果。

跟国外的GPT-4比,中文语义理解更深,我试过用“你吃饭了吗”这句话测试,GPT-4只会回“我不需要吃饭”,可灵大模型会根据语气判断,要是用轻松的语气发,它回“还没呢,你请我吃火锅吗”,要是用低落的语气发,它会问“是不是遇到啥不开心的事了,跟我说说呗”,这种“察言观色”的能力,确实比纯英文模型更适合中文用户。

可灵大模型多模态交互教程

想用好多模态交互其实很简单,我手把手教你,先在应用商店下载可灵大模型APP,注册登录后首页有四个图标:文字、语音、图片、文件,你想打字聊天就点“文字”图标,直接输入问题就行;想发语音就长按“语音”图标说话,说完松手自动发送;发图片更方便,点“图片”图标可以拍新照片或者从相册选,选好后它会自动开始分析。

可灵大模型是智能AI助手 如何实现多模态交互

我常用“语音+图片”组合模式,比如做番茄炒蛋,先拍冰箱里的鸡蛋、番茄、葱,再长按语音说“这些食材咋做番茄炒蛋”,两秒后它就开始播报步骤:“第一步把番茄切块,鸡蛋打散加少许盐,第二步热锅倒油,先炒鸡蛋盛出来,第三步炒番茄出汁后加鸡蛋,最后放葱花”,连火候“中小火慢炒”都提醒了,跟着做出来的味道比我妈做的还好吃(小声说)。

要是想处理文件,比如PDF格式的合同,点“文件”图标上传,它能帮你提取关键条款,还会标红“需要注意的风险点”,上次我租房签合同,用它扫描完,它提示“这里写了‘提前退租不退押金’,建议跟房东协商修改为‘提前30天通知可退押金’”,帮我避免了以后可能的麻烦。

常见问题解答

可灵大模型免费吗?

可灵大模型现在基础功能是免费的,像跟它聊天、问作业题、查天气、简单的图片识别这些都不用花钱,每天用多少次也没限制,不过要是想用高级功能,比如帮你写完整的毕业论文、分析特别复杂的财务报表,或者调用专业领域的知识库,现在还在内测阶段,得申请试用资格才能用,以后正式上线会不会收费还不知道,反正现在能用的免费功能已经够日常用了,不用白不用嘛。

可灵大模型能帮写作业吗?

可灵大模型能帮写作业,但不是直接给答案哦,你把题目拍给它,它会先给你讲思路,比如数学题会用动画演示辅助线怎么画,还标注用到的公式定理;语文作文会帮你列提纲,给几个开头结尾的例子,甚至提醒“这里可以加个比喻句让文章更生动”,我表弟上小学五年级,上次写《我的校园》作文,它给的提纲里有“描写操场的梧桐树”“写和同学跳皮筋的场景”,表弟照着写出来,老师在班里当范文念了,现在他一写作业就喊“可灵哥哥快帮帮我”。

可灵大模型和讯飞星火有啥区别?

可灵大模型和讯飞星火都是科大讯飞的,但定位不一样,星火更像“学习尖子生”,数学解题、英语翻译、物理公式推导这些学术性的东西特别厉害,适合学生党刷题用,可灵大模型更像“全能管家”,除了学习,生活、工作上的事也能帮你搞定,比如你问星火“周末去哪玩”,它会列一堆景点名字;问可灵大模型,它会先问你“喜欢热闹还是安静,预算多少,想玩一天还是半天”,然后推荐带详细攻略的地方,连怎么坐地铁、哪家店的小吃必吃都告诉你,比星火贴心多了。

可灵大模型需要联网才能用吗?

可灵大模型得联网才能用,没网的时候打开APP会显示“网络连接失败,请检查网络设置”,我试过在没网的电梯里用它查时间,结果没反应,出来连上网后才回复“现在是下午3点15分”,所以用的时候最好确保手机联网,不管是WiFi还是流量都行,不然它就跟睡着了一样,啥功能都用不了,要是经常去没网的地方,建议提前把需要的信息查好存下来,比如旅游攻略、菜谱步骤这些,省得到时候抓瞎。

可灵大模型支持离线使用吗?

可灵大模型现在还不支持离线使用,所有功能都得联网才能调用,我问过客服,他们说“离线功能技术上没问题,但需要把大模型的部分数据压缩到手机里,现在还在优化大小,怕占用太多手机内存”,我手机内存是128G的,要是离线包太大确实装不下,不过客服也说了“会尽快推出轻量版离线功能,比如基础的语音助手、计算器这些,让没网的时候也能用”,具体啥时候上线还没说,只能先等着啦。

欢迎 发表评论:

请填写验证码

评论列表

暂无评论,快抢沙发吧~