华南理工等机构提出新型手写文字生成方法,仅需少量样本即可模仿用户书写风格
华南理工大学的研究者们,新加坡国立大学的研究者们,香港理工大学的研究者们,以及琶洲实验室的研究者们,联合提出了一种有趣的手写文字生成方法。这种方法呀,只要提供少量的参考样本,就能临摹用户的书写风格,然后呢,进而生成符合该风格的任意文字 。
笔迹模仿 AI 的研究背景
俗语有言,见字如面,字如其人呀。相较于呆板的打印字体而言,手写体更能够体现书写者的个人特点哟。不难相信,很多人都曾经设想过,拥有一套归属于自己的手写字体呢。将之运用在社交软件里,从而更好地展示自己的个人风格呀。
然而,和英文字母不一样,汉字的数量极为庞大,要创造一套属于自己的独特字体,付出的代价非常高昂。比如说,最新公布的国标 -2022 中文字符集涵盖 8 万多个汉字。有消息报道,某视频网站的博主花费了 18 个小时写完了 7000 多个汉字,期间耗费了整整 13 支笔,手都累得麻木了!
针对上述问题,论文作者展开了思考,能不能设计出一个文字自动生成模型来协助解决专属字体创造成本高的问题呢?为处理这一问题,研究者有了设想,提出一个具备笔迹模仿能力的AI,只需用户给出少量手写样本(大概10几张),便能够提取笔迹里包含的书写风格,像字符的大小、倾斜程度、横宽比、笔画的长短以及曲率等,并且依照这般的风格临摹进而合成更多文字,以此为用户高效合成一整套手写字体。
进一步而言,论文的作者是从应用价值以及用户体验这两个不同角度着手,针对该模型的输入模态以及输出模态展开了如下这般思索:其一,鉴于序列模态的在线字体( )相较图像模态的离线文字( )而言,涵盖着更为丰富的信息(轨迹点的具体详细位置以及书写顺序,情况如下方所展示的图片那样),所以把模型的输出模态设定为在线文字将会具备更为广泛的应用前景,像能够应用于机器人写字以及书法教育等方面 。置身于日常平常生活里,跟借助平板还有触摸笔等那样的采集设备来获取在线文字相比较而言,人们凭借手机去拍照从而获取离线文字反而显得更为便捷便利。所以呀,把生成模型的输入模态设定为离线文字,这样子用户使用起来就会显得更加便利方便啦!
总的来说,此项研究的目标是,给出一个风格化的在线手写文字生成模型,它能够临摹依托于用户所给予的离线文字里所包含的书写风格,同时还能够紧跟着用户的需求在线生成内容可加以控制的手写笔迹 。
主要挑战
为达成上边提到的目标,研究者们剖析了两个关键要点,其一,鉴于用户仅能给出少量的字符样本,那么能不能只从这些为数不多的参考样本里去学习用户独具的书写风格呢,也就是说,依据少量的参考样本临摹用户的书写风格有没有可行性呢;其二,本文的研究目的不但要做到生成的文字风格是可调控的,而且内容也要可控,所以,在学到用户的书写风格之后,怎样把该风格与文字内容高效地融合起来,进而生成符合用户期望的手写笔迹呢 ?随后,我们来瞧瞧,这篇在CVPR 2023被提出来的SDT(style )方法,针对这两个问题,究竟是如何予以解决的呢。
解决方案
研究者发现,个人笔迹中通常存有两种书写风格,其一,相同书写者的笔迹有着一种整体上的风格共性,各个字符展现出类似的倾斜程度以及宽高比,并且不同书写者的风格共性各不一样,鉴于这种特性能够用来区分不同的书写者,研究者们将其称作书写者风格;其二,除了整体上的风格共性之外,来自同一书写者的不同字符之间存在着细节上的风格不一致。例如, “黑” “杰”二字符,字符结构有相同四点水部首,该部首在不同字符中有微弱书写差异,体现在笔画长短、位置、曲率等方面。研究者称这种字形方面细微风格模式为字形风格。受上述观察启发,SDT旨在从个人笔迹中解耦书写者与字形风格,期望提升对用户笔迹风格模仿能力。
在学习到风格信息之后,与以往那种把风格和内容特征进行简单拼接的手写文字生成方法不一样,SDT把内容特征当作查询向量,能够自适应地捕获风格信息,进而达成风格和内容的高效融合,生成契合用户预期的手写笔迹 。

整体框架的方法框架之中,SDT 的那个整体框架呈现如接续排列的图形所示,它涵盖的部分有双分之样式的编码器,还有内容编码器以及解码器这三项。首先,在本文之中提出了两个具备互补性质的对比学习目标,以此来引导风格编码器的书写者分支与字形分支去就各自对应的风格提取展开学习。而后,SDT 借助带有注意力机制(multi - head)的方式,针对风格特征和内容编码器所提取到的内容特征予以动态融合,逐步推进式地合成在线手写文字。
SDT提出了面向书写者风格提取的有监督对比学习目标,此目标用于书写者风格对比学习,它能把属于相同书写者的字符样本聚集到一起,还会将属于不同书写者的手写样本推远,以此显示地引导书写者分支去关注个人笔迹里的风格共性。
(以)字形风格当中的对比进行学习,为了能够去学习更为细节的那种字形风格的情况,提出无监督的对比学习目标,用于将相同字符不同视角之间相应互信息予以最大化的 SD T,鼓励字形分支专门致力于学习字符里的细节模式。像下面这样具体呈现,首先针对同一张手写字符开展两次独立的采样,得以获取由一对含有笔画细节信息所构成的正样本。
,然后从其他字符中采样得到负样本
每一回开展采样之际,随机挑选少量的样本块当作涵盖原始样本细节的崭新视角,样本块取样遵循平均分布,防止字符的某些区域遭过度采样,为予以更佳引导字形分支,采样进程径直施用于字形分支输出的特征序列之上。
(c)风格跟内容信息的融合策略,在获取了两种风格特征之后,要怎样把它跟内容编码器所学得的内容编码进行高效融合呢?为处理这一问题,在任意的解码时刻t,SDT把内容特征当作初始点,随后结合q以及t时刻之前输出的轨迹点,。
形成新的内容上下文
随后,内容的上下文被当作 query 向量,风格方面的信息则作为 key 以及 value 向量。在交叉注意力机制给融合下,内容上下文跟两种风格情况依次达成态聚合。
实验

在中文,以及日文,还有印度文,以及英文数据集之上,定量评价SDT均获取到了成绩最为优异的性能,特别是就风格分数指标而言,相较于先前的SOTA方法,SDT获得了较大的突破。
在中文生成这块儿的定性评价之中,跟以往的方法相比较而言,SDT所生成的手写字符,不但可以防止字符的崩坏情况出现,而且还能够相当不错地去临摹用户的书写风格。因为有字形风格学习这一因素,所以SDT在字符的笔画细节所进行的生成方面,同样也能够做得挺好的。
SDT在其他语言上面同样有着良好的表现,特别是当涉及到印度文生成时,当前主流方法极易生成导致崩溃的字符不过我们的SDT仍然能够保持字符内容的正确性。
下表展示了不同模块对算法性能所产生的影响,本文所提出的各个模块具备协同工作的作用,切实有效地提高了对用户笔迹的临摹性能。详细来讲,写作者风格被添加进去后,提升了SDT对于字符整体风格的模仿效果,像字符的倾斜程度以及长宽比等情况,而字形风格被加进去以后,改进了生成字符的笔画细节。相较于已有方法那种简单的融合策略,在各项指标方面,SDT的自适应动态融合策略全方位地强化了字符的生成性能。
就两种风格的可视化分析而言,针对两种风格特征实施傅里叶变换,从而得到如下这般的频谱图,经由图中去观察,可看到书写者风格囊括更多的低频成分呀,然而字形风格主要着重于高频成分呢。实际上,低频成分涵盖目标的整体轮廓呀,高频成分却更侧重于关注物体的细节哟。这一发现进一步对解耦书写风格的有效性予以验证以及作出解释啦。
展望
能够借助笔迹AI去创造属于自身的独特字体,于社交平台之上更优地展现自我!
最新CVPR 2023论文和代码下载
后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:用于目标检测的技术,涉及到图像分割,还有目标跟踪,包含人脸检测与识别过程,以及OCR,涵盖姿态估计,超分辨率技术,SLAM的运用,医疗影像方面的处理,Re-ID相关,GAN技术,NAS技术,深度估计,自动驾驶领域应用,强化学习范畴,车道线检测工作,模型剪枝还包括模型压缩方法,去噪操作,去雾处理步骤,去雨的技术手段,风格迁移方式,遥感图像处理,行为识别工作,视频理解内容,图像融合过程动作,图像检索相关,涉及论文投稿以及交流事项,使用PyTorch,运用TensorFlow,还有Transformer技术 。等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者ransformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好涉及CV的论文速递,关乎DL的优质实战项目,有关AI行业前沿的,从入门开始直至精通的学习教程等资料 。,期盼着您去扫描下方呈现的那个二维码嘞,进而加入CVer计算机视觉这个群体之中哟,当前已然汇聚了数千号人呐!
扫码进星球
点击上方卡片,关注CVer公众号

欢迎 你 发表评论: