《网络不规范用字用词现象研究报告》(全文)发布

澎湃讯
2023-06-08 07:42
来源:澎湃新闻

由澎湃新闻牵头发起,上海人工智能研究院、上海市信息安全测评认证中心、上海新华传媒连锁有限公司和上海蜜度信息技术有限公司联合共建的数字内容生态实验室,今日发布《网络不规范用字用词现象研究报告》,全文如下:

汉字是中华民族的文化瑰宝,是中华文化的重要组成部分。在互联网成为公众主要表达平台的当下,网络不规范用字(词)现象越发凸显,在引发交流障碍的同时,对汉字文化传承造成负面影响。重视互联网平台语言使用,纠正网络不规范字词现象,促成使用规范字、维护汉字文化的社会氛围,对于与时俱进守护汉字文化、坚定文化自信有重要意义。

数字内容生态实验室关注互联网场景下不规范字词使用问题,通过人工智能、大数据等技术手段随机采集2022年12月到2023年3月期间全网近5000万篇材料,提取错别字词使用现象,从错误类型、平台渠道等角度深挖不规范字词背后的规律,总结造成网络不规范字词现象的原因,针对政府、媒体、内容平台、公众等多元主体提出互联网汉字规范使用建议。针对互联网平台特征与不规范字词出现的原因,建议成立由网络监管部门牵头、多方合作的网络语言生态联合体,以技术监管平台建设、规范用字用词评估、政策建议发布,形成促进互联网语言规范化的合力,推动规范、积极、向上的互联网语言生态建设。

一、 不规范字词简介

1 不规范字词分类

根据《中华人民共和国国家通用语言文字法》《通用规范汉字表》,国家通用语言文字是规范汉字,社会一般应用领域的汉字使用应以《通用规范汉字表》为准,不规范字词即未按照规范要求使用汉字。网络语言环境中的不规范字词主要包括误用繁体字、异体字、异形词、常见错误等。

繁体字是指将古代汉字演化过程中的一些变异形态进行规范和整理后形成的书写形式。1956年国务院通过《关于〈汉字简化方案〉的决议》后,大陆地区开始推行使用简体字。

异体字是一个字正体之外的写法,与正体字的字音和字义相同但字形不同,也称为又体、或体,《说文解字》中称为重文。为适应社会各领域汉字应用需要,国家公布《通用规范汉字表》呈现规范字与异体字对应关系,为规范字的选用提供标准。在网络平台的日常交流中,应根据规范要求,主动使用规范字。

异形词是普通话书面语中并存并用的同音(声、韵、调完全相同)、同义(理性意义、色彩意义和语法意义完全相同)而书写形式不同的词语。为统一使用标准,国家语言文字工作委员会发布异形词整理表,明确在新闻出版、信息处理及日常语言环境中推荐使用的词形。

除以上三种外,因字音、字形、词义相近,部分音义存在差别的词语容易被混用、错用,如“的”“地”“得”误用等,可归类为常见错误。常见错误在网络错别字中占比最大,在日常生活中也最容易出现。整理列举常见错误等错别字案例,对提高公众用词用字水平,树立规范用字意识,具有重要意义。

2 使用不规范字词的危害

不规范字词在互联网信息传递、共识理解方面造成障碍。使用不规范字词会影响信息的表达和接收,特别是在浏览社交媒体、公众号内容、互动论坛等快速碎片化阅读场景下,不规范用字增加用户的信息接收困难,容易导致理解歧义,进而引发用户焦躁情绪,不利于公众对网络信息的理性思考与批判接收。

政府、媒体在互联网平台内容发布中出现不规范字词,会降低内容严肃性,影响政策文件、报道内容的发布质量。政府、媒体作为专业内容生产者和发布者,自身具有较大影响力,出现不规范字词体现了其专业性的缺乏,导致自身形象和公信力降低,难以回应公众的信任和认可。

网络不规范用字问题频发,不仅影响人们对汉字的理解和使用,也对公众造成不良示范,造成公众对待汉字的随意态度,既不利于汉字文化的保护和传承,也不利于尊重知识氛围的建设和社会整体文化水平的提升,对以汉字为纽带的社会文化认同构建造成阻碍。

3 规范使用汉字的意义

规范使用汉字是促进高效交流的必要条件,是培养文化认同的重要方式,是展现中国形象的必要之举。减少不规范字词使用,可以提高公众的汉字书写和识别能力,提高信息传递的准确性,增强信息可信度,促进互联网平台信息有效交流;倡导使用规范汉字可以在全社会形成尊重汉字、保护汉字文化的氛围,引导公众以正确使用汉字为荣,增强公众对汉字文化的自信心和认同感,促进文化自信的形成;汉字是中国文化的重要组成部分,是日常生活中最频繁接触到的文化标志,在互联网平台使用规范字,能体现作为中国人的文化素质与对母语的自信态度,展现中国的文化大国风貌。

我国以法律、标准规范汉字使用,上世纪50年代以来,我国制定异体字、通用字、印刷通用字表等规范标准。2000年颁布《中华人民共和国国家通用语言文字法》,规定:“国家推广普通话,推行规范汉字”。2013年国务院公布《通用规范汉字表》,与时俱进地确定社会各领域汉字应用规范标准。社会各界针对规范使用汉字发起倡议和专项整治工作。2021年11月底,国务院办公厅印发《关于全面加强新时代语言文字工作的意见》,指出“语言文字是人类社会最重要的交际工具和信息载体,是文化的基础要素和鲜明标志”,并提出“加强人工智能环境下自然语言处理等关键问题研究和原创技术研发,加强语言技术成果转化及推广应用”。2022年2月中国出版协会等11家协会、学会联合发布《关于规范使用汉字的倡议》,2022年4月,国家新闻出版署、国家广播电视总局开展新闻出版、广播电视领域不规范使用汉字问题专项整治工作。2023年1月,教育部发布《信息技术产品国家通用语言文字使用管理规定》,要求信息技术产品使用国家通用语言文字,应当符合国家颁布的语言文字规范标准。学习掌握汉字使用规范,是法律法规的要求,更是每个中国人的责任。

二、 网络不规范字词现状及特征

当前网络不规范用字现象不容乐观,互动论坛、微博等互联网公共社交平台上常见错误、繁体字、异体字频现,政府、媒体网站及新媒体宣传账号发布内容中也存在误用和疏忽,对规范用字环境的形成造成不良影响。运用技术手段对网络不规范用字现象进行摸查,分析其出现特征及影响因素,形成针对性的措施建议,有利于改善网络用字现状,提高公众的用字能力和文化素养。

1 数据来源

本课题使用的网络不规范字词数据库由数字内容生态实验室建立。通过人工智能、大数据等技术手段对2022年12月到2023年3月期间互动论坛、数字报、客户端、微博、网站、微信、短视频平台七类信源内容进行随机抽取,形成具有4946.3万条、706.6亿字内容的样本,排查异体字、异形词、繁体字和常见错误出现情况,以错误类型、错误案例进行细分统计,对当前网络环境中不规范字词使用情况进行全面梳理,形成具有135.9万次不规范字词使用的数据库。

2 不规范字词使用现状

根据数据库信息,按照不规范字(词)出现频次,整理互联网平台出错较多的错别字,并在括号中标注正确写法,易错前20名分别依次是:帐(账)号、米(美)国、莲(连)花清瘟、妳(你)、座(坐)落、戮(勠)力同心、好象(像)、岀(出)、沒(没)、內(内)、彷(仿)佛、愛(爱)、台帐(账)、架式(势)、按耐(捺)不住、颤(战)栗、过份(分)、來(来)、笔划(画)、線(线)。

表1 TOP20不规范字词

图1 高频不规范字词统计

常见错误是互联网上主要出现的不规范用字(词)形式,在TOP20高频不规范词中占9项。常见错误中帐(账)号、莲(连)花清瘟等属于误用形近别字,颤(战)栗、架式(势)等属于误用读音相近的字。另外,互联网上还存在为表达其他含意故意使用不规范字的情况,如“米(美)国”来源于网友模仿日本对美国的称呼,该类特殊用法目前在网络平台上已具有一定流传度。

异形词、繁体字各有5项出现。异形词因音、义均相同,曾经都被广泛使用,虽然经《异形词整理表》确定规范用法,但因宣传不足,公众依然延续旧有的使用习惯,具有易错性。TOP20中繁体字中岀(出)、沒(没)等与正确用字的字形非常相近,在快速输入或手机等小屏幕输入场景中易混淆;妳(你)、愛(爱)等属于近年来互联网上常见用法,被部分网友故意用于表达个性,因此出现频率较高。

按照错误类型统计,常见错误是出现频率最高的类型,占比超过六成;繁体字也是较常出现的错误类型,占比达到20%;异体字、异形词出现相对较少,因异形词、异体字可将规范文件纳入输入法数据库,通过选词推荐等技术手段减少误用。相较而言,形近字、形近词错选等常见错误以及公众主观通过错用体现个性的情况更易发生,且可能通过输入法记忆功能固化错误选择,成为网络不规范字词出现的主要原因。

 图2 不规范字词分类统计

3 不规范字词来源分析

对各条不规范字词的来源数据进行采集,共分为7类,具体范围如表2,对不同来源中不规范字词的出现频率及特征进行对比分析。

表2 不规范字词来源分类与数量

各来源出现不规范字词的万字错误率平均为0.192/10000。对比不同来源出现频率,数字报错误率最低,仅为0.129/10000,延续媒体对内容严谨性的要求。视频平台错误率最高,达到0.615/10000。微博平台错误率低于平均,因内容篇幅短,且内容风格更加生活化,相较其他平台产生错别字的概率较低。客户端、网站、微信公众号信息发布者来源广,属于互联网时代流量较大的信息发布渠道,但微信在公众平台内容发布时已经引入疑似错别字的自动判断功能,对提升用词规范性、避免常见错误有所帮助,因此微信平台不规范字词出现频率低于客户端和网站。

图3 不规范字词来源错误频率

对比不同来源不规范字词的错误类型。互动论坛、微博作为互动性渠道,在常见错误外,其他三类错误也超过45%,体现互动性平台语言表达的多元性;繁体字、异体字的频率占比高于其他渠道内容,因互动平台内容更具个性,网友倾向于采用繁体字、异体字表现独特个性。数字报中使用繁体字的占比相比其他渠道低,体现了书籍报刊简化字使用要求在数字媒体时代的延续。视频、微信渠道内容异体字使用占比低于其他,因异体字字形复杂,对于视频观看、微信公众号阅读等场景会造成理解困难,在两类渠道的内容发布中更加重视避免异体字使用。

图4 不规范字词来源中错误类型占比

统计不同来源内容中四类不规范字词的TOP10。在互动论坛,因字音字形相近导致的常见错误和繁体字误用问题较为突出,如帐(账)号、岀(出)、沒(没)等字词在字号小、书写及阅读速度快时容易混淆。

表3 互动论坛不规范字词TOP10

微博中不规范用词中口语化、个性化风格明显,妳(你)、愛(爱)、米(美)国等字词均属于网络流行语。因其流行性,在出现不规范用字现象后,如不能及时纠正,会导致更加广泛的影响,形成用错字、用繁体的错误风气。

表4 微博不规范字词TOP10

数字报、客户端作为专业内容生产平台,在内容和常见不规范字词中表现出不同特征。数字报用词更加书面化,除电光火石(石火)等个别知识性错误,其余错误以因字形或字音一致且字义相近导致的误用,错误频次较其他渠道低;数字报渠道没有出现其他渠道高频错误“莲(连)花清瘟”,体现数字报作为媒体的专业性。客户端中出现频率较高的常见错误既有微博特征,也有数字报特征,错误频率相较数字报高,体现了客户端专业主体和多来源主体相结合的内容生产特征。微信在内容风格方面兼具数字报和客户端的特征,符合微信平台发布者与读者群广泛的特征。同时数字报、客户端、微信渠道误用的异形词重合度大,且主要是书面表达中具有文学色彩的词,显示出当前在文学词语规范使用普及中存在短板。

表 5 数字报不规范字词TOP10

表6 客户端不规范字词TOP10

表7 微信不规范字词TOP10

网站渠道不规范字词出现频率高,异体字、异形词错用也有较高频次;不规范用词类型较多,既包含书面语、口语的常见误用,也存在谐音字的故意误用。异体字、繁体字使用增多可能与网站多元内容主题有关,也与网站分类中包含境外网站有关,侧面反映了复杂多元的互联网场景中规范字词面临的挑战。

表8 网站不规范字词TOP10

视频作为以影像、声音为主的复合信息载体,是目前受众最广泛的信息传播手段。为获取流量,机构创作者的视频中常采用拼音缩写、繁体字、猎奇字词等吸引观众注意力,个人创作者的视频存在通过不规范字词表现个性的现象;视频信息主要画面、声音传递,在标题及字幕部分的不规范字词使用对信息表达影响小,这是视频中不规范字词使用远超同样具有个性化表达特征的微博平台的原因。从视频创作的自身规律来看,创作者往往在视频、音频编辑环节用时较多,在文字信息编辑环节用时较少,在审阅时对文字关注度不够,形近字、同音字等问题易被疏忽,且视频发布后错误较难更正,客观上造成视频中错误字词多的现象。因此,更需要探索在视频创作和传播中避免不规范字词问题的有效手段。

图5 营销号在视频及标题中滥用繁体字吸引观众注意

图6 个人用户在视频标题中使用繁体字表现个性

表9 视频不规范字词TOP10

三、 网络不规范字词成因分析

互联网不规范字词现象应当引发全社会关注,多角度分析不规范使用行为背后的原因,为总结互联网不规范用字治理措施提供支撑。

1 人机交互输入方式的限制

互联网时代的人机交互方式是导致互联网汉字不规范使用的重要原因。相比手写等传统记录方式中逐字思考记录,使用计算机录入可通过输入法的联想功能大大加快内容输入速度,但更容易出现形近、音近字选择疏忽;输入法选词推荐同时呈现字音相同、字形相近、字义不同的易错词,增加了困惑和误用的可能性;在互联网平台进行交流和内容发布的节奏快,屏幕阅读时使用者阅读速度快,内容校对的时间减少,加大了纠正不规范字词的难度。多种原因增加了互联网平台出现不规范字词的概率。

2 内容来源多元化趋势下,创作者能力参差不齐

相比传统内容载体对内容发布者的专业性和资历要求,互联网平台的开放、平等特征极大降低了内容创作与发布的门槛,微信公众号、客户端内容创作号等社交平台与内容平台给予更多人发声的窗口,在丰富互联网内容环境的同时,也存在部分创作者水平有限、对待内容责任感不强的问题,在语言使用上表现为频发的用字用词不规范现象。不规范的语言对内容质量和读者阅读体验造成负面影响,不利于互联网整体内容生产环境的健康发展。

3 网络个性化表达助推不规范用字用词风气

网络环境相对宽松自由的氛围塑造了网络上的个性化表达,部分网友或通过谐音字词使用增加表意的丰富性,或通过谐音梗等方式展现自身的独特个性,在一定程度上形成反传统,追求新、奇、特的网络语言风格;部分网友为借助互联网部分匿名的属性,通过歪曲汉字形、音、义,表达调侃、戏谑、讽刺的情感,或发布违反公序良俗的信息,实际上造成了对汉字规范使用、汉语语法规则的破坏,污染互联网语言环境。

图7 在网络平台通过不规范用字表达讽刺情感

图8 在网络平台通过不规范用字(词)传递不良信息

在互联网的广泛传播下,不当的语言使用易形成错误风气,导致网友的模仿行为,消解大众对于汉字的严肃认识,甚至蔓延到书面语场景中,造成语言的粗俗化倾向。不规范用字还有引发争议的风险,如2022年与明星相关的热搜词条出现不规范用字,引发网友对于明星通过故意误用回避讨论的批评,以及对内容平台整顿不规范用字做法的质疑,造成舆情风险。

图9 网友对明星及内容平台的质疑

 4 专业内容平台示范作用有待进一步发挥

语言对现实社会有迅速、直接的反映,社会事件、舆论风向的变化体现在语言中,造就了一批又一批新的词语和词义。在新的字词及用法出现时,政府、媒体等专业内容发布者应对新词的用法进行考证,面向全社会宣传正确用法。在本次采集的数据中,数字报作为专业内容平台,是唯一没有在TOP10常见错误中出现“莲(连)花清瘟”误用的渠道,但在扩大公众重视、发挥辐射带动作用方面还有进步空间。对于文学性较强的词语,专业内容平台应发挥自身优势,及时自查、规范使用,引导公众正确用词。数字报平台中较高频误用的“电光火石(石火)”属于具有一定使用门槛的书面词,出现误用后将为公众造成错误示范,在后续工作中应当引起重视。

四、 互联网汉字规范使用引导措施

1 重视技术作用,推广用字用词规范

以输入法技术优化促进汉字规范使用是减少网络不规范字词最直接的方式之一。受技术限制,过往输入法仅通过正在输入的拼音等信息进行字词推荐。结合人工智能语言模型等前沿技术优化输入法功能,实现结合上下文语境推荐选词,提高选词准确性。在内容发布平台引入智能不规范字词监测工具,优化文本内容检查功能,如微信公众平台的疑似错别字自动检测,以及澎湃清穹内容风控智能平台、铀媒等专业的内容校对及管理工具,协助内容发布者正确规范用字用词,形成互联网正确使用字词的氛围;推广针对不同文体、主题的不规范字词检查工具,以技术手段促进汉字文化传承。

2 发挥政府、媒体正向影响力,做好主流引导示范

在互联网时代,网络平台已经成为政府、媒体发声的重要渠道。公众对于政府及媒体权威性、专业性的信任赋予政府、媒体等专业机构在语言文字规范使用上更大的责任。用好网络传播渠道,以身作则保障发布内容中字词使用的规范性;强化内容管理与监督,对错别字出现较多、语言使用不规范的政府、媒体发布平台进行整改,形成严格有力的纠错机制;引导公众的规范用字意识,发挥平台影响力,开展贴近生活、形式多样的语言纠错活动,引导公众在积极参与中树立正确规范的用字用词意识,形成自觉维护汉字规范的社会氛围。

3 内容平台发起倡议,形成规范用字氛围

内容平台是面向公众的互联网内容运营主体,平台应主动承担规范内容的责任,营造规范用字、文明交流的社区氛围。开展专项行动提高公众对于不规范字词现象的认识,如针对传播范围广、高影响力账号发布内容中的不规范字词进行集中公示,普及汉字规范用法及常见错误,发起正确规范使用汉字的倡议,帮助公众了解汉字规范用法。重视内容监管,打击不规范字词表象下违反公序良俗的行为,对滥用谐音、拆字表达恶意信息的现象采取针对性措施,防止不良风气的传播,营造清朗的网络空间。

4 开展专项监测,支撑语言规范推广

互联网不规范字词现象类型多样、成因复杂。受互联网信息量大、传播速度快、传播范围广等特征的影响,新的错别字、错别词快速涌现,对推广规范用法造成困难。在人工智能技术参与下,对互联网内容进行大范围采集,分析常见不规范用法呈现的规律及背后的原因,可以为确定责任主体、明确措施方向提供有力支撑。组建负责互联网内容监管的技术平台,发挥技术在语言文字规范治理中的作用,响应互联网时代对智慧治理的要求,形成规范语言文字使用的合力。

五、 互联网语言规范监管平台工作建议

为促进语言文字规范使用,营造尊重汉字、尊重文化的正向氛围,针对互联网不规范字词使用现状,结合互联网平台信息传播特征,建议由互联网信息监管部门牵头,联合主流媒体、内容平台、专业技术机构,成立网络语言生态联合体。开发互联网内容规范监管技术平台,对互联网内容进行持续采集监测;研究确立科学的监测指标体系,进行数据挖掘、阶段性对比分析;定期发布监测研究成果,总结不规范字词成因及公众在互联网平台的语言习惯,聚焦纠错堵点,寻找有力抓手,提出具有针对性、可行性的规范用字对策建议。

平台工作成果建议以多种形式发布,面向政府提交内容监测报告,以客观翔实的研究为政府制定政策措施提供支撑;面向媒体等专业内容生产者发布参考报告,帮助媒体提高规范用字能力,明确引导公众规范用字的工作重点,推动媒体参与规范用字推广工作,根据媒体具体需求可酌情提供脱敏后的监测数据用于参考;面向公众发布易错词榜单,普及正确规范用字知识,帮助公众提升用字水平,营造规范使用汉字的社会氛围。

六、 关于数字内容生态实验室

数字内容生态实验室由澎湃新闻牵头发起,上海人工智能研究院、上海市信息安全测评认证中心、上海新华传媒连锁有限公司和上海蜜度信息技术有限公司联合共建,旨在打造集产学研用于一体的数字内容安全与治理研究服务机构,开展内容生态演变机理及其调控对策机制研究,为数字内容生态创新与治理提供智力支持、技术支撑和决策参考。

澎湃新闻是以原创新闻为主的全媒体新闻资讯平台,拥有互联网新闻信息服务一类资质,其自主研发的“清穹”内容风控智能平台,为内容生态领域的平台方、生产方、管理方、从业者等,提供以涉政安全服务为特色的、“人工+智能+制度”的内容安全解决方案。

上海人工智能研究院是由上海交通大学、上海闵行区人民政府、临港集团、商汤科技等共同投资组建的新型研发机构,承担上海市人工智能研发与转化培育建设任务,重点开展人工智能领域基础与核心技术研发、关键与共性技术应用、成果转化与人才培养等工作。

上海市信息安全测评认证中心是上海市重要网络安全功能性机构,以建设“国内一流安全测评服务机构”为目标定位,专门从事信息技术产品和系统安全测评、网络安全等级保护测评,密码应用安全性评估、数据安全风险评估、新技术新应用安全评估等业务,在国内首创“一个平台、资源共享、多方授权、服务各方”的集约化测评服务模式。

上海新华传媒连锁有限公司系我国出版发行业第一家上市公司上海新华传媒股份有限公司的全资子公司。公司目前拥有零售门店近60家,包括新华书店、上海书城、教材书店等一批在读者中享有盛誉的著名品牌,也先后推出了玛德琳童书馆、南村映雪、1925书局等全新品牌特色书店。

上海蜜度信息技术有限公司是以人工智能技术为核心的国家高新技术企业,专注于跨模态信息检索和智能校对应用,为政府和企业各类办公场景提供数据智能应用软件。

 

    责任编辑:李敏
    图片编辑:薛晶
    校对:刘威