nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />
当下,人工智能特别是基于大语言模型的生成式人工智能正深刻影响着人们生活的各个方面。GPT、DeepSeek等大语言模型的出现,使得语言学研究面临新的挑战和机遇。语言学作为研究语言本质、结构、演变及应用的学科,在人工智能的推动下,正经历着前所未有的变革。传统的语言学理论与方法在大数据、机器学习等技术的支持下,得以更加精准地解析语言现象、预测语言发展趋势。人工智能的引入为语言学研究提供了新的视角和工具,使得语言学家能够以前所未有的深度和广度探索语言的奥秘。语言学与人工智能互相影响、互相交融,二者协同演进大致可分为如下几个阶段。
第一阶段:传统语言学主导期(20世纪50年代至80年代)。这是传统语言学与计算机技术的早期碰撞时期。1956年“人工智能”概念提出后,乔姆斯基于1957年发表的《句法结构》中提出生成语法理论,主张语言能力源于生物遗传的普遍语法,语言学研究的目标是揭示这种内在机制,其“有限规则生成无限句子”的假设为计算语言学奠定了形式化基础。20世纪50年代,计算语言学成为一门独立的学科。1954年,Georgetown-IBM机器翻译实验首次尝试将语言学规则编码为计算机程序,标志着语言学与计算机科学的首次结合,但受限于双语词典和人工编写的句法转换规则,一些翻译质量较为粗糙。20世纪60年代中期到80年代末期,计算语言学进入发展期。随着计算机科学与技术领域各类程序语言的开发以及乔姆斯基语言学理论的进展,计算语言学有了突破性的发展,20世纪70年代至80年代研发出较多能够对自然语言进行较好处理的系统。该阶段语言学与计算机初步结合,但技术未动摇理论内核,计算技术仅作为辅助工具,用于语料数字化或规则验证,未对语言学理论带来实质性冲击。
第二阶段:计算语言学与规则导向的并行期(20世纪80年代末至21世纪初)。在这一阶段,统计模型兴起对语言学规则产生了冲击,学术界对生成语法的解释力产生怀疑。从20世纪 80年代末开始,计算语言学进入了繁荣期。1988年,IBM研究团队提出基于统计的机器翻译模型,利用双语语料库计算词对齐概率,取代人工编写转换规则。20世纪90年代,隐马尔可夫模型(HMM)在语音识别中的商业化应用,进一步表明了统计方法的实用性。这些统计模型的成功引发了学术界的激烈争论。乔姆斯基批评统计方法“仅能描述语言现象,无法解释深层结构”,认为其背离了语言学的科学使命。与此同时,部分学者尝试融合两种范式,如定子句语法(Definite Clause Grammar)将逻辑规则与概率计算结合,但收效有限。该阶段语言学规则与统计方法并存,但语言学仍在主导算法设计。语言学内部形成两大阵营:一方坚持生成语法的理论纯洁性,另一方则转向计算语言学的应用研究。
第三阶段:数据驱动的颠覆期(21世纪10年代)。深度学习使语言处理脱离人工规则,倒逼语言学反思理论根基。2013年,Mikolov团队提出Word2Vec模型,将词语映射为连续向量,实现词语向量化。2015年,深度学习对语言学理论的冲击达到高潮。辛顿宣称:“语言结构无需先天预设,统计规律足以覆盖人类语言行为。”2017年,Transformer架构通过自注意力机制突破句法树分析框架,催生BERT、GPT等大模型。这些模型仅通过预训练海量文本即可生成连贯语句,无需显式语法规则。2019年,Bender等学者提出“随机鹦鹉论”,指责大模型仅模仿表面形式,缺乏语义理解,生成语法学派陷入被动。深度学习改变了语言处理范式,大语言模型通过海量数据训练,突破了规则系统的局限性,直接挑战乔姆斯基理论,引发学术争议,语言学研究从规则导向转向数据驱动。计算语言学领域出现统计模型与规则系统的路线之争,语言学家被迫重新定位角色:或回归本体理论研究,或探索规则与数据的结合路径。
第四阶段:人工智能赋能的深化融合期(2020年至今)。2020年,GPT-3实现零样本学习,人工智能变为语言学研究的“增强工具”。2022年底,ChatGPT横空出世,人工智能进入大语言模型时代。ChatGPT的对话能力使非专业人士可快速测试语言学假设(如方言生成、句法容错性)。科大讯飞利用人工智能技术寻找濒危语言中不同尺度的音节语义之间的关联和模式,并形成语音库,实现了濒危语言的留存。这些都体现出人工智能技术与语言学研究的融合。Google发布多语言BERT模型,涵盖104种语言的语法特征向量,学者可据此量化分析语序共性,这使“语言类型学从定性分类推向定量建模”。2025年4月,缅甸发生地震后,DeepSeek用7小时攻克缅甸救灾语言关,为救援工作提供了关键的语言支持,彰显了人工智能在紧急情况下的应用潜力。人工智能技术加速了语言数据的处理与分析,促进了语言学理论的验证与创新。在人工智能赋能的深化融合期,语言学研究不再局限于传统的理论探讨,而是更加注重理论与实践的结合。这种跨学科的合作模式使得语言学与人工智能相互借鉴、不断融合,为未来的语言学研究指明了方向。
自20世纪中叶生成语法理论确立以来,语言学便围绕“人类语言能力的本质”展开追问。乔姆斯基通过形式化规则系统,将语言研究锚定于人类先天性的理论预设,这一范式主导学术界长达半个世纪。然而,随着人工智能的快速发展,语言学的认识论根基正遭遇前所未有的挑战:从早期基于词典的机械规则映射,到深度学习驱动的人工智能,技术路径的迭代不仅重塑了语言分析的工具,更迫使学术界直面“先天论”与“经验论”的问题。2017年Transformer架构的问世,标志着语言模型摆脱人工语法标注的限制,通过自注意力机制实现语义的分布式涌现,这一技术不仅颠覆了传统句法树的分析框架,更催生出“语言结构是否必须预设先天模块”的讨论与思考。当前的大语言模型通过纯数据驱动,在零样本任务中生成符合语法的复杂句式,直接挑战乔姆斯基的理论预设。社交媒体文本挖掘、情感分析等NLP应用,揭示了语言使用的动态社会性,促使学术界审视“语言能力”是否应包含社会交互维度。如何在人工智能的背景下反思语言学理论、把握语言的本质、探索语言与人工智能的交互机制,成为当前语言学研究的重要课题。
在人工智能时代,语言学家开始从理论到实践反思语言学科的发展。大语言模型的飞速发展,正促使语言学研究进入一个全新的发展阶段。语言学家意识到,传统的语言学理论与方法虽然有其独特的价值,但在面对大数据、机器学习等现代技术的挑战时,也需要进行适度的调整与创新。与大语言模型的结合,为语言学研究提供了新的思路和方法。许多学者也认识到,人工智能对语言学的冲击并非单纯的方法论扩展,而是触及学科理论基础。可以想象,当多模态大模型能够自主关联视觉场景与语义指称时,索绪尔传统的符号任意性原则是否需要重新被审视?当机器翻译系统在低资源语言中展现超越人类的形态归纳能力时,历史语言学的谱系建构是否面临范式革新?对这些问题的回应,或将决定语言学在人工智能时代的定位。未来,随着大语言模型的不断发展和完善,语言学研究将迎来更多的机遇与挑战。语言学家需要继续深化与人工智能技术的融合,不断探索新的研究方法和思路,以更好地揭示语言的本质和规律,为人类的语言交流和文化传承作出更大贡献。同时,也需要加强跨学科的合作与交流,推动语言学与人工智能的协同发展。
本文系国家社科基金后期资助项目“现代汉语标题用词与标题句式研究”(2024FYYB066)阶段性成果
作者系黑龙江大学文学院副院长、教授;黑龙江大学汉语研究中心副研究员
来源 :中国社会科学报
责任编辑: 崔晋
新媒体编辑:崔岑
如需交流可联系我们