第一章绪论1.1自然语言处理的基本概念1.2自然语言的诞生及研究进理解自然语言处理的基本概念、研究进展21展、研究领域以及自然语言处理过程的1.3自然语言研究的方法及途层次。径1.4自然语言的研究领域1.5自然语言处理过程的层次理解依据词法、句法、语义三个层次的计算机自动分析方法。(1)词汇的计算机处理主要包括词汇统计和词表制定的方法;词语在语言运用第二章自然语言的计算机自中的分布分析;机器词典和词汇知识系动分析统的建造方法;现代汉语文本自动分词与标注方法。2.1词汇的计算机处理26(2)自动句法分析主要包括短语结构2.2乔姆斯基语法体系语法理论及乔姆斯基语法体系;递归转2.3自动句法分析移网络与扩充转移网络:自动句法分析算法,包括自顶向下分析法、自底向上2.4自动语义分析分析法、CYK分析法等。(3)自动语义分析主要包括义素分析法、单词的语义特征及分类;语义关系及格语法。第三章统计语言模型理解各种统计语言模型:主要包括n-gram模型及其变种;Markov模型;3.1统计语言模型概述隐Markov模型;最大炳模型;向量空3.2n-gram模型间模型;朴素贝叶斯模型;支持向量机383.3隐马尔科夫模型模型;条件随机场模型;决策树模型等以及一些基于概率分布的模型,包括互3.4向量空间模型信息模型、相关度模型等;统计语言建3.5朴素贝叶斯模型模中的平滑技术。要求实现这些语言模型。3.6最大熵模型18
18 1 第一章 绪论 1.1 自然语言处理的基本概念 1.2 自然语言的诞生及研究进 展 1.3 自然语言研究的方法及途 径 1.4 自然语言的研究领域 1.5 自然语言处理过程的层次 理解自然语言处理的基本概念、研究进 展、研究领域以及自然语言处理过程的 层次。 2 2 第二章 自然语言的计算机自 动分析 2.1 词汇的计算机处理 2.2 乔姆斯基语法体系 2.3 自动句法分析 2.4 自动语义分析 理解依据词法、句法、语义三个层次的 计算机自动分析方法。 (1)词汇的计算机处理主要包括词汇统 计和词表制定的方法;词语在语言运用 中的分布分析;机器词典和词汇知识系 统的建造方法;现代汉语文本自动分词 与标注方法。 (2)自动句法分析主要包括短语结构 语法理论及乔姆斯基语法体系;递归转 移网络与扩充转移网络;自动句法分析 算法,包括自顶向下分析法、自底向上 分析法、CYK 分析法等。 (3)自动语义分析主要包括义素分析 法、单词的语义特征及分类;语义关系 及格语法。 6 3 第三章 统计语言模型 3.1 统计语言模型概述 3.2 n-gram 模型 3.3 隐马尔科夫模型 3.4 向量空间模型 3.5 朴素贝叶斯模型 3.6 最大熵模型 理解各种统计语言模型:主要包括 n-gram 模型及其变种;Markov 模型; 隐 Markov 模型;最大熵模型;向量空 间模型;朴素贝叶斯模型;支持向量机 模型;条件随机场模型;决策树模型等 以及一些基于概率分布的模型,包括互 信息模型、相关度模型等;统计语言建 模中的平滑技术。要求实现这些语言模 型。 8
3.7支持向量机模型3.8条件随机场模型3.9决策树模型3.10统计语言建模中的平滑技术第四章语料库与词汇知识库4.1语料库技术了解目前比较著名的知识库的构建方42法和理论,以及它们在自然语言处理研4.2词汇知识库究中的地位及作用。4.3语言知识库建设中的本体论第五章汉语语料库的加工技术与方法了解语料库的一般加工技术与方法,掌握汉语语料库的加工方法,包括汉语词525.1汉语语料库的加工语切分和词性标注技术、词义消歧与标5.2汉语自动分词与词性标注注技术。5.3汉语词义消歧与标注技术第六章神经语言模型6.1神经网络与深度学习概述6.2卷积神经网络及语言建模理解如何利用深度神经网络学习语言686.3循环神经网络及语言建模模型,并运用于自然语言处理任务中。6.4预训练语言模型6.5大语言模型6.6语言模型的应用了解并掌握文本分类的基本原理与方第七章自然语言处理应用法。要求学生完成一个文本分类器的设17.1文本分类计与实现。7.2自动文摘与信息抽取了解并掌握自动文摘的基本原理和方19
19 3.7 支持向量机模型 3.8 条件随机场模型 3.9 决策树模型 3.10 统计语言建模中的平滑 技术 4 第四章 语料库与词汇知识库 4.1 语料库技术 4.2 词汇知识库 4.3 语言知识库建设中的本体 论 了解目前比较著名的知识库的构建方 法和理论,以及它们在自然语言处理研 究中的地位及作用。 2 5 第五章 汉语语料库的加工技 术与方法 5.1 汉语语料库的加工 5.2 汉语自动分词与词性标注 5.3 汉语词义消歧与标注技术 了解语料库的一般加工技术与方法,掌 握汉语语料库的加工方法,包括汉语词 语切分和词性标注技术、词义消歧与标 注技术。 2 6 第六章 神经语言模型 6.1 神经网络与深度学习概述 6.2 卷积神经网络及语言建模 6.3 循环神经网络及语言建模 6.4 预训练语言模型 6.5 大语言模型 6.6 语言模型的应用 理解如何利用深度神经网络学习语言 模型,并运用于自然语言处理任务中。 8 7 第七章 自然语言处理应用 7.1 文本分类 7.2 自动文摘与信息抽取 了解并掌握文本分类的基本原理与方 法。要求学生完成一个文本分类器的设 计与实现。 了解并掌握自动文摘的基本原理和方 4
法,理解多文档摘要的生成技术和存在7.3中文文本自动校对的问题。了解信息抽取的实现方法。7.4间答与对话了解中文文本的查错及其纠错与西文的区别,掌握字词级文本查错的模型与方法,并掌握纠错建议的生成与排序算法。了解间答与对话中关键的机器阅读理解任务及典型模型。32合计三、教学方法教师授课与课堂研讨相结合。通过教师授课形式,指出技术的大致脉络方向;通过课堂研讨,锻炼学生对具体技术问题的思考广度与深度,并由教师的引导来进一步深入挖掘技术细节和潜在间题。四、课程思政内容自然语言处理和语言、文化、网络舆情等密切相关。在课程中应引导学生如何利用自然语言处理技术来继承和发扬中国传统文化,比如古诗文或文言文的处理与计算;在课程中应引导学生运用自然语言处理技术分析网络舆情,挖掘有效的处置手段,为社会计算服务;在课程中应对比中文和其他语言的异同,引导学生做好中文自然语言处理。五、教学目标达成与评价方式1.教学目标1通过教师授课与课堂研讨达成;达成情况通过期末大作业或考试情况进行评价;2.教学目标2通过教师授课、课堂录像演示或现场参观;达成情况通过课堂研讨情况评价。六、课程成绩评定成绩由两部分组成,包括(期末考试成绩或大作业)+(课堂讨论+作业情况)总评成绩=70%(期末考试成绩或大作业)+30%(课堂讨论+作业情况)如采用期末考试的方式,以卷面成绩为判定依据,若采用大作业方式,则要求根据课程方向和感兴趣的研讨主题,选择适当的问题方向,运用较新的技术成果对间题进行解决,并给出相应的实验结论。20
20 7.3 中文文本自动校对 7.4 问答与对话 法,理解多文档摘要的生成技术和存在 的问题。了解信息抽取的实现方法。 了解中文文本的查错及其纠错与西文 的区别,掌握字词级文本查错的模型与 方法,并掌握纠错建议的生成与排序算 法。 了解问答与对话中关键的机器阅读理 解任务及典型模型。 合计 32 三、教学方法 教师授课与课堂研讨相结合。通过教师授课形式,指出技术的大致脉络方向;通过课堂 研讨,锻炼学生对具体技术问题的思考广度与深度,并由教师的引导来进一步深入挖掘技术 细节和潜在问题。 四、课程思政内容 自然语言处理和语言、文化、网络舆情等密切相关。在课程中应引导学生如何利用自然 语言处理技术来继承和发扬中国传统文化,比如古诗文或文言文的处理与计算;在课程中应 引导学生运用自然语言处理技术分析网络舆情,挖掘有效的处置手段,为社会计算服务;在 课程中应对比中文和其他语言的异同,引导学生做好中文自然语言处理。 五、教学目标达成与评价方式 1. 教学目标 1 通过教师授课与课堂研讨达成;达成情况通过期末大作业或考试情况进 行评价; 2. 教学目标 2 通过教师授课、课堂录像演示或现场参观;达成情况通过课堂研讨情况 评价。 六、课程成绩评定 成绩由两部分组成,包括(期末考试成绩或大作业)+(课堂讨论+作业情况)。 总评成绩 = 70%(期末考试成绩或大作业)+ 30%(课堂讨论+作业情况) 如采用期末考试的方式,以卷面成绩为判定依据,若采用大作业方式,则要求根据课程 方向和感兴趣的研讨主题,选择适当的问题方向,运用较新的技术成果对问题进行解决,并 给出相应的实验结论
课堂讨论要求认真准备讨论主题、积极参与讨论,讨论主题应为近5年的最新发展技术且具有国内外领先水平。评判的标准是看讨论是否具有逻辑性,是否理解透彻,是否能把间题讲清楚。七、建议教材与主要参考书建议教材:张奇、桂韬、黄菁,自然语言处理导论,电子工业出版社,2023.8参考书:1.张奇、桂韬等,大规模语言模型:从理论到实践,电子工业出版社,2024.12.Danie1Jurafsky著,冯志伟等译,自然语言处理综论,电子工业出版社,2017.73.张仰森,统计语言建模与中文文本自动校对技术,科学出版社,2017.34.宗成庆,统计自然语言处理(第2版),清华大学出版社,2013.8八、编制与审核工作内容负责人完成时间蒋玉茹编制(任课教师)2024.07.20审核(学科、专业负张伟2024.07.31责人)批准(主管院长)刘秀磊2024.07.3121
21 课堂讨论要求认真准备讨论主题、积极参与讨论,讨论主题应为近 5 年的最新发展技术 且具有国内外领先水平。评判的标准是看讨论是否具有逻辑性,是否理解透彻,是否能把问 题讲清楚。 七、建议教材与主要参考书 建议教材: 张奇、桂韬、黄萱菁,自然语言处理导论,电子工业出版社,2023.8 参考书: 1. 张奇、桂韬等,大规模语言模型:从理论到实践,电子工业出版社,2024.1 2. Daniel Jurafsky 著,冯志伟等译,自然语言处理综论,电子工业出版社, 2017.7 3. 张仰森,统计语言建模与中文文本自动校对技术,科学出版社,2017.3 4. 宗成庆,统计自然语言处理(第 2 版), 清华大学出版社,2013.8 八、编制与审核 工作内容 负责人 完成时间 编制(任课教师) 蒋玉茹 2024.07.20 审核(学科、专业负 责人) 张伟 2024.07.31 批准(主管院长) 刘秀磊 2024.07.31
《高级算法设计与分析》课程教学大纲课程名称课程编码CS505高级算法设计与分析AdvancedAlgorithm英文名称考核方式口考试口考查Designand Analysis公共必修课学分2团专业必修课口公共选修课课程性质口专业选修课32总学时口补修课口其他口本研一体化课程口特色课程口学科交叉融合课程口全英文授课课程0课程特点实验学时回双语授课课程口案例课程口校企联合课程口其他先修课程(已具数据结构备知识能力)适用学科/专业计算机科学与技术、电子信息(计算机技术)电子信息(人工智能-智能计算)学位类别(领域)一、课程教学目标本课程将讲授部分高级数据结构、高级算法设计与分析技术以及机器学习相关的选择性话题。本课程不会停留在类似本科课程对于各种数据结构操作以及算法的介绍层面,而是重点讲授更多隐藏在各种结构及算法背后的理论知识,使得学生具备从理论层面论证算法正确性、分析算法复杂度的能力。此外,本课程还将通过对计算及计算机的理论本质的揭示,使学生能够从数学层面了解计算的本质,理解可计算及不可计算间题的定义,进而明晰现代计算机能力的边界。该课程能够培养学生的科学态度及抽象思想能力,提高学生的数理逻辑推理能力。1.具备从理论层面推导算法、论证算法正确性、分析算法复杂度的能力。22
22 《高级算法设计与分析》课程教学大纲 课程名称 高级算法设计与分析 课程编码 CS505 英文名称 Advanced Algorithm Design and Analysis 考核方式 考试 □考查 课程性质 □公共必修课 专业必修课 □公共选修课 □专业选修课 □补修课 □其他_ 学分 2 总学时 32 课程特点 □本研一体化课程 □特色课程 □学科交叉融合课程 □全英文授课课程 双语授课课程 □案例课程 □校企联合课程 □其他_ 实验学时 0 先修课程(已具 备知识能力) 数据结构 适用学科/专业 学位类别(领域) 计算机科学与技术、电子信息(计算机技术)、电子信息(人工智能-智能计算) 一、课程教学目标 本课程将讲授部分高级数据结构、高级算法设计与分析技术以及机器学习相关的选择性 话题。本课程不会停留在类似本科课程对于各种数据结构操作以及算法的介绍层面,而是重 点讲授更多隐藏在各种结构及算法背后的理论知识,使得学生具备从理论层面论证算法正确 性、分析算法复杂度的能力。此外,本课程还将通过对计算及计算机的理论本质的揭示,使 学生能够从数学层面了解计算的本质,理解可计算及不可计算问题的定义,进而明晰现代计 算机能力的边界。该课程能够培养学生的科学态度及抽象思想能力,提高学生的数理逻辑推 理能力。 1. 具备从理论层面推导算法、论证算法正确性、分析算法复杂度的能力