翰林学院USC探究项目：电影评论中的情感和舆情分析

课题简介

自然语言处理（Natural Language Processing）是计算机科学领域与人工智能领域中的一个重要研究方向。以实现人与计算机之间通过自然语言进行有效通信为研究目的，通过统计学的方法，利用计算机处理大规模自然语言数据。自然语言处理是一门融合计算语言学、计算机科学、数学于一体的科学，其研究有广泛的应用，包括语音识别、自然语言理解、自然语言生成、机器翻译、对话系统等。

情感分析通常使用自然语言处理技术，识别客户评论的语义情感，语句表达的情绪正负面，或者通过分析语音及文字判断其表达的情感等来完成广义上的主观分析。经过初步的学习了解机器学习之后，学生可以独立利用开源数据库对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程，如从电影评论中分析用户对电影的评价。

本次课题结合机器学习和自然语言处理两门学科，在帮助学生加深对数学线性代数和机器学习重要算法应用了解的同时，还可以让学生利用所学知识对机器学习中向量机算法构建数学模型对词语情感进行分析探究。最后对比其他主流算法，帮助学生进行结果预测和对结果预测的原因分析。

科研方法

AI＋X数据驱动型科研

使用人工智能（AI）算法，收集、处理、分析具体学科（X）的海量数据，并基于此进行预测，从而获得科学发现的研究方法。与传统的、基于实验或逻辑推理的研究方式相比，AI＋X数据驱动型科研可以借助AI算法强大的运算能力，高效地进行大数据分析，具有投入产出比高、适用范围广的优点。

AI＋X数据驱动型科研已被广泛地应用于各个领域，利用AI算法研究基因数据，从而进行早期的癌症筛查便是其中一例。基因组与癌症病患的数据千千万万，使用传统的科研方式对其进行分析，工程量大、过程繁琐，在客观上难以实现。

但借助AI算法这一便捷的工具，生命科学家便能够以海量的患者的遗传信息为基础，建立数据库，与过往的研究成果进行对照，快速、准确地在两者中发现规律、建立联系，从而使癌症诊断的“标准化”成为可能。

欢迎有兴趣的同学前来了解详情！