第(2/3)页 首先,我们率先研究高频词汇。 在《红楼梦》的高频词汇中,我首先将人名、地名、称谓等剔除掉,以及对“一个”“一面”等表数量的没有实际意义的词汇进行剔除。 于是,我们得到了65个高频词汇进行文本研究,现制作统计表格。 如下图!】 短视频中,贴出一张统计表。 【高频词汇研究对象表】 【1,什么;2,我们;3,那里;4,姑娘;5,你们……63,家里;64这话;65到底。】 短视频解读继续: 【……我的研究分组方案如下,一至三十回第一组,十六至四十五回第二组,三十一至六十回第三组……,以此类推,一共将《红楼梦》分成7组。 运用r语言,对各组进行分词,对高频词汇研究对象进行词频统计。绘制高频词汇频数变化折线图。 如下图所示!】 话音落,短视频里,贴出了运用r语言绘制出的高频词汇频数变化折线图——一个带有x、y坐标的七条折线的统计表。 而此时,网友们全看傻了。 “懵逼了,这些都啥意思啊?” “这能代表啥啊,根本看不懂啊!” “诗人你到底啥意思,请你明说行么?” “我感觉看了你的视频,受到了侮辱!” “你高估我们了!” …… 短视频开始对这一折线图进行讲解: 【我们可以发现折线图有明显的锯齿形,那么就表明高频词汇在各分组有明显的波动……诸如 16(没有)、21(听见)、26(回来)、34(心里)、51(那些)、65(到底)等词汇,当第六组和第七组出现波峰的时候,其他组却出现了波谷; 而在42(不过)、61(姊妹)等词汇,当第六组和第七组出现波谷的时候,其他组却出现了波峰;这就说明第六组和第七组的折线图与其他组的折线图有明显的相反的走势……】 弹幕疯狂抗议: “求你了别说了,听不懂啊,能直接告诉我结论么?” “你让数学常年不及格的我,如何理解你的高深莫测?” “直接说结论吧,真听不懂!” …… 【从部分高频词汇角度分析,前八十回和后四十回词频有较显著的差异性,于是我得出初步结论,前八十回和后四十回,作者并不是同一个人。 完成了高频词汇的分析后,下面,我们对虚字进行分析。 虚字,是指不能单独成句,意义比较抽象,而具有一定语法意义的字或词。古典小说中的虚字是构成句子必不可少的成分,其使用不受故事情节的制约,仅与作者的写作习惯有关。 …… 我们对44个虚字作为研究对象, 44个虚字如下:之、其、或、亦、方、于……偏、儿。 在研究之前,首先我对监督学习作简单介绍,监督学习分为回归分析与分类分析两大类别,本文应用了分类分析。所谓分类是通过分析已知数据,构造一个分类函数或者分类模型(即分类器),利用该模型将数据库中数据映射到某一给定类别中…… 接下来,我将运用监督学习中的朴素贝叶斯法和bp神经网络对红楼梦各回作分类研究,并根据分类准确度分析前八十回和后四十回的差异性!】 富旦大学。 张教授身边,人越聚越多。 “他说的这是啥啊?” “我怎么全程都听不懂?” “什么是朴素贝叶斯法?是数学么?” “bp神经网络啥意思?生物学?还是计算机?” “这确定是,在考证《红楼梦》后四十回是伪作么?” “张教授,你能看懂他说的是啥么?” “张教授?” 在场的所有教授都傻了,全都看不懂啊。 什么朴素贝叶斯法,什么bp神经网络,又什么折线图啊,这些文学方面的大教授们,哪懂这些? 用数学、计算机技术等,去研究文史问题,他们闻所未闻啊。 虽然这样的研究在前世已经是常规手段,但是这一世的人们哪见过这个? 对于这一世的所有网友来说,对于这些大教授来说,现在已经不是震不震惊的问题了,也不是吐不吐槽的问题了。而是,完全看不懂的问题! 完全看不懂啊! 想吐槽几句,想骂几句,都不知道从何开口! 张教授傻了。 视频里讲解的内容,他听不懂,傻了! 江小白就是三无的这个真相,他更接受不了,更傻了! 他一时间怔在原地,他的认知上,从来都没受到过如此重大的冲击。 第(2/3)页