作为一个写了大半辈子日记的人,我也来答一下这道题吧。
我从 2001 年开始写日记。第一部(初中)和第二部(高中)是在电脑上写的,文本一共 1.3 MB。2006 年上大学之后,因为大一不让带电脑,所以改在本子上写,之后就一直延续下来了。到现在为止,第三部(北京)、第四部(匹兹堡)、第五部(湾区)一共已经写了 40 本了。
这是月初搬家的时候,箱子里的全套日记本:
这个问题我老早就想回答,但迟迟没有答,是因为 @珞凌 的答案已经用最简洁的文字概括出写日记最主要的好处了:倾诉和纪念。我写日记最多的时候,也正是几次失恋和几次旅游。
不过呢,前两天翻看电脑里的旧文件的时候,我突然意识到,如果你写了很长时间日记的话,这些日记将会是一个很好的语料库,可以从中挖掘出很多东西。
比如,我研一时上过一门课叫「语言与统计」,在其中一次作业中,我就比较过我 2001 ~ 2006 年的日记(英文部分)与小说《1984》、课本《模式识别与机器学习》。之所以选这两本书,是因为我正好有它们的电子版。这次作业得到了不少有意思的结论,举例如下:
上图是日记、小说、课本三个语料库的 type-token 曲线。这些曲线是什么意思呢?它们的横坐标 x 是词数,纵坐标表示前 x 个词中有多少个不同的词。换句话说,曲线的陡峭程度,代表了生词出现的密集程度。从曲线上能看出什么结论呢?
上图是三个语料库中出现频率最高的 100 个词。当然其中大部分是虚词,一些有代表性的实词我都圈了出来。日记里的当然是以学校生活为主;小说的前 100 词中出现了两个主人公的名字和一些与主题有关的名词。课本则非常奇葩,很多术语的频率竟超过了很多常用虚词,distribution 竟位列第 21 名!课本的前 100 词中还有许多单个的字母,这些一般出现在公式里。
图 3 是从图 2 中把人称代词单独挑出来的结果。果不其然,日记中第一人称代词最多,小说中第三人称代词最多。课本本应该只出现 we 的;那个 I 是因为统计的程序分不清人称代词 I 和公式里的变量 i。
昨天晚上,我又写了一个小程序,统计每个单词在日记里出现的频率随时间变化的趋势。这里面也能看出一些有意思的东西。下面的图里,横坐标是日期,用从我出生后经过的天数表示,5600 是初中和高中的分界线;纵坐标是单词的出现频率,经过了比较狠的高斯平滑,纵轴的单位可以理解成「平均每天的日记里出现了几次」。
上图是我的两个网名 Akisame(秋雨)和 Maigo(迷子)的频率变化,果然前者越来越少,后者越来越多。Maigo 这个名字正是我高中参加信息学竞赛时在大榕树论坛上使用的 ID,也正是在这个论坛上变得为人熟知的。
这是与信息学奥赛有关的词和几个题库的频率变化。果然我是高中才开始认真搞竞赛的。USACO、Ural、同济三大题库的第一个高峰出现的时间,跟我开始刷它们的时间都是吻合的。
这是几种语言名称的频率变化。当然,Chinese 和 English 很多时候是作为「语文」「英语」两个科目名出现的。可见日语从一开始就与我同在了,韩语到高中才走进我的生活。最后那个百花齐放的高峰,来自我买了一台劣质电子词典之后写的吐槽文 XD
写到这里突然感觉有点遗憾,2006 年之后的日记都只有纸质版,没有电子版了。如果能把 18 年来的日记全都放到一起,统计一下一些地名、人名的出现频率变化,应该能挖掘出更多有趣的东西。