焦点娱乐-焦点注册-焦点官方站
全国免费预订热线

400-123-4567

站内公告:

诚信为本:市场永远在变,诚信永远不变。
焦点资讯

当前位置: 首页 > 焦点资讯

纯文科转专业至NLP自然语言处理的心路历程

2023-08-21 18:34:05

纯文科硕士转自然语言处理博士马上就要毕业了,回头看过来,都是时间的礼物。看到很多帖子都在讲述AI的火热,所以想回顾自己的这段不可思议的经历。本文献给自己,也献给想转码的文科生。希望大家偶尔鼓起勇气突破自己的舒适圈,能够看到自己的另外一面。


我原本是根儿正苗红的中文系学生,在博士阶段转为AI类的方向。2017年的年初才大概听说了一点有关人工智能,智能语言这类的东西。想要开始学习这个专业,主要是因为本科的时候学过一点语言学,还有也是因为黑镜类型的电影看的比较多,对一些技术类的东西很感兴趣,觉得AI很魔幻,就一拍脑门决定了。

总之是开始学习这个学科后,我才发现这个学科围绕着的主要是数学编程。如果你想做一个好的算法工程师,好的数学工地能够帮助你快速了解模型结构。好的编程能力(工程能力)可以让你快速实现你的想法。

逐渐了解事情的真相后,真的是哭都来不及。既然已经上车,那不如就好好学吧。

  1. 入门

最开始的时候,老师的效率很高,给我们每个学生定了课题,我的课题是利用无限状态机进行场景对话的脚本生成。我对这里面的任何一个词组都非常陌生。我身边还有一些从别的工科转专业来的小伙伴,但好像针对于我的课题一开始也有点摸不着头脑。每次汇报和类人猿听课一样,频繁发傻。但是突破这个困境的主要手段是撰写调研报告。在这期间,我的导师要求一直写读书报告,就是最近看了什么,有什么想法总结一个文档给他看。一开始写这些文档的时候,我脑洞大开,写出来的调研也比较天马行空,老师比较nice会说让我再调研一下再看看(实际上就是理解的不太对)。但是这个步骤很重要,有一个人虽然不能时时刻刻教授你,但是能给你把握方向,也是能够成功开始一个课题的重要的因素。当我阅读要一段时间,写了不下十封邮件,我发现老师的回复“就是这个意思,可以继续深入阅读相关研究“,也就意味着我应该找对“地方”了。

找对“地方”,是我看到了一篇有关对话系统中意图识别的任务。我就从特征学习入手来理解,后来才发现我学习的正是非常适合小白的短文本分类任务。虽然是17年,但是好的学习资料不是很多,而且基础概念模糊,我就看吴恩达的课。看完后好像有点摸到点门道。然后,利用课堂上说的文本分类的例子,进行练习,才逐渐开始了解我这个课题。所以,NLP入门的话,文本分类,命名体识别都是非常好的初级任务,能让你快速扫盲。

通过这个任务,你可以快速了解自然处理的基本含义。举例来说,如果我想识别一句话的意图,任务流程是对这句话先进行一些特征学习(目的是为了将文字转化为机器可以理解的数字,这些数字就是这个句子有意义的特征,如我想去天安门,对应的标签是出发,那么我希望提取到去,天安门这些关键信息作为我的特征),利用一些特征学习的手段得到了句子的特征后,我们利用一些开源的分类器如SVM等进行句子的分类,也就是说我希望模型能够判别出我想去天安门对应的是出发这个标签。

对于现在的我来说,文本分类任务就是一种任务,它有其应该有的流程和框架,已经很清楚也很简单了。可是可笑的是,在一开始文本分类这样的任务我都不懂,“我去天安门”是什么,标签又是什么,分类是什么,怎么分,要转变成特征又是什么,分类器是什么,包括评估这个模型好坏的评价标准是什么,为什么语句可以变成数字来做计算呢,数字里的每一个字又代表什么。光就是概念都搞不清楚,更别说算法的优化,更新,针对特殊任务的模型修正了。

但是别急,如果看科普NLP的文档中,不太懂这些基础的知识,我觉得没关系,这些问题则就是最好的开始。最好的办法就是将你不懂的问题一个个记下来,拆分下来,根据西瓜书或者一些网络上的课一遍遍的看这个流程是什么,每个部分代表什么,一遍不会看十遍,最终利用我们文科生大胆的想象力来抽象概括这个任务的目的和意义。最终你会发现,数学其实是很美丽的语言,是一种超高维的表达,可以凝练出准确的思想。当然,也可以理解为一种人生箴言,如人生不是马尔科夫随机过程,而更像是强化学习,不断决策不断修正的过程。

逐渐地,通过学习特征工作,我了解了原来还有TFIDF,信息熵,还有很多特征学习的方法,加上很多不同的分类器,可以呈现很多的不同效果。也就是基于此,我完成了第一个文本分类,命名体识别的任务,也发了一个小小的国际会议。也就算我小小的了解这个自然语言处理的基本情况是什么,也终于可以入门啦~ 这个摸索的过程非常长,估计有大半年之久,但是这个半年是非常必要和珍贵的,所以转专业的伙伴们不要因为着急或者困难而放弃,时间的积累以及不停的反思总结对我们转码来说,很重要!!!需要你在初期阶段夜以继日的钻研同一个概念,同一段代码,但是量变后会有质变。秘诀就是你只需要带着疑问不停的了解概念,进行练习,自然就会有结果。


2. 发散思维的控制

从小其实我就是一个有些偏科的人,热爱读书和写作。但是,我在学习汉语言文学的时候有一个很重要的毛病就是很喜欢跳跃式的思考,很多想法发散,不成章法。但是这对于科研,或者学术写作,或者是系统性学习都是非常致命的。上大学期间,我们的课程很多都是阅读经典著作,有时候看书高兴了一目十行,有些让我印象深刻的地方我总会发散到自己的写作方式中去,而且我还持续性的锻炼自己发散思维的能力。而且,我喜欢媒体工作,由于总是碎片化的阅读和表达,也并没有深入总结,导致我的思维其实总是碎片化的,不成系统,更没有逻辑。

实际上文科的科研工作我认为比理科的逻辑性和系统性而言,实则更难。但是本科阶段也不会接触大量的科研,应付一些日常的科研,也并没觉得有什么问题。可是,无法沉浸式的思考,归纳总结,逻辑性的复盘给我的学习创造了很大的阻碍。但是其实无论什么学科,工作,还是一些工程的建设,逻辑性,全局性思维都非常的重要。尤其是写代码,逻辑更重要了。

之后,在阅读论文,阅读代码和理论的笔记的时候,我时时刻刻的控制自己读一句话一定要弄明白其含义,那个时候开始,随着任务的难度增加,我阅读的速度和时间都逐渐变缓加长。我进行了有意识的调整之后,逐渐掌握了这样的思考方式和思维习惯,并在每次学习的时候进行有意识的控制和锻炼,改善了甚多。所以,碎片化的学习方式还是算了吧,要有2-3个小时的时间能够系统性的阅读文章,进行总结, 有时候面对陌生的任务才能吸收其中的20%。如果连这个时间都没有的话,我觉得大概率也不太能学的非常透彻。


3. 独立科研的本质

总的来说,我和我们研究室的小伙伴都非常幸运吧。国外研究的氛围没什么杂事,很在意人权。每个学生的研究都会得到很大的支持和尊重。同时,没有很大的课题组,没有团队的研究氛围,那么所有的工作就需要你自己独立完成。即使是你的导师,也只是能帮助你不要偏离方向罢了。一开始摸不着头脑是很辛苦的,但是,做一个科研项目很像是一个创业的项目,从调研,学习,模仿,创造,行文归纳,感觉, 一切的事情由你自己做主。当你系统性的进行学习过后,一些方法论(如分类模型,图模型)就会逐渐沉淀下来。之后,这些高大上的模型实际上就是一个个工具了。举个例子来说,有些数学模型的利用是有实际的功能的,比如双向RNN模型会将从头至尾和从尾至头学习到的数据相加在一起,这样做的目的是为了让模型有“记忆”。原因是,模型从头至尾学习后时间长了有些东西会被忘记,所以从未至头的学习会加强模型对于时序上的记忆。当你明白这个RNN模型有这个特性,那么遇到下一个需要用到时序相关的任务的时候(上下文学习)就是一个强有力的工具了。

我觉得数学在我小的时候真的很难理解,我不明白求导方程对我们实际上做一件事情,做一个应用有什么直接的效果。而通过这样的学习,我发现我能够在学习中了解数学的意义,明白数学的实际功能。经过学习后,我认为人工智能中的数学不是一个文科生不可触及的天花板,是可以通过研读相关资料学习而成的。即使我们无法成为一个顶级的算法工程师,但是结合我原有的文科专业知识,利用现有的AI开源框架,我们会得到一片新的天地。


最终

总的来说,我在我们研究室还是吊车尾,也没有逆风翻盘。我周围的师兄师姐干的风风火火,而我还在老牛拉车。但是,别人的事儿再大是别人的事,自己的事儿在小的事儿也是自己的。天外有天人外有人。

重回2017,我觉得这个选择我不会后悔,在这里我找到了我热爱的专业,在30前重新结识了自己,明白了独立工作的意义,不断打磨自己的心态,这些软性能力的提升是人生后半部分的财富。这段留日的生活也会成为我人生记忆里的一颗宝石。

所以,我鼓励社科类的文科类的学弟学妹能够进入AI的领域,突破舒适圈,进行交叉研究,比如什么红楼梦人物心理状态转移研究,还有清末北京话到普通话语言变迁研究等等。于国家而言,我们国家的智能科技现在是发展大国,如果利用我们现有的AI技术在不同的文化领域上继续添砖加瓦,那么我们国家的学术水平,思想意识形态,一定会越来越好。

于自己而言,能琢磨自己喜欢的课题,能在科研中也读懂自己,能在困境时救赎自己,我认为这是读书中一种最难能可贵的体验,它和成果无关和成长有关,希望看到这篇文章的你也能够了解它。

Copyright © 2012-2018 焦点娱乐-焦点注册-焦点官方站 版权所有

ICP备案编号:琼ICP备xxxxxxxx号

电话:400-123-4567 地址:广东省广州市天河区88号

平台注册入口