到达什么水平才能算是学会了数学?
数学算法俱乐部共
7287字,需浏览
15分钟
·
2021-11-10 05:02
日期:201年11月7日
正文共:6828字0图
预计阅读时间:18分钟
来源:数学职业家
我最近开始自学数学,学了有一年了。我觉得如果想把数学学懂的话,一定要从最基础开始,一步一步的学,并且选好教材。而且往往需要用数学系的教材才行。先说一下背景。我本科毕业于上海一所普通大学,食品专业,毕业后工作两年完全跟专业不相关,觉得没前途,想转行学计算机。现在在读计算机研究生研二。去年开始学习之前,只有本科上过的高数(同济)和线性代数(学校自编)的基础,但是全都忘光了。现在读研经常看到有线性代数的知识,而回想一下本科学的线性代数最多就会算一下特征值,应用一下克莱姆法则解方程,而且连特征值是什么都说不清楚,所以萌生了补习数学基础的想法。因为之前本科的时候也好高骛远,借过一些非常高大上的数学书来读,发现什么都看不懂,比如印象深刻的是有一本书上来就介绍巴拿赫空间,但当时我连线性空间都没啥印象,怎么可能看懂。所以这次学习,我决心要从最基础的开始看起,不能急功近利。我先从线性代数开始学的,最初的动机就是我们Information Retrieval课程经常会用到矩阵乘法,还有特征值,我想最起码也要理解什么是特征值才行。选了一阵子教材,后来不知道从哪儿看到说Linear Algebra Done Right这本书讲的很好,讲法很新颖,并且全书最后才讲行列式。我个人比较喜欢尝新,而且当时并不具备任何数学方面的成熟度(估计现在也不成熟,不过比当时好多了),觉得这种讲法可能会教给我一些对数学的直观洞察,就选用了这本书。这本书一开始三章给我的感觉就是完全抽象。各种定义,各种性质。而最开始的我很明显缺少相应的数学素养,还是沿用高中的数学学习方法(对,我认为本科学的高数和线性代数根本没有教会我怎么去学习真正的数学),尝试用已知的经验去套用这些定义,就想当然的以为自己懂了。我也会去想每一个定义的动机,并且每一页都要读1小时以上(就像这本书前言说的),但是后来发现我对每一个定义和性质的理解还是太具体。我举个例子:这本书开始介绍了向量和向量空间的概念,直到第六章才引入了内积,长度(范数),正交等概念。但是在这里我就犯了先入为主的错误。我在读前五章时,就想当然的以为向量就对应着一段有长度有方向的线段,从而我脑海里的向量的概念其实只是真正的向量概念的特例。当然这种直观的方法很多时候都没有问题,毕竟特例也是向量,所以向量空间的所有性质看起来都很相容。但是如果一直在脑海中留着这两个概念并带到这些定理(性质)的理解中去,就会导致不能够理解这些定理的本质,也就是学不明白,而且会觉得这些知识很繁琐。比如对我来说曾经最大的一个困扰是,我很难去理解为什么书里面表示一个映射用的是T(x, y) = (x+3y, 2x+5y, 7x+9y),然后他又能能够很自然的找到表示这个映射的矩阵?对于当时的我来说,(x, y)是一个向量,(x+3y, 2x+5y, 7x+9y)是另一个向量,怎么找矩阵嘛!再一个例子就是,我会花一些时间去理解(甚至根本不能理解)为什么多项式,还有三角函数也能够看成向量,因为根本就无法具象化啊!比如,如果我想在脑海中把一个多项式当作欧式空间中的向量来看的话,sinx的长度是多少?夹角是多少?再加上没有人讨论,点拨,所以我后来花了很长时间去摒弃我先入为主的很多观念。当我真正发现原来我自身带有的这种先入为主的对向量的刻板印象是错误的时候,那感觉就像顿悟一样,突然前面的这些定理都通了。那个时刻我非常的兴奋,感觉三观被重塑一样。然而实际上,我摒弃了那些没用的刻板观念之后,我发现线性空间其实是非常简单的空间,而前面那几章其实都是在讲一些简单的道理(这个感觉我在学卓里奇的数学分析前几章的时候也发生了)。我需要学习的东西一下又变少了,那确实是一种通了的感觉。当时真的有一种三观被重塑的感觉,而且,看待事物的方式也被潜移默化的影响了,开始喜欢数学这种下定义,严谨证明的方式了。那我是怎么摒弃那些先入为主的概念呢?其实明白过来以后也很简单,但关键就看能不能转过这个弯了。有人说集合是数学的基本语言,我转过这个弯靠的就是集合加上去理解定义,尤其是向量空间的定义。一开始的时候我看向量空间的定义时很快就自以为理解跳过了,后来学不明白回来看的时候,才注意到向量空间其实是一个集合!一个包含元素的集合!并且这个集合上的元素满足交换律,结合律等等的性质。关键点就在于这是个集合!集合里的元素并没有长度,并没有大小。并且只要能够满足后面给的这6条运算性质,集合里的什么元素我都可以叫他向量。所以多项式也可以是向量,sinx也可以是向量,甚至生活中的一些东西都可以叫一个向量了。这本书的前言里说如果读书的时候任何一页阅读以及理解的时间少于1小时,说明读快了。事实上,这本书我每天读,读了20多天,也才看完前三章。确实每一页都读了1小时左右(或许更多)。因为这本书一上来简直太抽象了,而且我本科学习数学的时候根本就是沿用了高中那一套,尽管我每一个定义都尽力去理解并且尽力去记忆,还是很难转过那道从高中数学到大学数学的弯。后来学完第三章以后,感觉三观都被重塑了。后来开学了,没时间继续看了。放暑假后,我又继续看这本线性代数,从第六章看到结束,大概又花了一个多月。尽管很花时间,但理解各个定理,以及证明都没有太大问题。但是呢,当时的我还是太naive,以为就是学好了线性代数呢。直到后来开学,选了data mining的课。老师本身很水,讲的也不难,但是我还是想好好学嘛。本科由于没学过概率论(该死我我们学校老师都不知道怎么安排的课程,食品专业也应该教概率论呀!),所以我又自学了概率论(陈希儒写的),并且把所有分布以及各种大数定理,中信极限定理,都证明了一遍(这是另一个故事,后面再讲)。但是我发现尽管我有了一些线性代数的理解,也知道了几种“transformation”/“operator”的分解,却还是不能很好的理解课上讲的各种矩阵运算,还有尝试理解SVD也花了很长时间,而且感觉并没有理解透彻。我现在找到了原因,因为Linear Algebra Done Right太强调抽象了,作为理论固然很好,但是在应用的时候,就发现跟矩阵脱节了。比如这本书里定义的Normal Operator,我根本对应不上是一个什么样子的矩阵。我也不知道原来能够上三角化(前提是标准正交基)指的就是能够找到可逆的酉矩阵,一左乘,一逆右乘把他化为上三角矩阵。我发现我在理解一个抽象概念,并把抽象概念转化成可以实际应用的矩阵表示之间存在这一个鸿沟。所以我在上个月考完试之后又开始学习线性代数了,这一次想要弥补这个坎。这次又学线性代数我仍然是结合着这本linear algebra done right教材,并在网上找了一个视频(是我在尝试理解某个概念时搜到的)结合着学习。视频是台湾交通大学的庄重老师讲的线性代数。说实话,我是一听到他讲的课就爱上了。讲的实在是清晰,并且我觉得,如果我最开始就跟着他学习线性代数的话,应该就不会走这么多弯路了。我其实也是从他的下学期的内积空间的几堂课开始听的,主要就是针对一些我之前没有弄懂的抽象与具体对应的一些问题挑着看。他的可很好的一点就是,比如讲舒尔定理时,他先写了一个抽象的定义,紧接着他又给出了对应定义的矩阵表示形式,从而帮助理解。而且他也有一些介绍某个定理该怎么用的课。我看完了他的课之后,又觉得线性代数有了很大的提高。目前我线性代数就学到这里,尽管可能还是不入流,但是自觉的比之前的我强了太多太多。我还想分享我自学数学分析的经历。我在去年暑假看完线性代数的时候,就开始学习数学分析了。数学分析挑教材的时候,又是上网搜,包括知乎(知乎真是太好了)。当然又挺非主流,我被卓里奇的数学分析吸引了。因为介绍说是清华什么很牛的班用的数学分析教材,并且观点非常之高。所以我就淘宝淘了上下两册(暑假在国内学的)。数学分析上来以后不像线性代数,他更详细的介绍了集合论。我觉得这也是重塑三观的一个过程。印象最深刻的有几个。一个是用公理化集合论代替朴素的集合论去绕过罗素悖论。一个是连续性的那几个公理,比如实数连续性公理,区间套公理,有限覆盖公理。我花了好多天去理解,当时的状态就是,把这几个中的某一条读的滚瓜烂熟,就是不知道为什么要这么拐弯子的定义公理去定义实数,所以每天该干嘛干嘛,但是一有闲下来的时间就漫无目的的游走或者静坐思考这几个公理,或者睡前继续想直到脑海中都模糊了。想了几天才拐过这个弯,理解到原来还是集合的问题。这几个公理其实要表达的也很简单,就是告诉我们实数是连续的,能够存在像根号2这样的无理数。这几个公理看起来可能挺复杂,但我理解可能已经是用集合的语言,来表达连续性(也就是无理数存在)的最简单的定义方式了。理解了以上这些集合论,以及连续的概念之后,我们才可以在这基础上定义极限。因为由连续可以证明极限的存在性。极限也是一步一步导出的。由之前的工具其实只能证明一个序列的极限。有了序列的极限之后,又讨论了级数的极限,因为级数的每一项和都可以看作某个序列中的一项。再之后才定义了函数在某点的极限。每一个后面的定义都需要用到前面的定义以及结论。定义了函数在某点的极限之后,才能定义函数在区间的连续性(区间内处处连续)。刚刚读完前面4章的时候,我的心情也是非常激动的,我感觉智力上得到了挑战,并且我成功的理解了他们,非常有成就感。我也感叹于数学理论的精巧以及严密。对数字本身也有了更有趣的洞察;并且对这种定义,公理,定理的体系也更适应了。实数连续性那几个公理确实也很塑造三观。我觉得如果没有转换过一个观念,仍然轻易去接受看起来符合直觉的数学定理,而不追问自己这个定理是怎么来的,确实容易有“这么显而易见的事情也要证明”的困惑。而且,如果没有脉络,不知道数学其实是一个一步一步逐渐搭起来的过程,去被迫接受很多书上的定理并拿来使用的话,很容易被众多的定理搞的头昏脑涨。从第五章开始到第八章,讲的是微分,积分,然后再把微分和积分拓展到高维上去。我学的时候感觉可能是偏应用吧,并且同济的高数教材这些内容讲的比较多,并没有遇到太多的困难。感觉很有趣的是复数部分。以前在学习数学的时候学到复数,完全不知道这个数的动机是什么。尽管我绞尽脑汁,而且尝试各种寻找复数的直观理解,并且还真找到了各种直观的理解,却总不能在情感上接受。而且,更难以接受的是,为什么偏偏定义这种二元数,不继续定义三元数四元数呢(或者定义了却没有广泛应用)?但是学了数学分析里关于复数的部分,再加上自己的一些思考,尽管我仍然不能解释后面三元数四元数的问题,却大体有了一些思路,了解了一些动机,并且在以后自己遇到相似的问题的时候,如果有需要,我也敢自己创造属于我自己的什么元数出来。这其中的关键就在于“如果有需要”这几个字。我理解定义复数实际上是对已有的实数的一种延拓(可能我在滥用术语了)。类比我们之前的几次延拓应该能够找到一些感觉,也就是什么时候我们应该去延拓一些东西的感觉。之前我们在学习的过程中已经做过几次延拓了。我们在定义数的时候,其实我们是先从自然数开始定义的。自然数我们先从1开始定义,并且定义加法。然后1可以不断加1,我们给每一个数起个名字,就构造出了自然数。有了自然数和加法,自然就想到了有没有加法的逆运算,也就是减法?如果减法存在的话,那么1-2等于多少呢?这里是我认为对数的第一次延拓,这次延拓的结果就是增加了0和负数。然后有了加法,我们自然也想到了乘法,也就是x个y的运算。然后聪明的我们又开始想乘法的逆运算,也就是除法。整数又不够用了,于是构造出了有理数,这是对整数的延拓。有了乘法,我们又构造出了乘方,然后乘方有逆运算吗?我们定义了它的逆运算开方,结果有理数又不够用了,我们延拓出了无理数,也就是实数了。但是其实实数还是不够用的,因为负数现在没有开方。我们为了让运算封闭,并且都有意义,干脆构造出了虚数(又一次延拓),以及复数。并且,我们定义完复数之后,给它制定了运算规则,发现他很守规矩,可以很好的帮助我们计算,而且我们甚至能够找到对它的直观解释,即复平面。因此我们也接受了复数。因此我感觉延拓就好像你在做数学的时候,发现现有的数学工具不能满足自己的需求,而定义的一种新的工具。这种新的工具可能能够帮助简化计算,或者能够将某个具体问题泛化成更抽象的更通用的的概念,从而帮助研究这个具体的问题。甚至有的延拓本身就足够有趣从而值得去研究。还有一些困难是当这本书进行到高维的时候,实在是非常抽象,所以理解起来很费事,也不容易具象化。但是我感觉我前面对于实数的连续性的理解,对于我理解高维(并且是复空间)背景下的连续,极限的概念帮助很大,因为可以很好的类比到实数的连续性上,所以学起来也没有那么的烧脑。卓里奇的数学分析我看了3个多月,在去年暑假结束的时候看完第一册。目前打算用闲暇时间去读这本书的第二册,而且也听说了这本书其实他的精华在于第二册,观点很高。可惜现在还没看,看完了再过来更新感想。另外我还想分享我学习概率论的经历。概率论我本科居然没有学过,我也不知道我们专业为什么这么安排,导致我基本上只有高中概率论的基础,再加上之前我之前学食品某课程浅显的接触到了一点儿显著性检验的知识(其实只会查表,但至少不陌生)。学概率论其实是有一个契机,因为按计划我是打算看完数学分析第二册再继续学概率论的,因为比较简单嘛。但是由于上学期选课选了data mining,所以课上需要用到很多概率的知识。我不希望这门课就这么混过去,所以每次作业都拖到最后一天去写,而这之前则是恶补概率论的基础知识。好在最后我终于补上了。概率论我大概花了1个月左右补习的。首先还是选择书。我经过咨询后选择了陈希儒版的概率论与数理统计。为什么没有用英文版教材是因为学业压力,没有时间去慢慢读英文版的。当我读了陈希儒老师的概率论后,我发现没有选错书。这本书简直太好了!统计的部分我没有读完,但是第一到四章以及第六章部分我都看了。作者都不是突兀的只介绍知识点,而是从实际问题入手,引出问题,我们为什么要研究这些问题,并且作者给出了很多背后的动机以及他的思考,非常帮助读者自己印证自己的想法。而对于概率论中的每一个公理定理,老先生也是极其认真,难得的都给出了证明!这些证明也各有其动机,以及如何去直观的理解,应用这些定理。读这本书的时候感觉简直是酣畅淋漓。虽然是偏应用的教材,但是这本书却同时很数学,所有的定理仍然是一步一步的导出的,没有什么突兀出现的概念,定理导致难以理解的。另外由于作者是中国人,读起母语来如沐春风,非常带感。这本书前两章挺好理解,但是我觉得仅仅去记忆那几个概率分布又有些舍本逐末了。书中对很多概率分布都给了证明,我对所有的分布都试着推导了一下,获益匪浅。比如正态分布,二维正态分布,还有伽马分布(伽马分布很有趣,我感觉应该可以看作阶乘的延拓,不知道是否正确)等等。为什么要推导,自己证明这些分布呢?因为我脑海中有些疑问,就是为什么我们需要这些奇怪的分布,这些分布都是怎么来的?其实还有一个实际的原因,就是我在上data mining的课程的时候,讲解回归分析时经常会用各种显著性检验,有的时候满足t分布,有的时候却又满足正态分布,有的时候又得用卡方检验。我之前完全不能够理解。后来我理解了这些分布的意义了,其中的关键就是,要知道这些分布都是在什么条件下出现的分布。这个条件很重要,有了这些条件之后,这些分布就是由这些条件再加上一些概率论中的公设推导出来的了。举个例子,卡方分布,其条件是随机变量X1,X2,X3...Xn相互独立,并且满足标准正太分布时,他们的平方和满足自由度为n的卡方分布。注意这里是他们的平方和满足卡方分布,这是他能应用于独立性检验(皮尔森卡方鉴定)的关键。再比如F分布,要满足的条件是X1,X2独立,各自满足自由度为m和n的卡方分布,则(X2/m)/(X1/n)满足Fmn分布,所以可以用F检验。这其中的关键在于当条件满足后这些变量就满足某个分布,想要理解这个检验就一定需要能够从条件推出这个分布出来。还有一个自由度的概念。自由度很不直观,也很难理解。书中102页的证明能够帮助理解自由度,但是应该有严格的证明,目前我还没接触到。我个人目前的理解是,尽管你一共有m个变量,但是这些变量之间是相关,由其中的n个变量就能推出其他m-n个变量。从向量空间的角度来看,就是尽管有m个向量,但是由于线性相关,只能张成n维的空间,即任意个一个向量都只有n个方向的自由度。概率论这本书第三章我觉得最关键就是中信极限定理。之前只是证明了正态分布是一个分布函数,但是并没有给出为什么独立同分布的随机变量的均值服从正态分布。中心极限定理就描述了这样一个性质。我觉得理解这个定理的证明非常重要,要不然概率论感觉起来也像是空中楼阁一样。但是遗憾的是这本书里没有给出中心极限定理的证明。我现在也在尝试找到这个证明并去理解,不过还没有找到我能够理解的证明。。。以上是我这一年多学习数学的经历,大部分是我学习过程中的心理状态以及感想,可能过于主观,可能写的并不正确,还请大家见谅。
浏览
27点赞
评论
收藏
分享
手机扫一扫分享
分享
举报
点赞
评论
收藏
分享
手机扫一扫分享
分享
举报