说到拟合就不得不提Freeman Dyson (就是提出戴森球的那个Dyson) 和Enrico Fermi的故事了。
Dyson当年研究过介子-质子散射理论,建立了一个模型,完美的重现了Fermi的实验结果。
Dyson琢磨着,这么好的实验对比肯定能搞个大新闻,于是他来到芝加哥找到Fermi讨论他的理论,几乎就要把"快夸我"三个字写在脸上了。
然而Fermi当场给他浇了一盆冷水。
Fermi批评道:"做理论物理有两条路,要么从清晰明了的物理图像出发,要么从严格自洽的数学推导出发,而你的模型两点都不满足。"
Dyson此时还有点不服气,表示计算跟实验吻合的这么好总有点价值吧。Fermi反过来问他:"你在计算中用了几个拟合参数?"
Dyson想了想,伸出四根手指头。
然后Fermi援引了John von Neumann的一句名言:"给我四个参数,我能拟合出一头大象,多给一个我还能让大象的鼻子甩起来"。
Fermi的评价对Dyson的打击很大,不过Dyson事后回想却很感激Fermi。因为后续夸克模型的成功,证明当初Dyson的模型是错误的,Fermi阻止了Dyson在一条错误的道路上浪费时间。
Fermi的评论放到这个问题下其实也挺合适的,变量足够多,写成级数形式啥曲线都能给你拟合出来,但这样拟合的意义并不大,更像是凑结果。理想的情况,应该是从物理图像出发,推测出基本的函数形式,尽可能的减少需要拟合的参数,这样的结果才具有普遍意义。
不信?我当场拟合个大象给你看[1]:
这是拟合鼻子能动的大象用到的五个参数:
我在这里举一个我印象特别深的例子,就是分峰。对过渡金属配合物进行光谱测量,往往会得到一些峰看上去是几个峰组合而成。这时候有经验的科研人员会弄一个分峰软件,对一个胖峰,输入它是由几个峰组成的,程序就会相应的把一个大峰分解为若干个峰,这些峰叠加之后是原来的大峰。
看到这大家也都意识到了,到底一个峰是几个峰组合而来的是不知道的,写几软件就给你分解成几个。要想确定这个输入参数,必须使用基于量子力学的理论计算得到,或者使用其他实验手段来进行测量。
这个故事是我研究生上课听一位实验化学家老师讲的,印象十分深刻。因为后来我做光谱计算的工作时也遇到了这个问题。
感谢前面几个答主的回答。这几个回答所说的情况,其实各自都代表了一个类型。
题主在问题描述中已经提到了过拟合问题:任意多项式函数都可以拟合牛顿引力定律。可见题主也是有统计基础的。针对过拟合的问题,我们总是能够从拟合参数的置信区间中找到哪些参数是可靠的,哪些参数是不良定义(即过拟合的),从而扔掉不良定义的参数。因此,如果是一个牛顿引力定律的实验,虽然可以用任意高阶的多项式去拟合,但大概率你会发现最后还是只有 r^-2 次项有统计意义。此外,我们还可以通过观察协方差矩阵来分析各个拟合参数之间的相关性;如果有协方差接近 +1 或 -1 的,就说明这两个参数高度相关,可以、也应该合并为一个参数。因此,这种对拟合结果的统计学分析,可以帮助我们识别模型的可靠性。
题主问的第二种情况,x/(ax+b) 和 ln(ax+b),大概率是可以直接分辨的,因为物理学要反应自然现实,模型需要符合量纲。除非 x 本身是一个无量纲数,否则,ln(ax+b) 中 ax+b 必定无量纲,那么 x/(ax+b) 肯定就有 x 的量纲。那么 y 究竟是什么量纲,就能确定哪个模型是正确的。
量纲分析是非常有用的东西。据说当年普朗克去猜黑体辐射公式,猜的过程中也依靠了量纲分析。
其次,像 x/(ax+b) 和 ln(ax+b) 这种完全不同类的函数形式,它们即使相近,也只可能在一个很有限的取值范围内相近。一旦超出这个取值范围,两个模型的差别就会拉大。我们很自然的就会想到,去更大范围内去测量数据,或者根据物理直觉,外推一些数据,从而判断模型的正误。事实上,当年促成黑体辐射公式的「紫外灾难」,说的正是物理学家对瑞利—金斯公式中的波长做外推,发现波长趋近于 0 时能量密度变成无穷大,而这是不可能的。所以大家哪怕尚不清楚正确的模型(普朗克的公式)是什么,也能知道当前的模型(瑞利—金斯公式)一定有问题。
第三类,像 @Triborg 老师提到的,拟合几个峰这种,就属于经验和理论都要结合的了。拟合峰中,峰的函数形式是可以确定的,不会错。拟合的参数无非就是有几个峰,峰在什么位置,峰宽多少。你当然可以把每个峰都看成是独立的,自由地拟合参数。但在很多情况下,考虑实际情况,可以对峰和峰之间的关系给出许多限制。比如,来自同一种物质、同一种物理环境下的峰,峰宽应当保持一致(相同或符合同一套展宽模型);有些峰之间的相对强度应当是固定的,例如由于各种对称性破缺造成的谱线裂分;有些峰之间的位置差应当是固定的,例如以相同的视向速度运动会造成一致的多普勒频移,等等。这些实际情况可以帮助限定实际需要拟合的参数数量。
不管是上面哪一种情况,模型选择都需要符合实际数据所代表的体系,需要有实际意义。自然科学不是瞎编故事,拿到一堆数据瞎拟合一通而不去给出这么做的合理理由,这样的结果肯定是站不住脚的,也不会得到认可。
还有 @碗碗 提到的
All the models are wrong, but some are useful.
这也正是经验主义的思想。物理学家中有一群人专门搞「唯象学」,就是这种纯粹用模型来描述观测结果的。当然,唯象不是目的,唯象只是手段。随着对研究对象认识的深入,有可能发掘出唯象模型背后更本质的规律。
这是我看到的最准确的总结。
总的来说,就是中国的高考相对公平,所以性价比极高,所以其他活动都可以适当让步。