不要死磕信息论嘛……
假设人类现在的知识总共是100Pb,某人设计出来了一小行代码,只需1kb执行就能生成全部的人类知识。
但根据香农信息论,至少有100Pb-1kb的100Pb大小的数据你们无法用这种办法生成,不能接受这个叫做压缩!
拜托,那些压不下来的文件,who cares?
我只希望我需要的文件压缩下来就行了啊……
而且根据信息论,照这么算,我们的压缩软件根本不能工作好吗……
我们在讨论压缩,不是违反信息论的稳定压缩!
========原回答=======
看到这么多IT大神群嘲,生物狗来强答一个……
你们都没get到题主的意思啊!题主说的压缩方法我们用了几亿年了啊!
=====逗逼故事的分割线=====
2058年地球与KIC8462852方面依赖微型虫洞取得了联系,由于每次只能发送32kb级别的信息/能量/物质,我们邪恶的程序员Adam只得发送了一张爱喵的皂片。
于是K对地球文明陷入了疯狂……
K:未知文明,我们的文明已经率先解析了本宇宙全部基本规律,正在搜集能量以打开空间维度卷曲,解放热力学第一定律,因此我们不存在任何利益冲突。我们已将所有我方已知的数据发送到你们的坐标,希望能换取一只喵星人的原子阵列文件。文件上传和解压需要花点时间,请慢用!
E文明表示不能辜负宇宙文明之间最基本的信任,组织了大批测量学人士对Adam的爱喵Emily进行测量,要求精确到百分纳米级,每个原子都不能定错位。
接下来无数IT大牛对着生成的海量数据发愁……
Ian Wilmut不能忍了:卧槽,你们就不能只测一个受精卵的数据然后加一个ReadMe.txt解释怎么培养吗?
旁边一个搞遗传学的phD忍不住提醒了一句:大神,其实送个基因组和表观遗传数据就可以了……记得把病毒序列剔掉……
旁边一个搞生信的phD冷笑一声:你们就不能发个最早的单细胞生物基因组序列,告诉他们用什么条件自己去算演化算法结果吗?
一个合成生物学的phD沉思良久:我认为基因组都可以不用发,你们给合成条件让他们模拟就行,虽然算出不来原模原样的猫但能算个类似的趋同演化产物就行。
最后一个长着一大把胡子的老头发话了:不,我认为只需要五个公设就行……
=====完=====
结尾有点扯不过发育生物学上看的确是这样。两个双胞胎那么大的信息量相当于受精卵基因组在细胞环境内的自解压产物。
这有点像折纸:你或许很难通过说清楚你的纸飞机成品长啥样来让别人重复,但你可以很容易地教会别人怎么叠。基因组储存的不是生物长啥样,而是怎么一步步搭建出生物体。
#新高票给的那个名词好形象……“步骤生成”……还是你们计算机专业的会起名……
再例如我要给别人发这样一个模型……
用点阵完整描述这个形状起码好几兆吧,不过其实我可以只发百来字节过去:
((z - 3 ArcTan[x - 3])^2/(3 (1 + 3 E^(-(2 x/3 - 2)^2))) + (3 + x/10)^2*(y + 1/3 (Sqrt[x^2 + 8] + x) + 1/2)^2/(16 (E^(-x^2/3) + 1)) - 1) ((z - 3 ArcTan[x - 3])^2/(3 (1 + 3 E^(-(2 x/3 - 2)^2))) + (3 + x/10)^2*(y - 1/3 (Sqrt[x^2 + 8] + x) - 1/2)^2/(16 (E^(-x^2/3) + 1)) - 1) ((x - (x + y + z)/9 + 7)^2 + (z - (x + y + z)/9 + 2)^2 + (y - (x + y + z)/9 - 3)^2 - 2) ((x - (x - y + z)/9 + 7)^2 + (z - (x - y + z)/9 + 2)^2 + (y + (x - y + z)/9 + 3)^2 - 2) == 4,
{x, -10, 10}, {y, -10, 10}, {z, -10, 10}
电脑文件也类似的,文件里只需要描述:
“这一段文件是吧……嗯……你去把π的十进制小数算出来,到里面找一个MD5码是xxx的n长度数串,就是你需要的数(kang)据(ti)啦!”
“哦……这一段啊,我们写的是oo,你可以把Windows系统内核里的xxx区域写的文件拷(zhuan)贝(zuo)过来,正好一样……”
“额……这个常数是多少我不记得了,你算一下目前已经解析出来的数据里的xx到oo那一段对应的代码,看第n位往后5634位就能知道了~哦对了,拿来算的这个代码不属于这个文件,算完记得删(jiang)除(jie)掉哦。”
“这一段→_→你懂得啦~你知道要写什么的啦~猜一猜嘛么么哒~”
这个方法真的可以达到千分之一的压缩率……但是你们IT行业不会压的那么丧心病狂,因为你们面对的数据没有那么多能被“你懂得”和“自己去算”的成分……
没记错的话avi的压缩就有针对视频进行“这一个区域在这段时间没太大变化,只要留第一帧的数据就行了”的操作,其实已经在运用题主说的部分方法了。
对于某些文件内容冗杂(例如各种附加属性,某些格式即使没有这个属性也会在文件里塞个“此处为空白”的玩意儿占空间),压缩软件也会大刀阔斧的砍掉——“没有就没有,别瞎BB,解压的时候再给你补一个就是了,反正是空的”……
以上。
P.S.围观了一下高票给的
这个链接里的下载流量记录……暴露一切……
6号以及之前都是10+而7号突然跳到了682……今天(8号)目前是85……
论利用互联网研究社会行为的可能性……
谁敢抄这个高票,这个流量记录分分钟暴露你!