popo 的个人资料打不碎的万能镜照片日志列表更多 工具 帮助

日志


5月20日

程序、维度、墙中的小人及其他

今天整理一年的工作记录时,和实验室的师弟讨论起这些大规模数据的存储。这是个麻烦的活儿,因为每个数据点包含的信息量很繁杂。比如磁共振图像里面,大脑被分成上万个体积元,每个体积元都有一组随时间变化的信号。在一个完整的行为实验中,被试者要接受不同条件下的测试,那么对应每个条件都有一组完整的磁共振图像。把它们存储到文件中就像这样:同一个体积元里的信号可以按时间先后排成一列,再把这些体积元从左到右排成一行。那么我们就得到了一个矩阵,第i行第j列的数据代表第j个体积元在第i个时间点的信号。那还有不同的实验条件怎么表示呢?就把矩阵变成三维的,即把先前的“方块阵”层层“叠高”,第k层代表第k个实验条件。那还有不同的被试者怎么表示呢?哈哈,四维矩阵出现啦,想象一下把先前的“方盒子”在第四个方向上累积,每个盒子装着一个被试者的数据。

我的数据不止含有这四个方面的信息,而是十来个方面。那么直接存储它们就需要十几个维度的矩阵,读取起来也很麻烦。如果我只想从中抽取一部分来分析,就还得专门准备一套有效率的查找方法。所以我保存的时候是经过了一些处理的,相当于加上标签和分类,便于识别。但由于标签和分类混迹于数据之中,使得最终保存的文件不能像矩阵那样直接用于计算。总之,要清晰的结构就牺牲了高效的计算,怎么都有得有失。

于是师弟感叹到,为什么我们会碰到这些麻烦呢?像三维的数据就很好办,因为我们的大脑足够理解它的结构,不用太多的处理,甚至可以直接画出一张图来就完成了分析。我们无法看见高维的数据是什么样子,才需要各种繁杂的方法来摸熟它们的特征;而即使描述了它们的特征,也不能保证能找到它们的意义。我一下子就想起了给JZ一家送书的那天晚上的谈话。当时JZ学长在纸上画了一个小人,框在一个正方形中央。他说,这个二维小孩到死也想不通我们为什么能同时看见墙里和墙外的世界。我就照葫芦画瓢也在师弟的本子上画了同样的小人和方框,说也许这就是我们面对高维数据时所处的境地。

没想到师弟突然两眼放出很诡异的光,说或许我们能训练自己的大脑去感知高维世界呢。比如这个二维小孩,我们给他食指上拴一根电视天线。这天线垂直纸面伸到我们的世界中来,但小孩的手仍然只能在纸里运动。电视天线是可以伸缩的,当小孩向左挥手指,天线就伸;向右挥手指,天线就缩。这样,在天线第三维上的运动就被“投影”成了小孩在纸内的运动。然后,当天线碰到障碍物的时候,天线就在小孩的手指上产生一个神经电流,让他感觉到撞上了东西。好了,这时我们再在他的中指和无名指上各拴一根天线,用同样的“投影”来传递另外两维上碰到的障碍物。这个二维小东西就可以通过运动三根手指,来感受三维空间中的运动啦。

这想法乍一听满无聊的,但是我事后想了一下觉得挺有意思。我用这样的方法去“摸”四维盒子的四条棱的时候,那第四根手指会有什么样的感觉……啊,或者或者,我可以写一个程序生成四维盒子,然后把每个维度用传感器模拟触觉,然后连到手指上……瓦卡卡……

===============================================================================

在JZ学长家,我们也讨论到了高维数据的问题。视网膜上的细胞以十亿计,几乎每一个都是独立的单元。这么大的信息量,是怎么层层精简了,最终变成大脑中的“脸”、“房子”、“汽车”这些单一的抽象的概念呢?——师弟曾经到处贩卖他的一个想法:有朝一日我们知道了视网膜是怎么处理信息的,就可以把这个降低复杂度的算法用于我们的高维矩阵,这就真的是用眼睛去看见纷乱中的秩序啦!—— 于是我赶快问JZ学长,那么视网膜究竟用了什么关键的办法呢?学长语气很无奈,如果给这个研究加上一个期限,那就是我有生之年也看不到结果……

今天的讨论中我们又说到这个视网膜,脑科学界流行的看法是,视网膜接收的是二维图像,大脑经过分析从二维图像中抽提出三维空间的信息。现在回想JZ学长的话,或许我们这个二维的假设一开始就是错的。视网膜可能是个高维系统…… 啊,令人兴奋。

===============================================================================
那天和JZ学长还说到真实世界与模型的关系。在他们“视网膜界”,数学模型是被人嗤之以鼻的东东。我当时就吓了一跳,因为生物细节恰恰是被我们“神经网络界”的教授嗤之以鼻的东东。JZ学长说,你们搞模型的,就把生物机理用一个黑盒子代替了,只看输入和输出。但是,不知道机理是没办法模拟真正的输入和输出的,必须把盒子打开,看见里面的通路究竟是怎么连的。我就激动了,问那你们看到了什么?学长表情很无奈,说我们先是追踪每一个突触,发现要解释突触的连接特点必须知道神经递质等等细节;于是我们追踪各种递质的机理,发现细胞内通路和调控也很重要;于是我们深入到细胞内部,发现那里也是一个庞杂的网络……看到的细节越多越迷惑。也许只有等到所有零碎的信息拼到一起的那一天,我们才能看清整个大画卷。

我对信息拼到一起就能看清大画卷的理论表示质疑,于是向JZ学长讲述了逻辑斯谛模型和它产生的混沌。然后我问,假如我们不知道有这样一个公式可以产生“貌似随机”的现象,而只是观测到这组混沌的数据。那么我们知道了所有的细节,不管用什么统计啊PCA啊信号识别啊之类的方法,我们能归纳出那个公式吗?很可能不行。那怎么办呢?其实我也不晓得,我目前的认识是,除非我们已经具备了足够的数学知识,然后用数学去对比现实,否则很可能得不到现象背后的成因。

===============================================================================

成因,成因,Causality。这个西方哲学中争论不休的话题。休谟说原因就是一组相关性。师弟说,对于复杂系统我们或许需要新的关于因果的定义。这个定义是什么呢?我原以为类似物理公式的数学就是终极原因,可是物理公式也可以看作是对规律的描述而不解释规律的成因。语言学家惯于把一切行动的原因归于意向(intentionality),维特根斯坦说一切哲学问题都是语言问题,雷可夫说一切哲学命题都是隐喻。啊,成因是什么~我不懂(我的想法很邪恶……:D)………………