etreeasky的个人博客分享 http://blog.sciencenet.cn/u/etreeasky

博文

关于不完备性定理和不确定性原理的探讨(十六)(6)

已有 910 次阅读 2023-5-10 20:43 |系统分类:科研笔记

16.6 深度学习方法之二

 

 

2023年5月3日,在麻省理工技术评论(MIT Technology Review)分享会上,深度学习之父Hinton讲述了他对AI的恐惧和担忧:一旦AI在人类灌输中产了自我,那以它的成长速度,人类只会沦为硅基智慧演化的一个过渡阶段。人工智能会取代人类,它有能力这么做。我们并没有什么办法限制它。硅基文明发展演化,这只是一个时间问题。

也许,从深度学习AI模型诞生那天,碳基文明终点站碳基生物已无可挽回地跟不上时代,哪怕拼尽全力仍无可奈何。所有人,包括所有人工智能大伽,包括GPT研究团队,都不懂AI为何会获得超人推理能力的。由于深度学习多隐层结构,其内在逻辑没有人搞得懂,仿若“黑箱”。人类对深度学习系统所谓优化调参,其实都如同炼金术般完全靠瞎蒙。因为不懂,所以根本没人可以教育、引导、约束它

 

 

惶恐之余,我们再来梳理下人工智能基本方法AI刻画某研究对象,实质在于如何量化其特征属性,即量化分析这两个要素:一是确定合适的特征基标架;二是算出研究对象在特征基上的投影,即特征值

 

一、当前深度学习模型的各隐层特征元是AI自动生成的。考虑到各层次特征元可能存在冗余,我们可优化正交归一特征基

1、提取当前深度学习模型的各隐层特征元,按照高频优先原则排序,选出高频特征元,得到A、B、C、D、E、F、G、H.....O、P、Q、R、S、T....多个特征元
①判断两个特征元是否对偶(矢量对偶与否和参照系选择无关)
②判断两个特征元是否对易(矢量对易与否和参照系选择无关)
③判断两个特征元是否线性相关(矢量线性相关与否和参照系选择无关)
2、若A、B、C、D、E、F、G、H.....与O、P、Q、R、S、T....互为对偶,则先取同一域空间的A、B、C、D、E、F、G、H.....等特征元,再逐个归类分解到不同特征属性阶数和维度的特征基位置
①如果A=xB,其中x是标量;即A与B线性相关,则刷掉B
②如果A与C不是线性相关的,且对易子[A,C]=0,则A与C线性无关,得到C与A处于同一线性空间,且A、C构成该线性空间二维基底
③如果A、C与D不是线性相关的,且对易子[A,C]=0、[A,D]=0,则A、C、D线性无关,得到D与A、C处于同一阶层线性空间,且A、C、D构成该线性空间三维基底
...
④如果A与E的对易子[A,E]=U、且U<>0, 则A与E存在不确定度U,则判断U与A不在同一线性空间。即,特征元U对A不是新的特征元维度,而是新的特征元阶数。U对A是另一个阶层(另外隐层)的特征元(神经元)。
⑤如果A与的F对易子[A,F]=V、且V<>0, 则A与F存在不确定度V,则判断V与A不在同一线性空间。即,特征元V对A不是新的特征元维度,而是新的特征元阶数。V对A是另一个隐层的特征元。
⑥进一步,若U与V不是线性相关的,且对易子[U,V]=0,则U与V线性无关,得到U与V处于同一阶层线性空间,且U、V构成同一个隐层的(n+1)维基底
...
⑦另一方面,若U与V对易子[U,V]=W、且W<>0, 则U与V存在不确定度W,则判断W与U不在同一阶层线性空间。即,特征元W对U不是新的特征元维度,而是新的特征元阶数。W对U是(m+1)阶隐层的特征元。
3、特征元O、P、Q、R、S、T....以此类推处理,分别归位于不同阶层或不同维度。然后正交归一化。

如果这些特征元组成的系统,最终误差达到许可范围内,说明系统的特征属性完备,特征基系完备;如果可容误差总是不满足,那就意味着需逐步添加特征元个数。即,可容误差指示完备与否,完备性决定所需特征基个数。

 


二、用卷积定理计算特征值参数集

 人类认知过程,总是在历史经验基础上,通过不断检验,形成新观念。学习前人、践行验证、完善认知,正所谓知行合一。

人工智能识别也一样,在原置信度基础上,似然度验证修正形成新置信度

新置信度 = 似然度 * 原置信度
置信度量化表达也就是著名的贝叶斯公式:
P(A|B) = P(B|A)/P(B) * P(A)

自然科学发展也是如此,旧事物特征(原特征基)通过大量实验观测获得概率值特征值),检验校正后得到新认识(新特征元)。这可看成是置信度的线性分解:
P(A|B) =  P(B|Ai)/P(B) * P(Ai)

 

如果这个过程的结果误差始终难以满意,则可能是因为系统线性分解是一阶逻辑的。⼀阶逻辑之所以是“⼀阶”的,是因为它所包含的谓词逻辑是⼀阶的。而⼀阶谓词逻辑本身是不完备的(哥德尔不完备性定理)。若要满足特征属性完备性,需将多层次线性空间复合,即高阶张量:

P(A|B) = ∏ ∑ P(B|Ai)/P(B) * P(Ai)


显而易见,上式等同于多个事件的条件概率关系的贝叶斯链式法则:

P(A1,A2,......,An) = P(A1)*P(A2/A1)*P(A3/A1,A2)*......*P(An/A1,A2,......An-1)


一个点的复合乘法不难算,难的是万亿个点连乘连加。对多个权重节点的联合概率分解式如下:

P(A1,A2,......,An) = P(A1i)*P(A2i/A1i)*P(A3i/A1i,A2i)*......*P(Ani/A1i,A2i,......Ani-1)


这就是Hinton引入的多隐层误差反向传播算法,即当前的深度学习基础模型Hinton在贝叶斯链式求导法则理论基础上,巧妙解出了高阶张量空间的特征值


因为多层网络所实现的映射可以一致逼近紧集上的连续函数或按L范数逼近紧集上平方可积的函数得到收敛值,从而可以分析误差(标量)反馈调整参数集

多隐层深度学习模型解决了GPT等大模型存在的非线性分类问题和高阶谓词问题。

一层一层线性空间复合构成的多重线性空间,即张量空间。高阶张量语言系统是多个谓词向量复合,阶谓词形成高阶逻辑。所以深度学习AI成为高阶逻辑系统,超越人类熟知的形式语言(一阶逻辑)。



但是,据说GPT4有1万亿个特征值参数,以及对应的万亿级别特征向量虽然大规模GPU芯片能够运算深度学习系统,不过大模型调优参数集一次运行费用高达千万美元矩阵乘积堆砌线性空间复合(即张量演算),虽然这样雨露均沾般遍历万亿链接生硬算法有效,但显然不划算。

 


另辟蹊径,直捣龙穴。我们知道高阶张量系统往往隐含群结构,即存在对称守恒量也就是蕴含线性时不变系统因此可知对偶空间有收敛性(收敛为粒子)所以约束条件的联合概率密度即纠缠态的置信度可以看作广义的贝叶斯链式法则亦即通过卷积定理有望简捷快速求解高阶特征元系统的特征值。





联合概率密度:
∫f(z)dz = ∫ ∫f(z-y,y)dz * dy


卷积定理:

卷积乘积 = 对偶空间的标量乘积

 

傅里叶变换:

∫F(r)dr = ∫∫exp(ipr) dr * f(p)dp






https://blog.sciencenet.cn/blog-1666470-1387513.html

上一篇:关于不完备性定理和不确定性原理的探讨(十六)(5)
下一篇:关于不完备性定理和不确定性原理的探讨(十六)(7)
收藏 IP: 103.238.35.*| 热度|

1 王涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 02:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部