博文

数学化扩展在司法判决文书处理中的DIKWP数据层（D）应用

已有 472 次阅读 2023-11-23 17:49 |系统分类:论文交流

传统发明创新理论1946-TRIZ不适应数字化时代

-综合DIKWP模型和经典TRIZ的创新问题解决方法

意图驱动的

数据、信息、知识、智慧融合

发明创造方法：

DIKWP-TRIZ

(中国人自己的原创发明创造方法：DIKWP-TRIZ)

数学化扩展在司法判决文书处理中的DIKWP数据层（D）应用

段玉聪 教授（Prof. Yucong Duan）

DIKWP人工意识实验室

AGI-AIGC-GPT评测实验室

(联系邮箱：duanyucong@hotmail.com)

引言

司法判决文书处理的精确性始于数据层（D）的处理。以下是对数据层处理过程的数学化扩展和细化案例表达，展示了如何使用自然语言处理（NLP）和数据挖掘技术来提高司法文书处理的精度和一致性。

数据层（D）的处理

原始数据的识别和收集

合同文档（D₁）处理：

使用NLP技术扫描文档，自动识别关键术语，如“违约”（D₁-W₁）和“不可抗力”（D₁-W₂）。

将术语定义作为向量T表示，例如，T_违约和T_不可抗力。

使用向量空间模型（VSM）将文档中的术语与法律数据库中的定义进行比对，计算余弦相似度cos(θ)来评估一致性：

对于每个关键术语，确保cos(θ)接近1以保证定义的一致性。

交易记录（D₂）和邮件通信（D₃）处理：

应用数据挖掘技术，使用时间序列分析方法f(t)从交易记录中提取关键日期和金额。

邮件通信中的关键词汇，如“延迟”或“不可预见”，通过文本挖掘技术进行识别和上下文解析。

定义邮件通信中关键词汇的识别函数g(x)，其中x为邮件文本。

数据层的验证

交叉验证方法：

利用历史案例和法律数据库构建验证集V，包括已解析的术语向量T_V和关联的法律含义。

对每个识别的术语向量T_D（从D₁、D₂、D₃中提取），计算与验证集V中相应术语向量的相似度。

使用相似度度量s(T_D, T_V)来评估数据的法律意义与文档中表述的一致性，其中s可以是余弦相似度或其他相似度度量。

确保s(T_D, T_V)的值足够高，以验证数据的准确性和一致性。

结论

通过数学化扩展和细化司法判决文书处理中的数据层，我们能够提高文书处理的精确性和一致性。利用NLP和数据挖掘技术，结合向量空间模型和相似度度量，可以有效地识别和验证关键术语和信息，确保其法律意义的准确性和文档中的一致性。

段玉聪，海南大学计算机科学与技术学院教授，博士生导师， 第一批入选海南省南海名家计划、海南省领军人才，2006年毕业于中国科学院软件研究所，先后在清华大学、首都医科大学、韩国浦项工科大学、法国国家科学院、捷克布拉格查理大学、意大利米兰比克卡大学、美国密苏里州立大学等工作与访学。现任海南大学计算机科学与技术学院学术委员会委员、海南大学数据、信息、知识、智慧、意图DIKWP创新团队负责人、兼重庆警察学院特聘研究员、海南省委双百人才团队负责人、海南省发明协会副会长、海南省知识产权协会副会长、海南省低碳经济发展促进会副会长、海南省农产品加工企业协会副会长、美国中密西根大学客座研究员及意大利摩德纳大学的博士指导委员会委员等职务。自2012年作为D类人才引进海南大学以来，累计发表论文260余篇，SCI收录120余次，ESI高被引11篇,引用统计超过4300次。面向多行业、多领域设计了241件（含15件PCT发明专利）系列化中国国家及国际发明专利，已获授权第1发明人中国国家发明专利及国际发明专利共85件。2020年获吴文俊人工智能技术发明三等奖；2021年作为程序委员会主席独立发起首届国际数据、信息、知识与智慧大会-IEEE DIKW 2021；2022年担任IEEE DIKW 2022大会指导委员会主席；2023年担任IEEE DIKW 2023大会主席；2022年获评海南省最美科技工作者（并被推全国）；2022年与2023年连续入选美国斯坦福大学发布的全球前2%顶尖科学家的“终身科学影响力排行榜”榜单。参与研制IEEE金融知识图谱国际标准2项、行业知识图谱标准4项。2023年发起并共同举办首届世界人工意识大会（Artificial Consciousness 2023, AC2023)。

数据（Data）可视为我们认知中相同语义的具体表现形式。通常，数据代表着具体的事实或观察结果的存在语义确认，并通过与认知主体已有认知对象的存在性包含的某些相同语义对应而确认为相同的对象或概念。在处理数据时，我们常常寻求并提取标定该数据的特定相同语义，进而依据对应的相同语义将它们统一视为一个相同概念。例如，当我们看到一群羊时，虽然每只羊可能在体型、颜色、性别等方面略有不同，但我们会将它们归入“羊”的概念，因为它们共享了我们对“羊”这个概念的语义理解。相同语义可以是具体的如识别手臂时可以根据一个硅胶手臂与人的手臂的手指数量的相同、颜色的相同、手臂外形的相同等相同语义进行确认硅胶手臂为手臂，也可以通过硅胶手臂不具有真实手臂的可以旋转对应的由“可以旋转”定义的相同语义，而判定其不是手臂。

信息（Information）则对应认知中不同语义的表达。通常情况下，信息指的是通过特定意图将认知DIKWP对象与认知主体已经认知的数据、信息、知识、智慧或意图联系起来，产生新的语义关联。在处理信息时，我们会根据输入的数据、信息、知识、智慧或意图，找出它们被认知的DIKWP对象的不同之处，对应不同的语义，并进行信息分类。例如，在停车场中，尽管所有的汽车都可以归入“汽车”这一概念，但每辆车的停车位置、停车时间、磨损程度、所有者、功能、缴费记录和经历都代表着信息中不同的语义。信息对应的不同语义经常存在于认知主体的认知中，常常未被显式表达出来，例如抑郁症患者可能用自己情绪“低落”来表达自己当前的情绪相对自己以往的情绪的下降，但这个“低落”对应的信息因为其对比状态不被听众了解而不能被听众客观感受到，从而成为该患者自己主观的认知信息。

知识（Knowledge）对应于认知中的完整语义。知识是通过观察和学习获得的对世界的理解和解释。在处理知识时，我们通过观察和学习抽象出至少一个完整语义对应的概念或模式。例如，通过观察我们得知所有的天鹅都是白色，这是我们通过收集大量信息后对“天鹅都是白色”这一概念的完整认知。

智慧（Wisdom）对应伦理、社会道德、人性等方面的信息，是一种来自文化、人类社会群体的相对于当前时代固定的极端价值观或者个体的认知价值观。在处理智慧时，我们会整合这些数据、信息、知识、智慧，并运用它们来指导决策。例如，在面临决策问题时，我们会综合考虑伦理、道德、可行性等各个方面的因素，而不仅仅是技术或效率。

意图（Purpose）可以看作是一个二元组（输入，输出），其中输入和输出都是数据、信息、知识、智慧或意图的内容。意图代表了我们对某一现象或问题的理解（输入），以及我们希望通过处理和解决该现象或问题来实现的目标（输出）。在处理意图时，人工智能系统会根据其预设的目标（输出），处理输入的内容，通过学习和适应，使输出逐渐接近预设的目标。

转载本文请联系原作者获取授权，同时请注明本文来自段玉聪科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3429562-1410864.html

上一篇：模拟DIKWP处理过程在司法判决文书中的应用
下一篇：数学化扩展在司法判决文书处理中的DIKWP信息层（I）应用

收藏 IP: 112.67.85.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

段玉聪

扫一扫，分享此博文

YucongDuan的个人博客分享 http://blog.sciencenet.cn/u/YucongDuan

博文

数学化扩展在司法判决文书处理中的DIKWP数据层（D）应用

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

段玉聪

全部作者的其他最新博文

全部精选博文导读

YucongDuan的个人博客分享 http://blog.sciencenet.cn/u/YucongDuan

博文

数学化扩展在司法判决文书处理中的DIKWP数据层（D）应用

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

段玉聪

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)