zlzhu007的个人博客分享 http://blog.sciencenet.cn/u/zlzhu007

博文

一点点灵感

已有 2560 次阅读 2014-8-22 11:38 |系统分类:科研笔记

博士已到第二年,科研方向还未确定单凭自己瞎琢磨。

几个月前通过阅读文献和自己的思考脑中有了一个大概的思路轮廓:图像和语言信息的融合,因为图像和语音都是信息的媒介,是否其中包含了某些共性的信息,如果我们综合使用音视频信息是否可以互相融合进而提高判断的准确性?

比如人在倒车时人是同时看到倒车影像和听到雷达告警,人是根据对两者综合判断的结果来获得对后方情况的认识,人的这种信息处理过程就是图像和语音这两种相距甚远但又存在某种联系的信息相融合的情况。

后来我查资料发现这个想法跟“多模态集成”概念比较接近,说人在听到或看到表达同一信息的图像、语音或文字时大脑中同一个神经元都会放电,说明多模态信息在这个神经元得到集成和统一表达。

今天看资料发现国家基金委从08年开始就连续发布视听觉信息的认知计算重大研究计划(与人类视听觉感知密切相关的图像、语音和文本(语言)信息在社会、经济和国家安全等领域中扮演着重要角色,并在今后一段时间内仍将迅猛增长。这类信息可被人类直接感知和理解,也可用计算机进行处理,但计算机的处理能力远逊于人类且处理效率远不能满足当今社会的发展需求。如何借鉴人类的认知机理和相关数学的最新研究成果,建立新的计算模型和方法,从而大幅度提高计算机对这类信息的理解能力与处理效率,不仅可有力推动信息科学的快速发展,也将为国民经济和社会发展做出重大贡献。),也是表达了相似的想法,其中提到:让无人驾驶汽车能听、能看,能思考、能判断、能有所行动,这是一个信息科学、生命科学和数理科学相互交叉的领域。这需要研究人类的大脑如何在运动的状态中抓取图像信息,并进行分析,还需要研究构建新的计算机模型与计算方法,然后将这些模型转化为计算机语言。这些研究最终将提高计算机对非结构化视听觉感知信息的理解能力和海量异构信息的处理效率。并提到“基于视听觉信息融合的模式识别技术”,瞬间眼前一亮,难道这就是我在寻找的东西?纪念一下。

博士路漫漫,像我这种上有老下有小还要教书育人的中年大叔,不容易啊!!!!!




https://blog.sciencenet.cn/blog-795671-821424.html

上一篇:地震时微信为何比电话可靠
下一篇:世界的规律
收藏 IP: 61.175.216.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 12:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部