大数据
2018-06-27 11:07:54 143 举报
AI智能生成
00
作者其他创作
大纲/内容
数据获取
数据的类别
分类一
业务数据
直接反映业务内容的数据
行为数据
业务人员活动过程中的数据,并不直接反映业务内容,主要由机器采集
分类二
元数据
关于数据的数据,描述和定义数据的结构,体现数据的标准与核心业务范围
元数据一般是由系统设计人员设置,相对稳定,但随着业务进化和对业务理解的加深,有变化的弹性空间,适度保持开放性
内容数据
具体的数据仓库中的内容
分类三
原始数据
第一手数据
信息全面,但难以直接运用
衍生数据
基于第一手数据进行计算得到的一系列数据
信息有舍取,直接面对某个领域的应用
分类三
规范数据
符合一定格式,有明显的规律的数据
不规范数据
规律不明显或较复杂的数据
把不规范数据通过算法演变成可执行、可计算的规范数据
数据的获取方式
人工录入
从无到有,一般是自有业务数据采用录入的方式
填表式录入
对话式录入CaaS
更好的交互
人工环节是数据发生错误的最大隐患,应当通过制度和技术,最大程度限制人工录入(懒惰人假设)
“做”报表,尽量减少人工环节
联网导入
他山之石,一般是其他单位或行业的数据,通过联网获取
权限与信任
价值交换
部分自建信息系统的数据,进行大数据汇集,消除数据孤岛
数据导入与数据交换
旧数据的转化应用,变废为宝,而不是丢掉再搞一套
机器采集
机器采集一般针对行为数据
系统内嵌功能
如文书起草的间隔时间、录入数据的规律
基于物联网
如摄像头、温度、湿度对办案人员的影响
看守所、监狱、监外执行、社区、企业、重点机关、派出所……
如 监外执行人员的手环数据
建议
全盘摸清,不搞重复建设,能采集的数据决不导入,能导入的数据决不录入
架设桥梁,而不是推倒重来,不挑战现有工作习惯,除非万不得已
大数据的本意是从大量不规范的数据中挖掘出意义,但是现在变成了,需要什么数据,就建一套什么系统,让大家去填表
即便是录入数据,良好的互动可以保证工作效率和数据的真实性
如何获得其他单位或行业的现有数据,需要一些价值交换,要不然别人不给
数据维护
包括存储、转换、更新、扩容
比如卷宗扫描进来存为图片,是不够的,还需要OCR成文字,还需要对OCR的文字进行除错
比如那些录像视频,如果能人脸识别,势必可以减少存储成本,而且变成“可搜索”、可编程的
数据存储的原则
安全
可信
区块链
司法体制改革,检察官办案责任制
易交互
流动的数据,而不是死的、封闭的,这是活的大数据
有一些数据,特别是基础数据不是靠传统的行政命令可以很好的得到,需要一些巧妙的智慧
比如支撑法律人工智能的法条决策树化的底层设定
属于“元数据”
它或许需要一些激励,调动大家的积极性,以wiki的方式建立起它来
众包方式极大降低维护和更新成本
可扩展
云计算
成本可控
数据积累
作为个人经验、集体经验的仓库
传承下去,不因个人的缺位而影响系统
集体智慧:如蜂巢、蚂蚁
检察云智库
数据应该存储在哪里合适?
数据脱密
数据处理
有污推定:数据都会存在问题,会存在错误,所以需要数据处理
数据清洗
数据纠错
错别字、文书不规范
明显的异常值
标记、降权
数据格式化
明确其应用领域
有限状态,才能发挥最大作用,就像不同密度的碳物质用途完全不同
数据自进化
分类、聚类、合并同类项
改变粒度
数据要有一定程度的冗余,以确保最低限度的可靠性
效率与成本的取舍
所以说,不仅仅是技术人员的事情,业务人员要深度参与,思考每个细节
建立多维度关联
数据冗余排错
同类数据的互相排错识别
用行为数据检验出业务数据的错误
数据处理过程,其实就是发现工作中问题的过程
检察权规范运行
数据系统的目的,就是要使程序、流程、内容、结果、行为全掌握、全可控
权责、规范、动态、日常办公办案、队伍建设、人员管理、机关管理,执法公信力
假数据问题
也许是善意的,也许是真实的谎言
原子世界的事物转化为比特数据的过程,必然会丧失掉一些信息;从事实到法律,也是一个格式化往往削足适履的过程,也会削去一些信息,如此,有些东西就永远藏在了背后,不能被机器知晓、认知。不完全信息的存在,会提升“黑天鹅”的隐患概率,为此,我们需要让系统在处理的过程中保持适度的开放性,如元数据的进化,也需要让人保留最终的解释权和干预权,比如,录入的数据不符合机器预设逻辑,但事实就是如此,于是可以给他们开一个“其他”情况,像立法也是如此,总要留一个口子,应对特殊情况。当然,权限要严格,不能随意操作。
对数据的质量评估
改进元数据(人工或自动的)
数据检索
界面搜索:面向最终用户
智能/傻瓜搜索
高级/精准搜索
易用性与精确性 其实难以兼得,从信息论的角度,所谓智能,其实损耗的是输入信息的精准度
最终用户包括:
检察干警
实际上,干警使用系统的行为数据,也是一种数据,反馈回来记录分析,也是有价值的
普通群众
实际上是检务公开
群众了解检察机关信息的行为数据,反馈回来也是有价值的
关注点
数据接口:面向开发人员
接口规范
不提供接口,或者不提供规范接口,就等着大家各种凿洞吧,安全隐患和乱象
权限设置
提供接口API和开发工具SDK的重要性
兼容性
一个可大可小的问题
居然还有系统用GBK编码而不是UTF-8
数据可视化
服务管理决策
视觉的刺激比文字大很多
好的可视化,出现不突兀,如空气一般习以为常,润物无声,恰到好处
多维度展现
数据“画像”
对人、对物、对事,全方位、多角度、动态的(可视化不限于图片,也可以是文字,也可以是视频)
如世界宗教演变动画
如足球场跑位模拟
数据碰撞
真正的碰撞是不预设模型、不预设立场的
人不应该是数据碰撞的导演,数据碰撞的结论应当让人感到惊诧才是成功的
差异越大的领域,越强的随机性,碰撞结论才越可靠
就像义乌的旗帜订单可以预测美国大选的结果
数据预测
理论
建立模型
因果关系
黑盒系统
相关关系
神经网络\深度学习
职务犯罪预警(预防)、法律监督线索 根据阈值和权重设定 得到数据结论,机器自动提醒(实时的数据、全面的数据)。
他们在这方面,比人脑可靠,因为人工智能的本质是:有多少人工,就有多少智能。如同阿尔法狗,实际上只是熟背了棋谱
实践
预测三要素
数学可以表达的内容 和 数字可以衡量的评价目标值,不能是抽象和模糊的
抽象和模糊的可以通过人的尺度来衡量,因为人心中有杆秤
足够量的数据积累,否则不足以尽量涵盖规律
这也是大数据要求“大”的本质
用途相对有限
状态有限。如果你想做的是一个靠谱可用的应用,而不是吹牛逼
放之四海而皆准的算法和模型就像永动机一样不科学
所以一些地方的系统里面有“专题”,这个思路是对的,也是意识到此问题的一种自觉
量刑预测
人的偏见会带进系统
一定的算法冗余,可避免大规模的偏见
就是用不同的算法去实现同样的计算,相互纠错
这是一种算法民主
分配合适的办案人
根据履历、擅长、技能、办过的案件和评价
但是,老让一个人办同样类型的案件,也并不见得合适,就像淹死的都是会游泳的,经验也可能带来马虎
所以,算法还需要考虑更多的要素,比如人的心理阈值,等等
案件重点风险提醒(高亮)
根据以往的案件数据
数据量、粒度、关联,这些一定要足够,否则数据就会有偏差,所谓智能就会被贻笑大方
数据算法
正确对待开源
开源不代表廉价,不代表不可靠,不代表不安全
恰恰代表最先进可靠的技术因子
但也只是个因子,而不是给钱就能办到的商业工具
大数据的那些开源工具集
并不需要一开始就用牛刀,但要给使用牛刀做好准备
瞄准具体需求,自下而上,找准重点
数据应用
应用立项的逻辑
不能一口气试图吃个胖子,做某个小而美的助手工具,比大而全的系统可能更受欢迎
传统的技术领域也能运用大数据思维做一些尝试,比如运用大数据辅助笔迹鉴定
数据应用得基于全数据
比如检务保障系统,就成本谈成本,没有与业务系统联系起来,根本无从依据
任何数据应用要形成闭环,如果不能形成闭环,就会像商业企业的经营模式无法变现一样,无法持久
在即将成立国家监察委的前夜,我们谈这个,非常有意义,将来检察院的定位就是法律监督,考什么监督,靠数据监督,监督的力量何来,就是要从群众从人民中来,让数据应用形成闭环,检察机关成为人民的个案诉求代言人。
检察服务中心
一站式服务 闭环
让检察机关成为两个HUB
司法数据的hub
检务公开
引入外部监督
人民监督员
充分保障知情权
引导人民群众有序参与司法
人大监督
党委监督
其他机关、组织、社团的监督
民众诉求的hub
法律监督
公益诉讼
立案监督
侦查监督
刑事公诉
诉讼监督
刑事审判监督
民事诉讼监督
行政诉讼监督
执行监督
要做对干警、对工作有用的东西、而不是为了时髦新潮、为了政绩
提高效率
一些重复劳动、缺乏创新的事情
节约成本
一些人虽然能做,但很耗费时间、耗费精力的事情
国家和单位的运转成本
调配资源、统筹安排
如外出办案派车
如工作规律淡旺季
固定资产、财务预算、后勤
增强能力
一些人力做不到的事情,所需计算力超越人脑的并行运算能力的事情
比如多个案件线索的比对,从中发现端倪;多年数据积累,预测当前案件风险
提升精确性,比如量刑建议,风险百分比
检察技术与信息化的供给侧改革
领导重视、加强建设、加大培训力度,这些是需求侧的管理
瞄准真问题、提升易用性,这些供给侧的改革,才是我们检察机关信息化和大数据应用的“奇兵”
当然,不是说需求不重要
应用设计的逻辑
能够自动完成的,不要人工干预。疑则不用,用则不疑,设计者一定要用心,才能有底气。
少输入、多输出
很多系统上线,干警们背地里却很反感,根本看不到对自己有什么帮助,只看到找麻烦,这样,稍有问题努力就会付之东流。好点儿的情形就是两条腿走路,那还是给面子了(不要试图挑战现有的工作模式,比如纸质版检查)。
多一些有用的输出、符合需求场景的输出
最好能把那些需要的报表、年底检查要用的材料,都给一键生成了,让他们签批少走路,不用在领导门前排队了,他们就会乐意使用了
召之即来
移动办公办案
法律版siri、小娜
CaaS
智慧检务云
如影随形,如空气
适可而止,做擅长的事情,决不能勉强做能力之外的事情
你的智慧在哪里?智慧检务,不能是一个小傻瓜
谨慎,不能坏了智慧检务的名声
明确应用的优势
就像创业者给投资人讲故事一样,检察干警就是你的用户,你得说服他们,用了这套系统,会带来怎样的益处
原本能做的事情你做了,要做得比他们好
原本不能做的事情你也做了,他们就会惊讶了
就会佩服,用你的工具了
比如,一键起诉到法院,自动生成审查报告和起诉书
模块化
降低耦合度,避免因为一个环节的小失误,影响整个流程进展,或者得不出结论
新的模式
不是非此即彼的结论,而是概率、比例
本质上,机器只是参考,哪怕它表现得比人聪明百倍,人依然是主体
要提醒机器的风险,明述可能的谬误,由人自行判断
在信任机器与怀疑机器之间,取一个适度的值。
这个值,要基于公开算法和逻辑、数据源来综合判断
用好“人件”
一些机器处理很麻烦的,人做起来反而简单,不要迷信机器,不要试图让机器超越能力范围,那样的效用曲线会过定点
当原子世界与比特数据一一对应,只有人最知道,一些主观标准要客观化,必须通过“人件”
人与机器的共同进化
就像今天手机已经成为我们的一个肢体和外脑了
0 条评论
下一页