行业资讯

Industry information

大数据,想说爱你不容易

作者:马恩祥

   不论是在过去还是现在,人的生活没法离开数据。作为科学工作者,尤其是系统学过统计学后,对于数据有了更为理性的认知。如今进入了大数据时代,大到国家政策决策 ,小到企业或医院管理,都离不开数据分析。最近就遇到一个地方部门抛弃传统的调查,直接使用网络系统大数据定性事关企业是否合法经营的事,让人哭笑不得,生生尝到了大数据给人带来的苦沚。

不论是大数据还是小数据,反映的都是一种现象,本质的东西是透过数据现象来间接表达的。既然是现象就有真象和假象。数据既是真实的和客观的,但数据也可能是不真实和不客观的。做为大数据的使用,一定是通过数据化管理的科学方法。运用分析工具对客观、真实的数据进行科学分析,并将分析结果运用到生产、营运、销售、管理决策等各个环节中去,譬如业务指导管理、营运分析管理、经营策略管理、战略规划管理四个由低到高的层次。

大数据与传统数据而言,只是样本量的不同。大数据的样本量有时就是总体的量,除此外大数据与适量样本数据没有更多的本质不同。即使大数据能全部反映总体,但也不一定能说明总体。因为大数据都是基于分类统计的,分类是否符合逻辑、是否科学、是否精准,都决定了分类的正确性与准确性。事物间的性质或者彼此比较,只有同质的就可比,不同质的就无法比。如果不小心将一个正常的数据归类到不正常的数据之中,正常也就变得不正常了。或者一个不正常的数据,混淆到正常的数据中,那岂不是也变成正常数据了。

大数据是否能反映真实与客观,决定于数据的分类和清洗方法,还决定于数据链之间的相关关系与因果关联,而不能简单的依据一个或一组大数据来说明本质性的问题。用大数据在管理决策、执法监督中尤其应该慎重。大数据分析要与传统的样本数据分析相结合,只有相互印证的数据才是可靠的,相互不能印证的数据就不能被使用。任何用大数据分析去替代传统数据分析必须要非常的谨慎与小心,特别是事关项目决策、执法监督裁决,更是要格外的慎重。如果视大数据如救命稻草,那如同草菅人命。

纵观大数据时代的两个极端,之前只认识到大家对于大数据的不重视,譬如笔者所接触的医院管理,数据信息利用严重不足,数据资源浪费可以说是医院资源浪费最大的环节。但也遇到不少的医院管理者,盲目依据所谓的计算机大数据,常常也被大数据显示出来的假象所迷惑,让管理决策偏离科学轨道。这两种极端,前者较为普遍,后者也有苗头,未来也许会越来越严重。

人类应该迷信大数据吗?说几个社会公布的大数据看你信也不信?

几年前,某医疗权威部门说中国有1亿人患有精神心理疾病,说有1亿多人患有糖尿病,凭的是大数据。作为自己是个医学与心理专业工作者,我是既相信也不信。发布这些大数据的背后动机到底是基于科普还是基于商业,有待人们去鉴别。

再看看癌症的病人越来越多,是真的癌症病发病率提高了吗?笔者以为是癌症的检查手段更加丰富了,检测技术更能早期发现了。但笔者也相信,癌症大数据带来的也不全是福音,而是祸害。祸害之一是误诊,笔者就有二个医界的医生朋友被所谓的癌症误诊了,遭受了痛苦的化疗和放疗。笔者也相信有一些早期发现的癌症患者,如果没有被检测出来,最后凭着人类本身的自我免疫机制,而自愈的。

还有譬如我们国家都是第二大经济体了,不就是大数据证明出来的吗?但统计造假,数据虚报,统计口径不同,重复统计,我们能简单相信这些数据。当下的中美贸易战,我们不正是吃了国际大数据不真实、不客观的亏?

现在国家提倡“放、管、服”,这正是基于大数据时代的新要求。

放,就是要放开。也就是说大数据并不就是全是真实的,单纯凭数据做决策,就会把人们的行为束缚起来,计划经济模式最典型的就是依据数据来做社会管理。然而社会不只是通过大数据来反映,社会是鲜活的,是富于个性化的,如果不放,百姓如何能服。

管,说明大数据时代数据多了,信息量大了,一定要有科学和精细的数据管理。通过事前、事中、事后的数据分析与管理,来保障社会、企业或医院的正常秩序和健康发展。大数据分析中有几个热词,如数据的采集、数据的清洗、数据的分析和数据的适用。

首先,数据采集方式一定是系统和综合的,不能是单一的渠道。在互联网时代,人们生活在其中,如何不让人被人工智能所限制是当今需要解决的大问题。如果人工智能完全控制人的生活与工作,那将是多么的可怕。人工智能管理社会、管理企业、管理医院,不就是靠流程和数据吗?医院管理者都知道,流程要不断再造,因为在追求科学的道路上,现实与科学永远有距离,我们永远离真相差那么几步。

其次,数据一定要清洗,让我们所需要的数据暴露出来,不能掺杂那些相似而非同质的数据。特别是企业或医院管理的绩效考核、执法部门的执法监督,数据的清洗非常重要。而对数据清洗最重要的手段,就是捡回传统的数据处理方法或者其他现代化方法。

第三,数据的分析要基于管理的动机,同时也要站在管理对象的利益上去双重考量,而不是有先入为主的概念,管理和执法一定是基于调查研究的基础上。可以先有假设,但一定不能有先结论预判,那样的话,就会出现害人害己的数据分析和管理。

第四,数据适用有严格的范围。要把每一个数据适用于较窄的内涵,不能外延扩大化。

服,在我的理解上,是管理者的服务,也要让被管理者信服。大数据结论出来,如果管理者自己都不知道其背后所真正代表的意义,也不能让被管理者认识其中的意义,那这个大数据宁可抛弃而不得使用。昨天,国内一知名保险企业的二位数据处理专家专程来会见笔者,咨询医保支付管理软件的设计。他们其中一个苦恼就是其评估管理系统不为医院的医务人员所接受。笔者浏览到软件的大概后发现,其根本的设计缺陷在于只满足于管理方的动机要求,而不兼顾被管理的实际,是管理伦理上存在根本的缺陷。

所以在大数据时代,大数据是用来服务的,而不是用来下结论的,大数据让人们对数据分析带来了不少好处,也会带来弊端。譬如从循证医学的实践中体会到,数据并非越多或越大越好,而是恰如其分才好。数据多了,会误导判断,数据也能残酷无情地“杀人”,管理者当然要重视大数据的利用,但也不能迷信大数据。

但愿大数据服务好管理,对大数据要持敬畏,既要相信,也要质疑,绝对相信大数据,那将是人类的大灾难降临。