DataFocus和数据对话连载第一章

和数据对话

随着大数据的爆发性增长,企业和组织积累了大量的数据。这些记录在数据库中、存储在服务器上的二进制编码与人类是没有任何交流可言的。但是,我们迫切的需要对这些数据进行分析,以为我们的生产、市场、营销提供可靠的决策参考。现实世界中,我们与数据发生交流的模式大部分都是通过代码实现的。

打开网易新闻 查看精彩图片

图1-1 通过代码与数据交流

随着企业对数据的依赖度越来越高,这种低效的沟通方式严重阻碍了企业数据生产力的释放。于是更多的数据分析、可视化工具被创造出来,比如一些基于拖拽方式的数据分析工具,把与数据交流的对象从数据库工程师变成了数据分析师,对数据分析工作的效率带来极大的提高。然而这种依赖于某些具备特定技能人群的方式,仍然是以专业人员为中心的作业模式,为企业推行数字化管理带来巨大的瓶颈。

打开网易新闻 查看精彩图片

图1-2 以专业人员为中心的业务模式

为什么不能让业务人员直接与数据对话呢?DataFocus便是这样一种大胆想法的产物,它创新的使用了搜索的方式,使得数据分析和可视化操作变得更加便捷。DataFocus运用自然语言处理(NLP)技术,将用户输入的特定问题经过语义解析引擎的处理,翻译成数据库查询语言,最后将计算结果通过智能可视化引擎进行可视化编码后呈现出来。整个交互过程就类似于通过搜索引擎与数据进行对话,用户用中文或英文提出问题,DataFocus用可视化图表进行回答。

打开网易新闻 查看精彩图片

图1-3 直接与数据进行交流

用DataFocus的搜索式数据分析方式,看起来更像一种和数据对话的交互,每一次通过搜索框的提问,我们都能得到一个数据图表,DataFocus中称之为一个数据问答。这种接近人类自然沟通方式的交互模式,在使用上有了更好的体验,在数据分析效率上也有了极大的提高,必将引领一个数据分析领域的全新变革。

数据可视化典型流程

典型的数据可视化流程一般包含四个阶段。首先是搞清楚可视化的目标,信息传达的受众是CEO还是合作伙伴?清晰的问题定义,有助于后续准确的界定数据收集的范围;其次就是数据的收集和清洗整理,这是可视化工作中最基础也是最重要的工作。错误的数据得不到正确的结论,因此多方面收集数据,进行比对和核实,以确保数据的可信度;有时候数据不够干净,还必须经过细致的整理,为后续可视化创造良好的工作基础;第三步就是对数据进行探索和挖掘,了解其特征,并应用统计学方法进行建模和验证,以便准备充足的论据;最后一步,就是数据可视化的设计,选择合适的图形进行可视化创建和呈现。整个工作的评价标准就是,你的数据可视化结果能够说服自己、说服他人,向受众传达正确的信息,或者帮他们得出正确的结论。

1.2 沟通:信息传播与交流

沟通无处不在,无论是我们与身边的朋友聊天、和讨厌的人吵架,还是通过键盘鼠标浏览新闻、通过智能手机的触屏围观抖音小视频,我们都在传播或接受信息。事实上,天才科学家香农和他的合作者韦弗很早就发现了这个秘密,他们为信息传播的方式建立了一个简单的数学模型。

打开网易新闻 查看精彩图片

图1-5 香农-韦弗 信息沟通模型

从模型中我们可以看出信息传播(沟通)包含了信源、编码、信道、解码和信宿5个步骤,以及过程中存在影响的环节,比如对信道的干扰,通过信宿反馈以获得更新的信源。用通俗的语言来讲,信源就是讲话者想表达的意思,经过语言编码通过嘴巴说出去,这些话的声音(信道)被接收者的耳朵听到(解码),转变成了接收者的理解。

根据我们的经验可以知道,如果对话者具有相同的知识背景,沟通一般比较顺畅,否则就会出现鸡同鸭讲的尴尬场景。比如,假设你和朋友正在聊关于2019年NBA总决赛第5场发生的事情。你对朋友说“嘿,你知道吗,杜兰特又受伤了,他这个伤搞不好整个赛季都要报销,离开勇士队也可能泡汤了。”如果你和你的朋友都是NBA联赛勇士队的球迷,这次沟通会非常成功,你的朋友一定会和你很好的讨论一番;假如你的朋友对篮球一无所知,他一定对你的讲话一脸懵逼,毫无反应。

人与AI之间的交流也是如此。本书要讲到的,用户与DataFocus系统的沟通同样适用于信息沟通模型。用户将头脑中想查询的问题(信源)输入到DataFocus搜索框中(问题编码),DataFocus系统将对搜索框的中的信息翻译成数据库可执行的程序(解码),并将查询的结果进行可视化编码后返回给用户。由此可以看出,这是个双向的沟通过程,用户与DataFocus即充当信源又充当信宿。

打开网易新闻 查看精彩图片

图1-6 用户与DataFocus沟通模型

1.3 沟通的局限

我们了解沟通和信息传播的基本原理,不是要深入的去研究信息论。我们希望能从这种基本的原则中找到沟通的规律和局限。从上一节的介绍我们知道只有确保信息沟通5个环节精准对接,才能保障沟通的准确、高效。做为信源和信宿的载体,DataFocus虽然具备人工智能,但它毕竟是通过硬编码而来,其信息处理模式严格遵循计算机程式设计,它的问题解码能力和可视化编码能力是遵从固定规律的。而人类作为智慧生物,其行为和反应具有一定的随机性,个体之间也存在较大差异。因此,要确保沟通的准确,第一步,是要确保用户的编码(输入搜索语句)过程和DataFocus系统解码(解析用户输入)过程必须建立在同样的知识背景之上,这里共同的知识背景是指DataFocus类自然语的关键词搜索表达方式。

打开网易新闻 查看精彩图片

图1-7 示例沟通数据

比如,当我们要针对以上数据对DataFocus提问,用户想了解“身高最高的学生叫什么名字?”运用DataFocus的关键词语言体系,正确提问方式是:“身高排名第1的姓名”,其中“身高”、“姓名”这些信息都是从数据中来的,“排名第1”是DataFocus的排序关键词应用。这些词语和表达方式就是DataFocus所具备的知识体系,用户如果自由发挥,问出这种问题来:“No.1身高的那个家伙叫什么名字?”,就会得不到答案,因为用户的表达方式包含了太过于丰富的信息,完全超出了DataFocus的理解能力。

打开网易新闻 查看精彩图片

图1-8 正确的提问方式

人与人之间的沟通有时候也会约到障碍。比如你和儿子聊天:“乐乐今天去看演出了”,也许你儿子会问“哪个乐乐啊?”,这时候,你需要补充一些信息才能让对话继续“就是那个很会画画的乐乐啊”。你们共同的知识背景中,有两个名字叫“乐乐”的小朋友,第一个问题就因此产生了歧义,而当你补充完信息之后,结合知识背景和上下文信息,信息进行了重新组合“很会画画的乐乐今天去看演出了”,这样沟通就会顺利的进行下去了。

同样的,用户与DataFocus的对话也会经常由于数据的原因产生歧义,一般情况下DataFocus系统会自动提示歧义,此时,用户需要进一步提供信息,才能完成沟通,例如,用户向DataFocus提问:“每月产品销售金额”,由于多个数据源都包含日期数据,因此需要进一步的选择准确的日期以消除歧义。

打开网易新闻 查看精彩图片

图1-9 DataFocus为准确沟通消除歧义

1.4 高效沟通6原则

以上章节我们讨论了如何与DataFocus保持高效精准的沟通。我们运用DataFocus探索、分析和可视化数据,这些最终的分析结果和可视化成果,都需要有效的传达给它们的受众(数据分析、可视化结果的接收者),同样地,和与数据沟通一样,要与您的受众高效沟通,也需要一些技巧。下面给出了6个原则:

原则1:定义正确的问题

任何沟通都不是无意义的闲聊,因此准确的了解你的沟通目标是首要任务。后续所做的一系列工作都是由此展开的,宁肯多花点儿时间把目标搞清楚,再开始选择信息、收集数据。你可以通过提前回答几个关键问题来清楚地表达这个目标:

你的目标受众是谁?

你想让他们知道什么?

你期待什么样的沟通效果?

打开网易新闻 查看精彩图片

图1-10 目标三要素

对于不同的数据分析工作,这些问题的答案可能非常不同。一个致力于一个突发事件的数据记者和一个在公司工作的商业情报分析员的目标不一样。他们可能会以截然不同的方式向他们的目标受众阐释数据,尽管方式大相径庭,然而对他们来说确是完全合适的。

最重要的部分是阐明你的目标,确保您能写出刚刚列出的三个问题的答案。在这三个问题得到圆满回答之前,不要急于进行下一步工作,因为那有可能导致错误的结果。

原则2:使用正确的数据

要得到正确的答案,必须向合适的人提问。同样的道理,要想得到准确的数据见解,必须与正确的数据沟通。在这个数据大爆炸时代,获取数据的渠道正变得越来越多,这给数据准备带来了另一个挑战,有时候我们必须在纷繁复杂的数据中抽取、清洗、提炼,通过多个数据集之间的互相印证,获得正确的分析基础。

保证优良的数据谱系。清晰可溯源的数据,是数据分析工作的可靠基础,这可以保证数据分析结果的透明性。企业的数据一般来源于其业务系统的数据记录,这些数据相对可靠,很少有人为修改;还有一些数据来源于内部填报或收集的数据,这些数据有时候并不可靠;还有一些分析基于互联网上用爬虫爬取的数据,这些数据质量一般不高,往往需要大量的清晰和提炼工作。如果你能够为你的分析结果精确的标示数据来源,并给出可信度,当你向CEO或其他观众介绍你基于数据分析的结果时,他们如果提问:”得出这些结论的数据是那里来的,可信吗?”你就可以很清楚的展示这些数据的可信度,从而对你的结论给出有力的佐证。

运用统计学原则,拒绝零假设。更多时候,数据分析工作都是在数据并不充分的基础上进行的。比如进行产品质量分析时,由于成本原因,不可能做到将所有产品的检测数据收集起来分析;进行用户调查时,往往只能得到部分用户的反馈信息。这种数据分析都是基于样本数据进行的,这个时候就需要运用统计学知识,比如T检验或者F检验,弄清楚样本数据是否能正确的代表整体。

聚焦你的问题。很多时候,数据的来源渠道多种多样,有些数据也会存在一定的关联关系。常用的原则是,少即是多,一般情况下,针对你的目标,运用直接相关的数据源进行分析,比使用更多间接相关的数据进行分析有效得多。

原则3:选择合适的可视化效果

一旦准备好用于佐证你的观点的数据,下一步就是决定如何对它进行可视化编码。编码数据意味着将数据值本身转换为抽象的图形表示,如大小、颜色或形状。

数据可视化是一种将数据构造成可视化结构的编码方式。可视化编码分成平面编码、视网膜编码等等。将图形分割成X、Y的平面都是最简单的平面编码;有时候为了用3个或更多变量表示数据,这时候会引入尺寸、纹理、形状、方向,如颜色渐变和颜色色调等,这些就是视网膜编码,需要视神经进行解码;研究表明,人们最容易理解的视觉编码是简单的平面编码,如位置(Y,X轴),其次是长度、角度和坡度、面积、体积,最后是颜色和密度等。因此,一些可视化图形引入了动态效果,如延时、比例变化等等,这些则需要经过大脑思考和加工才能理解其中的含义,不建议频繁使用。

可视化图形多种多样,除了常见的折线图、柱状图、饼图之外,还有多达数十种各类不同的图形。不同的可视化图形适用于不同的数据结果,正确的可视化的应该选取的合适的图形类型,通常情况下,DataFocus的自动可视化引擎会默认选择相应的图表进行数据展示,但有时候也不够精确,用户可以根据自己的设计思路进行图形切换,下表是提供了常用的选择参考:

打开网易新闻 查看精彩图片

图1-11 可视化图表的选择

此外,要避免使用扭曲的图形。由于可视化传递的介质绝大多数都是平面的,通过纸张、网页、ppt或其他的文档形式,三维图形展示在二维平面上,将导致图形扭曲,观察角度的不同甚至会导致获得错误的信息,因此为了准确的表达信息,应该避免使用3D图形。另外还有一种典型的可视化错误,就是柱状图(或类似的其他图形)的X轴不从零开始,这有时候会很显著的放大数据的微小差异。

原则4:美学设计

爱美之心人皆有,如果你的可视化作品兼具美感,那一定能更好的打动人。但是图表的美化存在许多误区,这里需要遵循的原则就是美学设计必须以不对正确的数据信息沟通产生干扰为前提。首要的一点是,尽量保持简单。简单也是美学设计的一种,数据可视化作品要直抒胸臆,不能附带过多无用信息,从而影响信息传递。

一个有效的保持简洁的方式是尽量提高数据像素比(Data/ink Ratio),这是可视化专家塔夫塔(Edward Tufte)提出来的概念。他用来量化图表的信息传达效率,比率越高,说明传递单位数据信息消耗的像素越少,换句话说,可视化图表更简洁;相反,比率越低,则意味着可视化图表中的冗余信息越多。其公式定义为:

Data-Ink Ratio= 传达数据信息的可视化像素 /图表总像素

从公式可以看出,这只是一个定性的指标,并没有标准的度量值来评价每个可视化作品的Data-Ink Ratio,基于这一原则,通常有一些经验如:不要在一个仪表板中放置太多图表;通常简单的图形,更容易让人聚焦;复杂的图形,具备太多元素,容易分散人的注意力。保持简约的设计,目标是清除所有对传递消息没有帮助的混乱。诸如:分类数据的颜色过多;频繁使用特殊效果,引入 3D图形和阴影;太多的标签;各种花哨的图片和网格线等等,都会显著降低数据看板的信息传递效率,应该尽量避免。

原则5:选择有效的媒介和渠道

现实世界中有许多优秀的数据可视化案例,都向它们的目标受众准确、高效的传达了信息。从1854年英国约翰·斯诺(John Snow)医生的霍乱地图,到1861年法国工程师Charles Joseph Minard绘制的拿破仑远征图,都带有无可辩驳的说服力。以及汉斯·罗斯林教授通过Gapminder网站展示的令人震撼的全球经济、医疗等数据,这些可视化作品广为传播,汉斯甚至在2006年2月通过TED上的著名演讲进行了全球范围的宣传,这为他的慈善基金吸引了很多关注,算得上通过数据可视化沟通的成功典范。

打开网易新闻 查看精彩图片

图1-12 低温是造成拿破仑远征俄罗斯失利的主要元凶

无论读者是希望通过一项可视化项目进行宣传,还是打算运用翔实的数据向领导层展示您的思考,促成决策;还是仅仅希望通过可视化的分析结果说服你的同事关注某项工作;你都应该通过合适的媒介或渠道开展这项交流,因此你需要注意可视化工作的表现形式:

独立图形还是旁白?

静态、交互式、动画或组合图形?

如果叙述过:录音、实况还是两者兼有?

如果是现场:远程、亲自或两者兼而有之?

在所有情况下:广播、定向还是两者兼而有之?

如果你是在企业从事数据分析和可视化工作,那么创建令人印象深刻的数据看板,或者通过数据可视化图表填充你的汇报演示ppt,是常用的沟通渠道。运用DataFous系统可以很方便的创建这些工作。

如果是从事媒体宣传、咨询研究等面向大众群体的数据可视化工作,一般通过公众号等自媒体平台作为信息传播渠道,这类工作可以运用DataFocus的自定义数据看板功能制作数据分析报告,定期更新数据可获得最新的数据报告;或者将可视化图表嵌入到网页中作为可更新的数据向公众传达。

原则6:检查结果

每次项目结束,进行一次认真的检查和复盘,将发现的问题进行及时的反馈是一个好习惯,这些反馈循环和检查点可以帮助你衡量你是否达到了预期的结果。这在不幸未实现目标的情况下进行及时的项目迭代或调整,非常有效。检查结果时常问以下几个问题:

  • 受众收到你的信息了吗?谁做了,谁没有?

  • 他们是否以您的期望的方式正确的解读了数据信息?

  • 他们的反应是否如你所希望的那样?

提出这些问题将有助于你更好地检验你的沟通效果,同时也可以通过你的受众反馈,获得有价值的改进意见。

本章小结

以上介绍的有效沟通六原则不仅适用于本书与数据对话的情况,也适用于大多数带有目标性的任务中,用户养成了按照这些原则思考和执行的习惯后,往往会在项目的实践过程中得到高效、富有生产力的结果。

在下一章,我们将简单介绍这款能和数据对话的工具DataFocus的一些基本情况,接下来的章节将详细为您讲述,运用DataFocus熟悉的方式和数据对话的技巧。