本文目录一览:
- 1、详解大数据的思想如何形成与其价值维度
- 2、探球网app怎么下载
- 3、大数据,互联网将怎样改变篮球
- 4、足球平台出租系统哪里可以玩呀?
- 5、4500万新援是下一个马内:大数据分析让利物浦总能淘到宝贝
- 6、漫谈大数据的思想形成与价值维度
详解大数据的思想如何形成与其价值维度
详解大数据的思想如何形成与其价值维度
比如经济上,黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。又如军事,“向林彪学习数据挖掘”的桥段不论真假,其背后量化分析的思想无疑有其现实基础,而这一基础甚至可以回推到2000多年前,孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。
到上世纪50-60年代,磁带取代穿孔卡片机,启动了数据存储的革命。磁盘驱动器随即发明,它带来的最大想象空间并不是容量,而是随机读写的能力,这一下子解放了数据工作者的思维模式,开始数据的非线性表达和管理。数据库应运而生,从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用),到网状数据库,再到现在通用的关系数据库。与数据管理同时发源的是决策支持系统(DSS),80年代演变到商业智能(BI)和数据仓库,开辟了数据分析——也就是为数据赋予意义——的道路。
那个时代运用数据管理和分析最厉害的是商业。第一个数据仓库是为宝洁做的,第一个太字节的数据仓库是在沃尔玛。沃尔玛的典型应用是两个:一是基于retaillink的供应链优化,把数据与供应商共享,指导它们的产品设计、生产、定价、配送、营销等整个流程,同时供应商可以优化库存、及时补货;二是购物篮分析,也就是常说的啤酒加尿布。关于啤酒加尿布,几乎所有的营销书都言之凿凿,我告诉大家,是Teradata的一个经理编的,人类历史上从没有发生过,但是,先教育市场,再收获市场,它是有功的。
仅次于沃尔玛的乐购(Tesco),强在客户关系管理(CRM),细分客户群,分析其行为和意图,做精准营销。
这些都发生在90年代。00年代时,科研产生了大量的数据,如天文观测、粒子碰撞,数据库大拿吉姆·格雷等提出了第四范式,是数据方法论的一次提升。前三个范式是实验(伽利略从斜塔往下扔),理论(牛顿被苹果砸出灵感,形成经典物理学定律),模拟(粒子加速太贵,核试验太脏,于是乎用计算代替)。第四范式是数据探索。这其实也不是新鲜的,开普勒根据前人对行星位置的观测数据拟合出椭圆轨道,就是数据方法。但是到90年代的时候,科研数据实在太多了,数据探索成为显学。在现今的学科里,有一对孪生兄弟,计算XX学和XX信息学,前者是模拟/计算范式,后者是数据范式,如计算生物学和生物信息学。有时候计算XX学包含了数据范式,如计算社会学、计算广告学。
2008年克里斯·安德森(长尾理论的作者)在《连线》杂志写了一篇《理论的终结》,引起轩然大波。他主要的观点是有了数据,就不要模型了,或者很难获得具有可解释性的模型,那么模型所代表的理论也没有意义了。跟大家说一下数据、模型和理论。大家先看个粗糙的图。
首先,我们在观察客观世界中采集了三个点的数据,根据这些数据,可以对客观世界有个理论假设,用一个简化的模型来表示,比如说三角形。可以有更多的模型,如四边形,五边形。随着观察的深入,又采集了两个点,这时发现三角形、四边形的模型都是错的,于是确定模型为五边形,这个模型反映的世界就在那个五边形里,殊不知真正的时间是圆形。
大数据时代的问题是数据是如此的多、杂,已经无法用简单、可解释的模型来表达,这样,数据本身成了模型,严格地说,数据及应用数学(尤其是统计学)取代了理论。安德森用谷歌翻译的例子,统一的统计学模型取代了各种语言的理论/模型(如语法),能从英文翻译到法文,就能从瑞典文翻译到中文,只要有语料数据。谷歌甚至能翻译克莱贡语(StarTrek里编出来的语言)。安德森提出了要相关性不要因果性的问题,以后舍恩伯格(下面称之为老舍)只是拾人牙慧了。
当然,科学界不认同《理论的终结》,认为科学家的直觉、因果性、可解释性仍是人类获得突破的重要因素。有了数据,机器可以发现当前知识疆域里面隐藏的未知部分。而没有模型,知识疆域的上限就是机器线性增长的计算力,它不能扩展到新的空间。在人类历史上,每一次知识疆域的跨越式拓展都是由天才和他们的理论率先吹起的号角。
2010年左右,大数据的浪潮卷起,这些争论迅速被淹没了。看谷歌趋势,”bigdata”这个词就是那个时间一下子蹿升了起来。吹鼓手有几家,一家是IDC,每年给EMC做digitaluniverse的报告,上升到泽字节范畴(给大家个概念,现在硬盘是太字节,1000太=1拍,阿里、Facebook的数据是几百拍字节,1000拍=1艾,百度是个位数艾字节,谷歌是两位数艾字节,1000艾=1泽);一家是麦肯锡,发布《大数据:创新、竞争和生产力的下一个前沿》;一家是《经济学人》,其中的重要写手是跟老舍同着《大数据时代》的肯尼思?库克耶;还有一家是Gartner,杜撰了3V(大、杂、快),其实这3V在2001年就已经被编出来了,只不过在大数据语境里有了全新的诠释。
咱们国内,欢总、国栋总也是在2011年左右开始呼吁对大数据的重视。
2012年子沛的书《大数据》教育政府官员有功。老舍和库克耶的《大数据时代》提出了三大思维,现在已经被奉为圭臬,但千万别当作放之四海而皆准的真理了。
比如要数据全集不要采样。现实地讲,1.没有全集数据,数据都在孤岛里;2.全集太贵,鉴于大数据信息密度低,是贫矿,投入产出比不见得好;3.宏观分析中采样还是有用的,盖洛普用5000个样本胜过几百万调查的做法还是有实践意义;4.采样要有随机性、代表性,采访火车上的民工得出都买到票的结论不是好采样,现在只做固定电话采样调查也不行了(移动电话是大头),在国外基于Twitter采样也发现不完全具有代表性(老年人没被包括);5.采样的缺点是有百分之几的偏差,更会丢失黑天鹅的信号,因此在全集数据存在且可分析的前提下,全量是首选。全量好的采样不均匀的大量。
再说混杂性由于精确性。拥抱混杂性(这样一种客观现象)的态度是不错的,但不等于喜欢混杂性。数据清洗比以前更重要,数据失去辨识度、失去有效性,就该扔了。老舍引用谷歌PeterNovig的结论,少数高质量数据+复杂算法被大量低质量数据+简单算法打败,来证明这一思维。Peter的研究是Web文本分析,确实成立。但谷歌的深度学习已经证明这个不完全对,对于信息维度丰富的语音、图片数据,需要大量数据+复杂模型。
最后是要相关性不要因果性。对于大批量的小决策,相关性是有用的,如亚马逊的个性化推荐;而对于小批量的大决策,因果性依然重要。就如中药,只到达了相关性这一步,但它没有可解释性,无法得出是有些树皮和虫壳的因导致治愈的果。西药在发现相关性后,要做随机对照试验,把所有可能导致“治愈的果”的干扰因素排除,获得因果性和可解释性。在商业决策上也是一样,相关性只是开始,它取代了拍脑袋、直觉获得的假设,而后面验证因果性的过程仍然重要。
把大数据的一些分析结果落实在相关性上也是伦理的需要,动机不代表行为。预测性分析也一样,不然警察会预测人犯罪,保险公司会预测人生病,社会很麻烦。大数据算法极大影响了我们的生活,有时候会觉得挺悲哀的,是算法觉得了你贷不贷得到款,谷歌每调整一次算法,很多在线商业就会受到影响,因为被排到后面去了。
下面时间不多了,关于价值维度,我贴一些以前讲过的东西。大数据思想中很重要的一点是决策智能化之外,还有数据本身的价值化。这一点不赘述了,引用马云的话吧,“信息的出发点是我认为我比别人聪明,数据的出发点是认为别人比我聪明;信息是你拿到数据编辑以后给别人,而数据是你搜集数据以后交给比你更聪明的人去处理。”大数据能做什么?价值这个V怎么映射到其他3V和时空象限中?我画了个图:
再贴上解释。“见微”与“知着”在Volume的空间维度。小数据见微,作个人刻画,我曾用《一代宗师》中“见自己”形容之;大数据知着,反映自然和群体的特征和趋势,我以“见天地、见众生”比喻之。“着”推动“微”(如把人群细分为buckets),又拉动“微”(如推荐相似人群的偏好给个人)。“微”与“着”又反映了时间维度,数据刚产生时个人价值最大,随着时间decay最后退化为以集合价值为主。
“当下”和“皆明”在Velocity的时间维度。当下在时间原点,是闪念之间的实时智慧,结合过往(负轴)、预测未来(正轴),可以皆明,即获得perpetual智慧。《西游记》里形容真假孙悟空,一个是“知天时、通变化”,一个是“知前后、万物皆明”,正好对应。为达到皆明,需要全量分析、预测分析和处方式分析(prescriptiveanalytics,为让设定的未来发生,需要采取什么样的行动)。
“辨讹”和“晓意”在Variety的空间维度。基于大体量、多源异质的数据,辨讹过滤噪声、查漏补缺、去伪存真。晓意达到更高境界,从非结构数据中提取语义、使机器能够窥探人的思想境界、达到过去结构化数据分析不能达到之高度。
先看知着,对宏观现象规律的研究早已有之,大数据的知着有两个新特点,一是从采样到全量,比如央视去年“你幸福吗”的调查,是街头的采样,前不久《中国经济生活大调查》关于幸福城市排名的结论,是基于10万份问卷(17个问题)的采样,而清华行为与大数据实验室做的幸福指数(继挺兄、我、还有多位本群群友参与),是基于新浪微博数据的全集(托老王的福),这些数据是人们的自然表达(而不是面对问卷时的被动应对),同时又有上下文语境,因此更真实、也更有解释性。北上广不幸福,是因为空气还是房价或教育,在微博上更容易传播的积极情绪还是消极情绪,数据告诉你答案。《中国经济生活大调查》说“再小的声音我们都听得见”,是过头话,采样和传统的统计分析方法对数据分布采用一些简化的模型,这些模型把异常和长尾忽略了,全量的分析可以看到黑天鹅的身影,听到长尾的声音。
另一个特点是从定性到定量。计算社会学就是把定量分析应用到社会学,已经有一批数学家、物理学家成了经济学家、宽客,现在他们也可以选择成为社会学家。国泰君安3I指数也是一个例子,它通过几十万用户的数据,主要是反映投资活跃程度和投资收益水平的指标,建立一个量化模型来推知整体投资景气度。
再看见微,我认为大数据的真正差异化优势在微观。自然科学是先宏观、具体,进入到微观和抽象,这时大数据就很重要了。我们更关注社会科学,那是先微观、具体,再宏观、抽象,许小年索性认为宏观经济学是伪科学。如果市场是个体行为的总和,我们原来看到是一张抽象派的画,看不懂,通过客户细分慢慢可以形成一张大致看得懂的现实图景,不过是马赛克的,再通过微分、甚至定位个人,形成高清图。我们每一个人现在都生活在零售商的bucket中(前面说的乐购创造了这个概念),最简单的是高收入、低收入这类反映背景的,再有就是反映行为和生活方式的,如“精打细算”、“右键点击一族”(使用右键的比较techsavvy)。反过来我们消费者也希望能够获得个性化的尊崇,Nobody wants to be nobody today。
了解并掌握客户比以往任何时候都更重要。奥巴马赢在大数据上,就是因为他知道西岸40-49岁女性的男神是乔治·克鲁尼,东岸同样年龄段女性的偶像则是莎拉·杰西卡·帕克(《欲望都市》的主角),他还要更细分,摇摆州每一个郡每一个年龄段每一个时间段在看什么电视,摇摆州(俄亥俄)1%选民随时间变化的投票倾向,摇摆选民在Reddit上还是Facebook上,都在其掌握之中。
对于企业来说,要从以产品为中心,转到以客户(买单者)甚至用户(使用者)为中心,从关注用户背景到关注其行为、意图和意向,从关注交易形成转到关注每一个交互点/触点,用户是从什么路径发现我的产品的,决定之前又做了什么,买了以后又有什么反馈,是通过网页、还是QQ、微博或是微信。
再讲第三个,当下。时间是金钱,股票交易就是快鱼吃慢鱼,用免费股票交易软件有几秒的延迟,而占美国交易量60-70%的高频程序化交易则要发现毫秒级、低至1美分的交易机会。时间又是生命,美国国家大气与海洋管理局的超级计算机在日本311地震后9分钟发出海啸预警,已经太晚。时间还是机会。现在所谓的购物篮分析用的其实并不是真正的购物篮,而是结帐完的小票,真正有价值的是当顾客还拎着购物篮,在浏览、试用、选择商品的时候,在每一个触点影响他/她的选择。数据价值具有半衰期,最新鲜的时候个性化价值最大,渐渐退化到只有集合价值。当下的智慧是从刻舟求剑到见时知几,原来10年一次的人口普查就是刻舟求剑,而现在东莞一出事百度迁徙图就反映出来了。当然,当下并不一定是完全准确的,其实如果没有更多、更久的数据,匆忙对百度迁徙图解读是可能陷入误区的。
第四个,皆明。时间有限,就简单说了。就是从放马后炮到料事如神(predictiveanalytics),从料事如神到运筹帷幄(prescriptiveanalytics),只知道有东风是预测分析,确定要借箭的目标、并给出处方利用草船来借,就是处方性分析。我们现在要提高响应度、降低流失率、吸引新客户,需要处方性分析。
辨讹就是利用多源数据过滤噪声、查漏补缺和去伪存真。20多个省市的GDP之和超过全国的GDP就是一个例子,我们的GPS有几十米的误差,但与地图数据结合就能做到精确,GPS在城市的高楼中没有信号,可以与惯性导航结合。
晓意涉及到大数据下的机器智能,是个大问题,也不展开了。贴一段我的文章:有人说在涉及“晓意”的领域人是无法替代的。这在前大数据时代是事实。《点球成金(Moneyball)》讲的是数量化分析和预测对棒球运动的贡献,它在大数据背景下出现了传播的误区:一、它其实不是大数据,而是早已存在的数据思维和方法;二、它刻意或无意忽略了球探的作用。从读者看来,奥克兰竞技队的总经理比利·比恩用数量化分析取代了球探。而事实是,在运用数量化工具的同时,比恩也增加了球探的费用,军功章里有机器的一半,也有人的一半,因为球探对运动员定性指标(如竞争性、抗压力、意志力等)的衡量是少数结构化量化指标无法刻画的。大数据改变了这一切。人的数字足迹的无意识记录,以及机器学习(尤其是深度学习)晓意能力的增强,可能逐渐改变机器的劣势。今年我们看到基于大数据的情感分析、价值观分析和个人刻画,当这些应用于人力资源,已经或多或少体现了球探承担的。
探球网app怎么下载
去电脑上的官方网站上下载下载前先输入即可!网上的话通过网站或者软件就好
大数据,互联网将怎样改变篮球
蛮荒时代:数据都是替补队员拿纸笔记的
前中国男篮、八一男篮主教练王非经历过中国篮球数据的“蛮荒时代”,他的球员时代,虽然当时的八一队在国内篮坛所向披靡,但他除了得分之外,基本上拿不到其他的数据。
“回想起我当球员的时期,并未有过系统的数据支撑,一直到我当教练后在国家队参加国际比赛,才逐渐发现中国篮球在数据方面的不足。现在从事青少年篮球培训让我更加明白篮球数据的重要性。我记得那是1995年、1996年,八一队是在西安交大主场,当时CBA仍然没有任何数据,所以当时就是两个替补队员一人拿着一张纸,一个记对手一个记裁判。”王非说。
由于缺少数据支撑,王非逼自己学会了当时还非常前卫的软件EXCEL,自己进行统计,有一次没操作好,白天输入数据晚上忘了保存,一天的努力就付诸东流。
CBA初创时期,八一队是联赛的绝对王者,刘玉栋、王治郅等八一队员也是国家队的绝对主力,王非说:“知道自己好在什么地方,不好在什么地方,特别是当你取得好成绩以后,能不能更多地看到不足,这需要通过数据来体现。”
北京体育大学教授、中国大学生篮球协会教练员委员会主任毕仲春透露,如今的中国大学篮球,数据整理和录像分析的工作基本上还是主教练在做,与分工极其细化、专门配置录像分析师的美国大学篮球队相比仍有很大差距。“在我们国内大学里,球队的配置一般就两个教练,很多球队就一个教练,这样就使得我们在数据方面工作受到影响。技术越先进,水平越高,分工越细,专业化越强。”毕仲春说。
数据之路,在进步
与美国这样的篮球强国相比,中国篮球领域的“信息化”时间并不长,还有许多需要学习的地方,对于数据积累的重视程度就是其中之一。曾在美国担任5年篮球记者的懒熊体育联合创始人黎双富说:“我去看过很多美国的业余篮球联赛,印象最深的就是他们对基础数据的采集是非常到位的,大概十年前第一次去的时候,他们也没有APP能直接线上管理,但是每场比赛的裁判、记录统计都会完整地保留。一个球星成名之后,我们要回到他最本源的地方追踪他的统计,他过去的教练都能把带有历史意义的数据统计送到你面前,这种对数据的重视是非常重要的。”
随着时代的进步,中国篮球从业者们也越来越懂得运用手中的“数据”作为工具,在全运会三人篮球项目和中国三对三联赛中,中国篮协都选择与我奥篮球进行数据和互联网数据方面的合作。中国篮协三人篮球部部长柴文胜说:“我们在全运会的四块金牌的所有数据非常完整,我们的同事也对这个数据进行了分析,刚刚拿出了一个研究报告,这样一来就特别直观。”
无论是职业比赛,还是业余比赛,通过云平台将数据、视频进行收集、加工、整理、分发已经成为一种潮流。篮球大数据公司贝泰科技CEO薛冬表示,与过去相比,CBA联赛的数据分析工作已经取得了很大的进步,他说:“在数据统计方面,我们现在分项大概是150项左右,比以前提升了大概40%左右。实时数据这块我们增加了基于比赛事件的文字直播,投篮数据等等,另外还增加了一些高阶数据。现在这些数据我们都会采集和分析,会在CBA官网上出现。”
“信息化”未来:数据价值的多维开发
从无到有,从粗放到精细,中国篮球正在“信息化”的路上大踏步迈进。对于大数据、互联网背景下的中国篮球,与会嘉宾们也进行了展望。
王非表示,在青少年培训过程中,精细的统计数据让孩子们得到了更多的信心,孩子们可以看到自己好的一面和不足的一面,并且可以看到进步的方向,这将对青少年篮球的未来产生重要的影响。
众辉体育董事长陆浩也表示:“中国篮球要想有大的发展,在青少年方面能够寻找到更好的有条件的孩子、未来有潜力的孩子,必须要有大数据的介入。”
随着互联网科技的飞速发展,数据分析的操作难度和技术成本越来越低,当下许多业余篮球比赛也都可以实现个人数据的精确统计,而数据也将在青少年选材、个人技术进步、球队打法磨合、技战术设计等等多个方面发挥重要作用。
对于中国篮球“信息化”未来的挑战,毕仲春说:“原来我们存在的问题是有视频我们不会分析,现在的问题是各个国家对于技战术保密非常敏感,比如说日本女篮曾在半年的时间段里面没有打过公开赛,他们的比赛视频找不到,所以就很难分析。所以说现在是存在一个‘找不到’的问题。在移动互联网技术上我们已经不落后了,我还是希望在下一步能够解决我们大学篮球的数据统计问题, CBA各队已经配置了球探或者科研教练或者视频分析师,但是CUBA的球队现在大部分还没有,这也是中国篮球将来进一步在专业性和职业性发展方面的一个巨大的潜力。”
足球平台出租系统哪里可以玩呀?
很高兴回答这个问题。
国内有很多好的足球平台
1.腾讯体育。腾讯体育最近几年来发展很快,基本上囊括了西甲、德甲、英超、意甲、法甲等顶级联赛,遇到热门比赛还有美女主播和专业主播一块搭档,很不错。
2.pptv体育。我个人比较喜欢在这个平台看球,这个平台有知名解说评论员詹俊,张指导等,看起来比较棒。
3.新浪体育。新浪体育也是比较老的足球平台了,也很不错。
4.虎扑体育。这里面年轻人比较多,可以自由的发表意见讨论。
5.头条体育板块。头条体育也会有足球的赛事和相关情况介绍。编者注:科技不仅以前所未有的速度改变着绿茵场,也以无所不包的广度影响着整个足球圈。Wyscout不仅仅关注比赛现场的资料采集,而且还为参与其中的各国足协官员、俱乐部经理、球探、经纪人等提供包括比赛分析、球员发掘、转会谈判等全方位的信息,这股足球“大数据”的浪潮正在欧洲如火如荼的进行着,改变了足球从业人员低效的传统工作方式。
Wyscout是目前全世界足球领域最强大的工具之一,Graeme Bailey 带领我们探查了足球界这一最具革命性的发展对这项运动带来的影响。你是否曾在PS上玩过任何版本的FIFA或在PC机上玩过任何版本的FM?在里面你可以进入一个储存着世界上所有球员的数据库,看他的统计数据并进行报价,许多人认为那是完全不现实的,然而由于Wyscout的出现,这种情景远比你意想不到的更要接近在现实足球世界中实现。
该系统正在被包括英足总、西班牙足协、皇家马德里、巴塞罗那、阿森纳、拜仁慕尼黑等等在内很多的机构使用,从中你可以窥见Wyscout的威力。但究竟Wyscout是什么呢?就像名字中所暗示的,它和球探有关,是的,它正是一款可以被俱乐部、球员、经纪人、足球主管或任何涉及足球的人付费使用的工具。

Wyscout-界面初体验
从2008年它作为一个足球数据库诞生伊始,包括了一个可以快递订购DVD的网站,后来更新了一些嵌入视频的网页,这预示了未来将要发生的事情。该公司后来发布了一个机顶盒,允许客户访问视频数据库。基于网站运行的Wyscout 2版本的平台于2010年发布,允许购买高级访问权,随后的Wyscout 3版本包括了基于网络、且带有视频分析的全套工具。最新的版本 Wyscout4 还包括在俱乐部、球员和经纪人之间建立网络联系的能力,甚至可以安排转会和试训。
Wyscout 4 现有的数据库中已经有全世界50个国家中近22万的职业球员、超过400个职业球队和450个职业经纪人的数据,像拜仁、曼联、阿森纳、巴萨、皇马、尤文等豪门都是 Wyscout 4 的客户,其中我们还看到了恒大的身影,但却不是很清楚恒大使用 Wyscout 4 具体是用来做什么,或许内部人士才能为我们解答。
如果你还不相信的话,英超夏季的压哨转会就是在球员本人都没有与买家俱乐部和教练面对面沟通的情况下通过Wyscout平台完成的,这在足球圈里已经是众所周知的事实了。因此,Wyscout几乎是一夜之间就从默默无闻的状态摇身一变,成为网罗世界足坛主要联赛赛事相关各个方面的重要工具。
谁又能比Wyscout的创始人Matteo Campodonico 更能阐释它的理念呢, “Wyscout一方面可以被认为是世界上使用最为频繁的球探和转会平台,有超过3万家俱乐部正在使用;另一方面Wyscout也可以被认为是除了FIFA之外全世界最大的足球网络。” 他解释到。
“我们已经聚集了世界上超过30万包括体育总监,球探,经纪人、球员在内的足球从业人员使用我们的系统,并通过它进行各种交流联络,Wyscout就是一个足球社区。”
如前所述,Wyscout不仅仅是一个工具,作为一个足球社区他们引以为傲的是帮助所有转会前线中的俱乐部聚集在一起,并且使得从俱乐部人员到球员、经纪人在内的所有在一次转会中涉及的人员更加轻松的完成工作。
“我们现在已经建立了球员的交易市场,包括一个球员经纪人和俱乐部可以向全世界推销他们的球员转会专区,因为现在转会市场已经全球化,没有任何经纪人或俱乐部不想抓住这个机会参与。”Campodonico 补充道。
“当一方面你可以在全球进行购买球员的时候,你可不能仅仅在中东、中国、澳大利亚、墨西哥和巴西卖掉球员,所以我们开始着手建立这个市场。在Wyscout进入之前,足球世界里可能仅仅只有一个经纪人的一张DVD供人获取信息,但是在这么一个价值数十亿的市场里竟然一直没有任何帮助人们共享信息,节省时间和金钱的改进,你怎么可能在这样一个没有先进工具辅助的全球市场中进行交易呢?现在Wyscout正在做的就是提供这样一个工具来努力填补这个市场空缺。”

几乎世界上所有国家都包括在Wyscout系统内
Campodonico 承认建立这样一个基本上是在线实时转会清单的转会专区是一项试验,但这是一个他乐于见到的尝试。“我很惊讶我们把新建立的转会专区就做交易市场,俱乐部可以在此告知其他俱乐部某些球员是待出售的,他的价位和其他信息。俱乐部乐于进行这个尝试让我很吃惊,虽然信息有所保留,但是这是我们已经取得进展的标志。”
“我们建立转会专区的原因是来自中东俱乐部的人员告诉我们当他们尝试电话联系经纪人和球员的时候,90%的人告诉我们他们没空。这就像一个实时转会的转会清单,你可以告知比如来自卡塔尔的俱乐部,这些球员愿意在某些价格下去你们那里效力。”
“我们的转会专区有三种不同等级的自主权,你可以提供完整的信息以便所有人都知道该球员待出售,但是你也可以仅仅将信息发送给特定区域内的俱乐部。当你着手在足球圈内建立新的市场时,最终还是因为我们热爱并一直热爱足球。但是我们也清楚我们的局限性。”
“我们帮助俱乐部节约时间,当Wyscout还没有诞生的时候,足球转会市场的从业人员在世界飞来飞去为了完成交易,从英格兰俱乐部经理的办公桌前,到意大利和西班牙堆积的DVD资料,或者因为某个地方比如哥伦比亚的某个经纪人发来的一张DVD就飞过去。到了之后你又要查询信息,可能又要花个两周时间。观看比赛视频的过程至少要两个星期,然后俱乐部可能还有机会通过电视或者去现场看比赛,但是从DVD资料到现场观摩的整个球探过程已经改变了。然后俱乐部也想跟踪某一个球员。现在我们已经把所有这些压缩到实施完成,在数小时之内你就可以对世界上任何一个球员有一个深入的了解。我们系统内有超过20万球员的资料,而工作人员可以在数小时之内给你想要的答案。”
“从球探的角度来说,我们系统内有世界上任何一个球员的信息。”
Humble beginnings 星星之火
Campodonico 解释到,从最开始在意大利的星星之火,他在热那亚当地居所里的想法出发,仅仅因为所有人都能看到并且获得收益。
“我们最初在意大利开展,他们要求跟踪巴西和阿根廷的一些球员,接着我们开始在英国落脚,英超的俱乐部要求关注斯堪的纳维亚的足球苗子。因此我们着手开始,有一天我去了奥斯陆,一个俱乐部跟我打听拉脱维亚的情况,就这样一个一个接下去。几乎没有终止的势头,我们努力在每个国家都深入开展球探网络,渗透到第二或第三级别联赛,和一些青年锦标赛。包括所有的完整信息,视频资料,我们也会提供一些私人信息,你可以询问球员的生活,一切都行。”
Campodonico 解释说公司并不仅仅是由球探网络构成,他们也通过一些合作伙伴得到消息。他说道:“我们没有一个直接的球探架构,但是通过合作伙伴等,我们的确可以提供信息,通过一些合作关系让人看到比赛直播信息,我们覆盖整个转会过程的全周期。”甚至足球圈里的口口相传也在Wyscout的发展中起到了重要的作用。
“我们在英格兰有包括英超和英冠在内的超过50家合作俱乐部。球探文化逐渐在世界风行,两年前我们在巴西没有任何客户,后来我们得到了科林蒂安的合同,当他们赢得世俱杯的时候(2012对阵切尔西,保罗格雷罗打入唯一进球),科林蒂安说他们多亏了Wyscout才得到了他,因为没有人信任他,但是他们还是买了这个秘鲁人,因为他们通过Wyscout了解了他的特点。这对于我们很重要,因为其他俱乐部此后才开始对我们的系统感兴趣。因为这无关乎金钱,尽管你确实可以省钱,而是因为你需要一个球探部门,现在世界上还有很多俱乐部没有。”

一份包括比赛事件信息的Wyscout报告
随着Wyscout成为足球日常生活不可分割的一部分,Campodonico 承认他们正致力于保持独立性,不隶属于任何一个足球机构。“我们很自豪于作为一个独立运作的公司,我们通过我们并不卷入其中的服务得到收益。我们正努力每个月,甚至每天都给这个领域带来新的改进。”他说到。
“我们提供信息,视频资料,以及联络方式,但是我们保持独立,因此我们可以与经纪人和俱乐部们一起合作,并保持稳固的合作关系。” Campodonico 相信Wyscout当前已经覆盖了超过95%的市场份额。“我认为我们正在谈论的是不亚于数以百计的交易。在签约球员之前不去观察他是不可能的,我认为95%的交易使用Wyscout是正常的,它就是市场中的一个商品。”
Wyscout的整套服务中同样也提供另外一个非常吸引人的组成部分,即Wyscout论坛,该论坛每隔几个月就在世界各地举办。公司仅仅提供一个机会让俱乐部和经纪人们聚集在一起互相接触,而不是在电话中浪费数小时的时间就为了安排一次见面会。公司亲切地将这个论坛称作针对足球的“快速约会”。
“Wyscout同样也是一个论坛,针对足球提供快速约会的机会。就是这么一回事儿,我们把他们聚集在一起。”
Wyscout一部分的魅力在于它的易用性,但是他们也处于技术革新的前沿,拒绝固步自封,因此使得它的用户们几乎不可能离开它。“科技的力量是伟大的,我们起步的时候仅仅依赖DVD,现在你可以在ipad上进行操作。”Campodonico 承认到。
“当我们起步的时候我们根本想不到转会市场上的这种变革是可能的。”而且由于公司一直拥抱最新科技,这也是足球产业愿意开始投入大量资金使用该系统的原因,使用该系统已经成为日常事务的一部分。“通常我们有一个定价模型进行账户设定,如果你是个人,那么价格会很低,但是涉及到大俱乐部的时候,你每月就要交付数千元使用费。”他说。
“我们起步的时候就致力于打造一个大众化的商品,我们希望所有人都可以负担使用,同时我们也为球员和经纪人打造新的套餐。因此经纪人可以购买他们旗下球员的资料,球员自己也可以看自己的资料。我们有一个庞大的IT部门,因为我们需要在技术方面绝对领先。我们每天都在寻求面向未来的解决方案,因此我们为什么不很快使用谷歌眼镜来观看比赛并发回报告呢?有一个通用的工具供俱乐部使用,同时也有针对国家队的工具。”
National reach 染指国家层面
国家队?是的,它不仅仅针对俱乐部和经纪人,而且德国,西班牙和英格兰的各个国家梯队也在使用Wyscout。位于圣乔治公园的英足总数据分析总监Steve O'Brien 解释了他们对Wyscout的使用,很大程度上是围绕着对球队和球员的分析展开。
“我们仅仅在过去的六个月里才刚开始使用Wyscout,我们主要用它来接入世界各地的比赛,不管是国内还是国外的成年比赛,青年比赛,这是我们主要的使用方式,就这一点来说它是很棒的。”他解释说。O'Brien 承认强化的技术和系统的速度是一个巨大的优势,他补充道:“比赛上传得很及时,一小时之内完成操作之后你就有权限进行访问了。”
“我们使用的第二种功能是利用里面的内容进行教练培训,研究比赛的某些特殊方面,因为它有世界各地的视频资料,你可以看到比赛的新特点,从而可以反馈到我们的教练培训项目中。他们有对某些球员和比赛事件最原始级别的标签,许多俱乐部会使用这个功能来招募新球员,而我们开始用它来跟踪我们自己的球员。系统内确实有这个能力。”
O'Brien 承认在国家队层面,他们在绕开足总高层的情况下已经开始收获使用Wyscout带来的成果。“在开发方面,它是很棒的比赛信息来源,特别是你无法参加某项锦标赛的时候。例如,在U-20世界杯期间,每天都有好多场比赛进行,有很多都是交叉进行的,你可以通过下载比赛甚至观看直播,快速得到比赛信息,这会大大促进你的赛前备战过程,使得你可以在赛事密集的锦标赛中行事迅速,因为你可能只有两天去准备迎接下一个对手。它非常节约时间,而时间在锦标赛期间是非常宝贵的。你的下一场比赛可能就在几天后,而你可能要准备和三到四个队伍交手。”
据O'Brien 透露,作为教练课程的一部分,Wyscout可以用于帮助教练进行学习。“我们正努力给我们的教练权限访问该系统,因为这对于他们本人很有帮助。他们可以登录系统,观看世界各地的比赛,对于他们的职业发展很有利。他们可以看到世界各地比赛中的不同情况,我们正努力鼓励他们使用Wyscout,不仅扩展他们对于比赛的认识和学习,而且还可以跟踪我们年轻球员的发展。”
Wyscout中一个典型的针对球员的球探报告 - 以德比郡队的Will Hughes为例
“他们可以使用Wyscout进行学习并且反馈给教练。因为版权问题,我们不能使用这些视频资料,但是教练们可以学习这些内容并反馈给我们,从而丰富课程教学。这是一个非常棒的工具,而我们仅仅刚开始使用它。”
O'Brien 承认他并不对Wyscout如此大规模的在足球世界里流行起来感到吃惊。“这是一个完整的工具,一些足协和大批俱乐部正在使用。你可以想象从全球化球员选材的角度讲他非常有价值。而且他们是一家很有创建性的公司,产品一直在更新完善。”O'Brien 解释到。“它非常节约时间,它并没有取代刺探对手情报的传统惯例,或者实际的敌情分析报告,但是由于比赛信息获取的便捷性,这些过程可以更轻松的搞定。”
然而俱乐部和经纪人才是Wyscout的主要客户,因此我们设法联系到了两家积极使用该系统的俱乐部。米德尔斯堡队的球探Gary Gill 向我们解释了Wyscout如何成为了他们现代球探网络中的重要一环。
“在俱乐部我们都是用它。我个人而言,你可以在远离训练场的地方使用它,而且它非常万能如果你有合适的硬件,当你在去比赛现场的旅途中也可以使用它。”Gill 透露道。
“我们在训练场使用它,技术分析人员使用的更多因为他们需要进行分析,但是我们都在使用它,特别是在发掘球员的时候。我们觉得特别有用的一点是你可以在听到某些人提到某一球员的时候就找到他,去看他的比赛资料。我们将Wyscout作为我们寻找球员的辅助工具,你可以用它也可以不用它,如果这个球员是你之前就覆盖到的,你仍然可以自己对他做评估。”
Gill 承认通过把Wyscout引入到他们的球探部门,大大提高了他们的覆盖范围。他解释到:“我们主要使用它来获取我们想要试图联系的球员的信息,帮助我们建立更全面的描述:他是否合适呢,是否是我们想要的球员类型呢?这些可以很快通过Wyscout完成,这可能听起来有点像广告,但这就是它的功能。事实上,我们可以看世界上所有顶级联赛的比赛并比赛信息进行分解。”
但Gill 仍坚持现实的球探不会迅速在他的职权范围内完全被Wyscout取代。他认为:“不管付出多少成本,我们采用的方式仍然是倾向于去现场观察那些我们认为可以给球队带来提高的球员,但是Wyscout可以帮助我们在去之前了解情况。它确实使得情况更简单了,因为你在去之前已经有那么多的信息供你了解。我们尝试只有在我们做了足够的准备工作后再去现场观摩球员。
“你虽然有时间限制,但是Wyscout是和实地考察一起配合完成对球员的考察。你可以注意到一个球员的个性。他可能球技超群,但是性格这东西可能是你只有亲身接触才能观察到的。”
据说某些交易就是俱乐部仅仅通过在Wyscout上观察某一球员就完成的,尽管不太可能,不过Gill 还是承认不能排除有这种情况出现。“世事无绝对,可能是某个南美人做出这种令人震惊的事情。”
“但是我们一直在提升可能该系统无法完成的某些事情。你可以尝试尽可能全面建立一个球员的所有信息,其他俱乐部也在和我们一样做类似的工作,这样就可以把所有信息整合起来。我们继续实地考察,我们有一些非常乐于帮助我们的专业球探。而Wyscout可以帮助将网撒的更广一些。我认为高科技的球探系统这一方向在我眼中是可行的,但是我不认为你就因此忽略了实地考察这一方面。球探部门把它放在这里是俱乐部发展的证明。这是一个超前的意识并且还在不断发展,但是一切还需要实践证明。”Gill 最后总结道。
High esteem 备受推崇
为了对Wyscout在俱乐部层面的作用得到更广泛的认识,我们同哈德斯菲尔德城队的足球业务负责人Ross Wilson 进行了交流。被普遍认为是英国足球界最为年轻有为的运营官之一的Wilson 认为,Wyscout是他非常推崇的一个工具。
“我们是沃特福德地区最早的一批引进Wyscout系统的俱乐部,当我来到沃特福德的时候,Wyscout我想引进的为数不多的事物之一,我觉得这是必须的。”他说到。
“Wyscout并不便宜,但是它对我们是至关重要的。它很可能对我们这样小规模的俱乐部比对那些球探网络遍布全球的顶级俱乐部更重要,因为它是我们接入世界转会市场的途径。”Wilson 认为Wyscout可以被用来为你原有的计划提供支持。

一场曼联青年队比赛的Wyscout分析报告
“我们尝试并且引以为傲的是它的架构和资料库。我们选取我们想进入的市场,比如丹麦。我们夏季转会窗口在那里签下一名年轻球员,然后我们打造关系网络并得到更多的推荐苗子。我们的分析师和教练就可以通过Wyscout来查看相关的信息,然后我们再决定是否去亲自考察该球员。我们可以通过Wyscout进行筛选过程,我们虽然不能过Wyscout就直接签约该球员,但是我们会依托它决定是否亲自去一趟去看某一个球员而不是去看20个球员。”
有人建议说一些俱乐部甚至可以只用Wyscout系统从而可以削减球探部门其他方面的开销,但是Wilson 认为这是不可行的。“其他俱乐部,有人谈论统计数据取代人力资源的可能,我也读到某些人认为技术球探会取代传统的球探,但是就我而言我希望的是通过技术球探系统来辅助传统的球探人员进行工作,而非取代他的位置。”
“这关乎竞争优势,关于Wyscout可以提供给你的那些信息,我们谈论的是1%,而当我们谈论一个计划的时候,Wyscout给我们提供的是另一层面的东西。”Wilson 承认他们队的教练Mark Robins 已经使用Wyscout进行赛前准备。
“除了球员们,我们的教练也经常使用Wyscout来查看对手的信息,查看那些对他重要的东西。这对他的赛前分析和战术布置很有帮助,他可以带着包含对手阵型分析等一切信息的报告来到周五早上的训练环节,当他组织比赛计划的时候就会有很多参考信息。有人会说这些资料过于多了,但是信息过多总比不够要好。”
英国顶级体育经纪公司SEM的总经理Craig Honeyman 认为Wyscout的主要功能在于它能节约时间。“通过我们的境外合作伙伴,我们可以得到很多球员的信息,以前我们总要先对这些球员的重要性进行排序,以便先看哪个球员的资料,进而顺序决定是否亲自去观察这些球员。你无法在没有见到他们表现的情况下就签下一名球员,或者试图联系他们。”
“这正是Wyscout介入的地方,它不仅是改进了物流,而是计时功能,我们为客户搜集球员的DVD资料供其参考,比如一个来自南美洲或者非洲的球员,那么他们的DVD比赛资料可能需要5天我们才能收到,而通过Wyscout的话,可能就是几个小时的事儿,我们就可以给俱乐部提供相关信息。甚至我们可以把比赛资料的链接通过email发给他们就完事了。”

Wyscout论坛里面的“快速约会”景象
Honeyman 将会是即将在12月份在伦敦举办的Wyscout论坛的众多与会代表之一。而且他承认Campodonico 关于该论坛是足球产业里的“快速约会”的言论十分的恰当。
“基本就是这么一回事儿,我们这些人被安排位置,日程也都被排满,甚至所有人也都带着个上面写着名字和公司的参会证,这样人们交流就更方便了,不用经过一番正式的介绍就可以直接了谈论正事。”
4500万新援是下一个马内:大数据分析让利物浦总能淘到宝贝
就在无数球迷抱怨利物浦老板是一毛不拔的铁公鸡时,芬威集团用24小时内的2笔官宣,让利物浦球迷感受到了球队的反击速度是那么惊人。加上绯闻中卫,这个夏天利物浦的投入正在朝着一亿英镑的引援投入前进。
出生于96年12月,当前只有23岁的若塔有着很好的对抗和锐气,他随时准备着在比赛中为加速而战。过去2个赛季英超67场比赛打入16球贡献6次助攻。这名极有活力的年轻人,被利物浦球探系统的数据分析定义为“下一个马内”。他真的会是一个大惊喜吗?至少从芬威砸下41+4M英镑的“天价”上可以看出,球队对于他有着很高的期待。
A. 霍弗尔成为交易的一部分:他让利物浦引进若塔的同时还“赚钱”
很多时候球迷们会谈到,今年夏天我的主队有着6000万的引援预算。因此在讨论球员进出时,往往就是使用表面的引援和卖出,进行加减计算。这样的做法,往往会有很大的偏差,所以有了球迷感觉“老板追加投资”和“老板出尔反尔不花钱”的两种截然不同的结论。
从上面的表格可以看到,若塔与利物浦签约5年,固定转会费是4100万英镑,浮动条款的4M英镑,将会在条款激活后方才入账。因此接下去的5年,利物浦每一年的转会费摊销(也可以称之为球员注册权摊销)为820万英镑。等到浮动条款激活后,将会在激活当年入账,根据球员所剩下合同的长度进行分摊。
在另外一方面,由于霍弗尔加入本次交易,他将会以9M+4.5M浮动的价格转会狼队。要知道当初引进霍弗尔只是花费了9万英镑,此次交易将会使得利物浦得到单次转会将近900万英镑的净利润。这笔数字与若塔今年的820万镑相减,利物浦在这起连锁式转会中,将会得到80万英镑的转会收益。
简单地说,在2020财年里,利物浦用霍弗尔+32M镑换来若塔,让球队账面上盈利80万镑。
小将霍弗尔可以出任右边后卫和中卫,有着不错的脚下技术和冷静的头脑。他未来立足英超几乎是板上钉钉的事情,甚至原本有机会未来在利物浦竞争一个先发主力或者主要轮换。此次将他放入交易,一来是这名年轻人的确很有价值,另外一方面也是因为引进成本小,最有利于做账。根据迪马济奥等著名足球人的言论,接下去的2-3年,或许这样的交易模式将会变得更加频繁。
B. 数据模型显示若塔是“潜力股”:分期付款的意义只是在于老板的风险厌恶程度
当我们看到利物浦老板从之前的“一毛不拔”,到24小时内豪掷6000万多英镑引援,其中的反差极为巨大。不过如果细品,又会发现利物浦买下蒂亚戈和若塔,第一年的应付款少的惊人。
不过从金融市场的消息可以看到,英国央行为可能出现无序脱欧做好准备,其中可能包括会在年底前使用负利率。当前形势下,分析家们认为2021年出现负利率的机率在增加。英国两年期债券收益率(对降息猜测最为敏感)周四下跌,为四天来首次。
这也说明了,当前借款的成本是极低的。芬威依旧要求在未来支付更多的金额,要么是当前资金链极为吃紧,要么就是他们极度厌恶风险,完全不考虑增加借款支持运营的可能性。
尽管说狼队非常上路,只收取4M首付款,但固定金额4100万镑的转会费还是实实在在的。首付少,不等于这笔交易的价值真的很低,尤其是在负利率时代。让利物浦下决心买下若塔的原因,还是在于球队对于他的评估回馈非常高。之前有消息称,若塔过去2年的英超数据,与当初利物浦买入马内时非常相近。
如果以英超攻击型中场的平均数据与若塔进行比较,可以看到若塔在攻击属性方面全面爆表。唯有的不足,也是发生在失误控制、传中精度上。
A. 球场位置:左边锋、二前锋 突前前锋
从球场位置看,身高178公分的若塔可以胜任左边锋、二前锋和突前前锋的位置。他的对抗很勇敢、很有锐气,尽管速度力量不算占优,却敢于跟对手一较高下。
B. 速度不够快:快的是第一下动作频率
作为一名边锋,若塔的速度不算快,但是他第一下动作的频率,以及起速的节奏是相当不错的。
从动图上可以看到,若塔最大的特点就是脚下动作很灵巧、快速。在上赛季,他是五大联赛里,穿裆过人次数第二多的球员。不过在对手没有猛扑的情况下,若塔想要过人就比较困难,并不真正擅长突破。
再来看一下这次的进攻,若塔在欧国联对战克罗地亚的比赛中,发起进攻的第一步在于灵巧地转身摆脱。对手扑向他的时候,若塔通常都是通过灵巧性和动作频率取胜,但是随后的加速中他速度不算快,无法真正甩开对手。左脚传中球,却是直接出界。
C. 对抗有勇气:有一定的力量、但不具备优势
若塔身高有178公分,并不算是一个小个子,他的力量还是达到中等水准,并且有着很强的对抗气质,所以在比赛中可以看到若塔经常主动找对抗、硬钢对手。
从上面的动图可以看到,这一次若塔强行带球冲击防线,结果被克罗地亚球员完成断球。若塔随后就地反抢,缠着对手不断对抗,可惜被裁判吹罚犯规。在实战中,若塔踢得很塔夫,不过他并不算是对抗优秀的类型。
D. 擅长抢点:门前反应极快
若塔的一个显著特点,就是他相当擅长抢点得分。尤其是在后点的位置杀出,是他的一个杀手锏。
从上面的动图可以看到,若塔在队友送出传中的同时,突然从后点切入,抢在对手边后卫之前完成得分,让人印象深刻。
对战克罗地亚的欧国联比赛中,这一次队友传中给到后点,同样是若塔的头球,可惜砸在了门柱上。大家可以注意一下,若塔这一次的前插很快,随后压住边后卫发力头球,这是他的一个特点。
从统计数据来看,过去2个赛季若塔的活动范围与马内非常类似。不过需要注意的是,仅仅数据类似是不够的。若塔的确也擅长后点前插得分,与马内有些相同。但是在有球强突,无球冲击的爆发力方面,存在较大的差距。简单地将若塔视为马内替身,或许就有点盲目乐观了。
E. 双足射门能力均衡:擅长前插得分
在另外一个方面,若塔还有一个优势就是双足都有着很不错的射门能力。
若塔的前插意识很好,所以这种快下拿球后突然扭身射门,是他的一个特点。这一次的右脚爆射打近角,赢回一个进球。
即便换到左脚,若塔同样出色。他有着一定的身体柔韧性,以及较小的动作半径。这种电光火石间的射门动作,的确是若塔的优势。加之左脚射门也很棒,这个进球就是水到渠成的结果。
A. 擅长从边路内收后前插:将侧翼留给边后卫
从狼队的站位可以看到,若塔相对更靠近于中路。他喜欢绕着中锋希梅内斯活动,有着很强的穿插意识。在若塔内收之后,侧翼走廊是留给助攻的边翼卫,这一点与利物浦的战术是相吻合的。
从动图上可以看到,这一次若塔回撤拿球后分边,随即直接无球翻身前插。拿到格雷罗的过顶球后,面对门将冷静射门得分,收获自己在欧国联的第一个进球。
这一次的进攻也是一样的道理,在中圈前拿球的若塔,分球给到侧翼后就突然前插禁区。可惜穆蒂尼奥的挑传被封堵,不然若塔已经空切肋部成功。
B. 利物浦变阵4231:马内或者萨拉赫突前
若塔的到来,让利物浦变阵4231的人员配置更加完整。通过让葡萄牙人出任内收攻击的左边锋,马内或者萨拉赫突前,形成更强的冲击力。这样的打法,将会确保利物浦对于联赛的统治力。可以预见的是,若塔能够提供一部分的中路推进配合,与菲尔米诺、蒂亚戈形成共鸣。
从上面的动图可以看到,若塔曾经在狼队与希梅内斯之间完成过多次中路连续撞墙配合后的射门得分。这样的配合,在来到利物浦之后,有望在菲尔米诺身上实现。
不过需要注意的是,若塔总体来说传球精度不算很高。实战中,他更多的连续传递会出现皮球忽高忽低的落点。这一次跟葡萄牙队友配合时就有发生,若塔连续2次锋线上的回做,都让队友很不舒服,费利克斯最终只能回到外线,重新找寻进攻发起的机会。
C. 擅长乱战得分
最后需要说一下的,就是若塔较为擅长乱战得分。无论是补射、捡漏,还是门前捅一脚都是他的特点。
本赛季利物浦在久攻不下时,或许又能多出一个破门的得分点。这种角球进攻中的接力,若塔的门前反应是很快的。
尽管数据显示若塔有着类似于马内,但是从实战的观察感觉,若塔更像是更强壮一些、技术稍逊色一些的锋线版拉拉纳。他成为主将的可能性很小,但却可以成为合适体系下一块很好用的拼图。
就像曼城买入费兰-托雷斯,在漫长的联赛中,你总会需要更多合格的角色球员来帮助球队。若塔或许并不见得能够成为球队的中流砥柱,但是在联赛中肯定会有不错的贡献。他毕竟还很年轻,拥有一定的成长空间。在克洛普麾下,他还能有多大的成长呢?至少这样一名赛季进球15+的前锋到来,让克洛普在排兵布阵时,可以更有余地与底气。
#利物浦签下若塔#
漫谈大数据的思想形成与价值维度
漫谈大数据的思想形成与价值维度
清华基于微博分析获得的大数据幸福指数发现人们周六最幸福,相信大家心情不错,因此今天不谈枯燥的技术。关于大数据的思维、理念、方法论已经被反复消费了,本来我想直接进入交互环节,继挺兄还是要求先有一部分规定动作,我就先自弹自唱几十分钟,既然是漫谈,也不见得扣题,说到哪里是哪里。各位有问题,我可以择时择机插入讨论。
先说大数据思想的形成吧。自从人类开始文字和数字,数据就开始产生。就数据增长曲线而言,极小的初值确实要经历漫长的过程达到人类能感知的曲线拐点。谷歌前CEO埃里克·施密特曾给出了一个有趣的数据:从人类文明曙光初现到2003年一共产生的数据,只相当于2010年两天产生的数据量。而一旦越过拐点,“大数据摩尔定律”的滚滚铁轮下,指数效应爆发:最近两年产生的数据量相当于之前产生的全部数据量。
在漫长的数据蓄水过程中,数学和统计学逐渐发展,人们开始注意对数据的量化分析,在人类进入信息时代以前这样的例子就不胜枚举。比如经济上,黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。又如军事,“向林彪学习数据挖掘”的桥段不论真假,其背后量化分析的思想无疑有其现实基础,而这一基础甚至可以回推到2000多年前,孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。
到上世纪50-60年代,磁带取代穿孔卡片机,启动了数据存储的革命。磁盘驱动器随即发明,它带来的最大想象空间并不是容量,而是随机读写的能力,这一下子解放了数据工作者的思维模式,开始数据的非线性表达和管理。数据库应运而生,从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用),到网状数据库,再到现在通用的关系数据库。与数据管理同时发源的是决策支持系统(DSS),80年代演变到商业智能(BI)和数据仓库,开辟了数据分析——也就是为数据赋予意义——的道路。
那个时代运用数据管理和分析最厉害的是商业。第一个数据仓库是为宝洁做的,第一个太字节的数据仓库是在沃尔玛。沃尔玛的典型应用是两个:一是基于retaillink的供应链优化,把数据与供应商共享,指导它们的产品设计、生产、定价、配送、营销等整个流程,同时供应商可以优化库存、及时补货;二是购物篮分析,也就是常说的啤酒加尿布。关于啤酒加尿布,几乎所有的营销书都言之凿凿,我告诉大家,是Teradata的一个经理编的,人类历史上从没有发生过,但是,先教育市场,再收获市场,它是有功的。
仅次于沃尔玛的乐购(Tesco),强在客户关系管理(CRM),细分客户群,分析其行为和意图,做精准营销。
这些都发生在90年代。00年代时,科研产生了大量的数据,如天文观测、粒子碰撞,数据库大拿吉姆·格雷等提出了第四范式,是数据方法论的一次提升。前三个范式是实验(伽利略从斜塔往下扔),理论(牛顿被苹果砸出灵感,形成经典物理学定律),模拟(粒子加速太贵,核试验太脏,于是乎用计算代替)。第四范式是数据探索。这其实也不是新鲜的,开普勒根据前人对行星位置的观测数据拟合出椭圆轨道,就是数据方法。但是到90年代的时候,科研数据实在太多了,数据探索成为显学。在现今的学科里,有一对孪生兄弟,计算XX学和XX信息学,前者是模拟/计算范式,后者是数据范式,如计算生物学和生物信息学。有时候计算XX学包含了数据范式,如计算社会学、计算广告学。
2008年克里斯·安德森(长尾理论的作者)在《连线》杂志写了一篇《理论的终结》,引起轩然大波。他主要的观点是有了数据,就不要模型了,或者很难获得具有可解释性的模型,那么模型所代表的理论也没有意义了。跟大家说一下数据、模型和理论。大家先看个粗糙的图。
首先,我们在观察客观世界中采集了三个点的数据,根据这些数据,可以对客观世界有个理论假设,用一个简化的模型来表示,比如说三角形。可以有更多的模型,如四边形,五边形。随着观察的深入,又采集了两个点,这时发现三角形、四边形的模型都是错的,于是确定模型为五边形,这个模型反映的世界就在那个五边形里,殊不知真正的时间是圆形。
大数据时代的问题是数据是如此的多、杂,已经无法用简单、可解释的模型来表达,这样,数据本身成了模型,严格地说,数据及应用数学(尤其是统计学)取代了理论。安德森用谷歌翻译的例子,统一的统计学模型取代了各种语言的理论/模型(如语法),能从英文翻译到法文,就能从瑞典文翻译到中文,只要有语料数据。谷歌甚至能翻译克莱贡语(StarTrek里编出来的语言)。安德森提出了要相关性不要因果性的问题,以后舍恩伯格(下面称之为老舍)只是拾人牙慧了。
当然,科学界不认同《理论的终结》,认为科学家的直觉、因果性、可解释性仍是人类获得突破的重要因素。有了数据,机器可以发现当前知识疆域里面隐藏的未知部分。而没有模型,知识疆域的上限就是机器线性增长的计算力,它不能扩展到新的空间。在人类历史上,每一次知识疆域的跨越式拓展都是由天才和他们的理论率先吹起的号角。
2010年左右,大数据的浪潮卷起,这些争论迅速被淹没了。看谷歌趋势,”bigdata”这个词就是那个时间一下子蹿升了起来。吹鼓手有几家,一家是IDC,每年给EMC做digitaluniverse的报告,上升到泽字节范畴(给大家个概念,现在硬盘是太字节,1000太=1拍,阿里、Facebook的数据是几百拍字节,1000拍=1艾,百度是个位数艾字节,谷歌是两位数艾字节,1000艾=1泽);一家是麦肯锡,发布《大数据:创新、竞争和生产力的下一个前沿》;一家是《经济学人》,其中的重要写手是跟老舍同著《大数据时代》的肯尼思?库克耶;还有一家是Gartner,杜撰了3V(大、杂、快),其实这3V在2001年就已经被编出来了,只不过在大数据语境里有了全新的诠释。
咱们国内,欢总、国栋总也是在2011年左右开始呼吁对大数据的重视。
2012年子沛的书《大数据》教育政府官员有功。老舍和库克耶的《大数据时代》提出了三大思维,现在已经被奉为圭臬,但千万别当作放之四海而皆准的真理了。
比如要数据全集不要采样。现实地讲,1.没有全集数据,数据都在孤岛里;2.全集太贵,鉴于大数据信息密度低,是贫矿,投入产出比不见得好;3.宏观分析中采样还是有用的,盖洛普用5000个样本胜过几百万调查的做法还是有实践意义;4.采样要有随机性、代表性,采访火车上的民工得出都买到票的结论不是好采样,现在只做固定电话采样调查也不行了(移动电话是大头),在国外基于Twitter采样也发现不完全具有代表性(老年人没被包括);5.采样的缺点是有百分之几的偏差,更会丢失黑天鹅的信号,因此在全集数据存在且可分析的前提下,全量是首选。全量好的采样不均匀的大量。
再说混杂性由于精确性。拥抱混杂性(这样一种客观现象)的态度是不错的,但不等于喜欢混杂性。数据清洗比以前更重要,数据失去辨识度、失去有效性,就该扔了。老舍引用谷歌PeterNovig的结论,少数高质量数据+复杂算法被大量低质量数据+简单算法打败,来证明这一思维。Peter的研究是Web文本分析,确实成立。但谷歌的深度学习已经证明这个不完全对,对于信息维度丰富的语音、图片数据,需要大量数据+复杂模型。
最后是要相关性不要因果性。对于大批量的小决策,相关性是有用的,如亚马逊的个性化推荐;而对于小批量的大决策,因果性依然重要。就如中药,只到达了相关性这一步,但它没有可解释性,无法得出是有些树皮和虫壳的因导致治愈的果。西药在发现相关性后,要做随机对照试验,把所有可能导致“治愈的果”的干扰因素排除,获得因果性和可解释性。在商业决策上也是一样,相关性只是开始,它取代了拍脑袋、直觉获得的假设,而后面验证因果性的过程仍然重要。
把大数据的一些分析结果落实在相关性上也是伦理的需要,动机不代表行为。预测性分析也一样,不然警察会预测人犯罪,保险公司会预测人生病,社会很麻烦。大数据算法极大影响了我们的生活,有时候会觉得挺悲哀的,是算法觉得了你贷不贷得到款,谷歌每调整一次算法,很多在线商业就会受到影响,因为被排到后面去了。
下面时间不多了,关于价值维度,我贴一些以前讲过的东西。大数据思想中很重要的一点是决策智能化之外,还有数据本身的价值化。这一点不赘述了,引用马云的话吧,“信息的出发点是我认为我比别人聪明,数据的出发点是认为别人比我聪明;信息是你拿到数据编辑以后给别人,而数据是你搜集数据以后交给比你更聪明的人去处理。”大数据能做什么?价值这个V怎么映射到其他3V和时空象限中?
再贴上解释。“见微”与“知著”在Volume的空间维度。小数据见微,作个人刻画,我曾用《一代宗师》中“见自己”形容之;大数据知著,反映自然和群体的特征和趋势,我以“见天地、见众生”比喻之。“著”推动“微”(如把人群细分为buckets),又拉动“微”(如推荐相似人群的偏好给个人)。“微”与“著”又反映了时间维度,数据刚产生时个人价值最大,随着时间decay最后退化为以集合价值为主。
“当下”和“皆明”在Velocity的时间维度。当下在时间原点,是闪念之间的实时智慧,结合过往(负轴)、预测未来(正轴),可以皆明,即获得perpetual智慧。《西游记》里形容真假孙悟空,一个是“知天时、通变化”,一个是“知前后、万物皆明”,正好对应。为达到皆明,需要全量分析、预测分析和处方式分析(prescriptiveanalytics,为让设定的未来发生,需要采取什么样的行动)。
“辨讹”和“晓意”在Variety的空间维度。基于大体量、多源异质的数据,辨讹过滤噪声、查漏补缺、去伪存真。晓意达到更高境界,从非结构数据中提取语义、使机器能够窥探人的思想境界、达到过去结构化数据分析不能达到之高度。
先看知著,对宏观现象规律的研究早已有之,大数据的知著有两个新特点,一是从采样到全量,比如央视去年“你幸福吗”的调查,是街头的采样,前不久《中国经济生活大调查》关于幸福城市排名的结论,是基于10万份问卷(17个问题)的采样,而清华行为与大数据实验室做的幸福指数(继挺兄、我、还有多位本群群友参与),是基于新浪微博数据的全集(托老王的福),这些数据是人们的自然表达(而不是面对问卷时的被动应对),同时又有上下文语境,因此更真实、也更有解释性。北上广不幸福,是因为空气还是房价或教育,在微博上更容易传播的积极情绪还是消极情绪,数据告诉你答案。《中国经济生活大调查》说“再小的声音我们都听得见”,是过头话,采样和传统的统计分析方法对数据分布采用一些简化的模型,这些模型把异常和长尾忽略了,全量的分析可以看到黑天鹅的身影,听到长尾的声音。
另一个特点是从定性到定量。计算社会学就是把定量分析应用到社会学,已经有一批数学家、物理学家成了经济学家、宽客,现在他们也可以选择成为社会学家。国泰君安3I指数也是一个例子,它通过几十万用户的数据,主要是反映投资活跃程度和投资收益水平的指标,建立一个量化模型来推知整体投资景气度。
再看见微,我认为大数据的真正差异化优势在微观。自然科学是先宏观、具体,进入到微观和抽象,这时大数据就很重要了。我们更关注社会科学,那是先微观、具体,再宏观、抽象,许小年索性认为宏观经济学是伪科学。如果市场是个体行为的总和,我们原来看到是一张抽象派的画,看不懂,通过客户细分慢慢可以形成一张大致看得懂的现实图景,不过是马赛克的,再通过微分、甚至定位个人,形成高清图。我们每一个人现在都生活在零售商的bucket中(前面说的乐购创造了这个概念),最简单的是高收入、低收入这类反映背景的,再有就是反映行为和生活方式的,如“精打细算”、“右键点击一族”(使用右键的比较techsavvy)。反过来我们消费者也希望能够获得个性化的尊崇,Nobodywantstobenobodytoday。
了解并掌握客户比以往任何时候都更重要。奥巴马赢在大数据上,就是因为他知道西岸40-49岁女性的男神是乔治·克鲁尼,东岸同样年龄段女性的偶像则是莎拉·杰西卡·帕克(《欲望都市》的主角),他还要更细分,摇摆州每一个郡每一个年龄段每一个时间段在看什么电视,摇摆州(俄亥俄)1%选民随时间变化的投票倾向,摇摆选民在Reddit上还是Facebook上,都在其掌握之中。
对于企业来说,要从以产品为中心,转到以客户(买单者)甚至用户(使用者)为中心,从关注用户背景到关注其行为、意图和意向,从关注交易形成转到关注每一个交互点/触点,用户是从什么路径发现我的产品的,决定之前又做了什么,买了以后又有什么反馈,是通过网页、还是QQ、微博或是微信。
再讲第三个,当下。时间是金钱,股票交易就是快鱼吃慢鱼,用免费股票交易软件有几秒的延迟,而占美国交易量60-70%的高频程序化交易则要发现毫秒级、低至1美分的交易机会。时间又是生命,美国国家大气与海洋管理局的超级计算机在日本311地震后9分钟发出海啸预警,已经太晚。时间还是机会。现在所谓的购物篮分析用的其实并不是真正的购物篮,而是结帐完的小票,真正有价值的是当顾客还拎着购物篮,在浏览、试用、选择商品的时候,在每一个触点影响他/她的选择。数据价值具有半衰期,最新鲜的时候个性化价值最大,渐渐退化到只有集合价值。当下的智慧是从刻舟求剑到见时知几,原来10年一次的人口普查就是刻舟求剑,而现在东莞一出事百度迁徙图就反映出来了。当然,当下并不一定是完全准确的,其实如果没有更多、更久的数据,匆忙对百度迁徙图解读是可能陷入误区的。
第四个,皆明。时间有限,就简单说了。就是从放马后炮到料事如神(predictiveanalytics),从料事如神到运筹帷幄(prescriptiveanalytics),只知道有东风是预测分析,确定要借箭的目标、并给出处方利用草船来借,就是处方性分析。我们现在要提高响应度、降低流失率、吸引新客户,需要处方性分析。
辨讹就是利用多源数据过滤噪声、查漏补缺和去伪存真。20多个省市的GDP之和超过全国的GDP就是一个例子,我们的GPS有几十米的误差,但与地图数据结合就能做到精确,GPS在城市的高楼中没有信号,可以与惯性导航结合。
晓意涉及到大数据下的机器智能,是个大问题,也不展开了。贴一段我的文章:有人说在涉及“晓意”的领域人是无法替代的。这在前大数据时代是事实。《点球成金(Moneyball)》讲的是数量化分析和预测对棒球运动的贡献,它在大数据背景下出现了传播的误区:一、它其实不是大数据,而是早已存在的数据思维和方法;二、它刻意或无意忽略了球探的作用。从读者看来,奥克兰竞技队的总经理比利·比恩用数量化分析取代了球探。而事实是,在运用数量化工具的同时,比恩也增加了球探的费用,军功章里有机器的一半,也有人的一半,因为球探对运动员定性指标(如竞争性、抗压力、意志力等)的衡量是少数结构化量化指标无法刻画的。大数据改变了这一切。人的数字足迹的无意识记录,以及机器学习(尤其是深度学习)晓意能力的增强,可能逐渐改变机器的劣势。今年我们看到基于大数据的情感分析、价值观分析和个人刻画,当这些应用于人力资源,已经或多或少体现了球探承担的作用。
以上是小编为大家分享的关于漫谈大数据的思想形成与价值维度的相关内容,更多信息可以关注环球青藤分享更多干货
发表评论