结构语言认知与大数据洞察
引言
三百年前,英国一名缝纫用品商约翰·格朗特(John Graunt)采用一种新方法推算出鼠疫时期伦敦的人口数,这种方法无需逐一累加计算就可以获得在当时看来较为准确的结果,后来这种方法演化为统计学。这种通过“样本”探索客观世界“全貌”的方式产生于“非全量数据”时代,受限于信息存储和算力,人们运用这种方法对客观世界进行更加精准的判断,由此衍生出科学的真知。虽然基于样本的量化分析具有充分的客观性,但有一点被忽略了,人类所有的知识都是用语言写成的;换个角度说,我们对客观世界的思考是凝结在语言结构上的,同样,对样本数据的统计学意义上的分析都建立在逻各斯中心主义的语言系统之中,深深地打上结构语言逻辑的烙印。与之完全不同的是,全量数据时代来临,大数据出现了,运算力的提升将会让大数据形成一种新的脱离语言结构的洞察,这类洞见会为人类提供非比寻常的价值与意义。如果按照康德“纯粹理性”的概念划分,将算法想象成一个人,去思辨它所能达到的认知极限。结构语言认知是以人类知识经验为基础的“纯粹理性”;而大数据洞察是不受经验支配(尤其是感性经验)的“实践理性”,是一种“先验观念”。在这个意义上说,数据来源于客观世界,大数据以一种新的凝结方式形成颠覆以往的真知。
一、认知进程:结构语言的演进历程与特征
纵观人类语言发展的历史,语言思维的进化映射了社会历史发展的变迁。农耕社会,人们见到难以理解的自然现象,使用“象征”的方式来描绘自己的所见所闻和感受,再加上天马行空的想象形成了原始神话,这是原始“具象”思维的典型特征。比如“旦”字的象形寓意为“太阳从海平面升起”,原始人用一个圆中间加一个点描绘了他们在早晨看到的那个景象,这个景象构成该字的原始含义:“清晨”。后来,随着社会的不断进步,人类认知不断发展与深化,这类具有感性色彩的形象化语言难以满足文明进步的需求,语言开始向“引申义”演进,逻辑思维慢慢出现了——一种典型的现代思维。在描述对象时,通过归纳与概括客观对象的一般性特征形成概念。例如“解”字的原始义是“分解”——庖丁用刀将牛大卸八块的这一过程被称为“解”。后来,人们不仅分解牛,还会“分解”相对于牛而言更为抽象化的事物;并且将与“解”有关的所有客观对象进行抽象概括,总结出相对于“分解”更为形而上的含义“理解”,这就是“解”字的“引申义”,它的概念内涵不断深化,生发出许多形而上学的抽象意义。此外,伴随着生产力的不断进步发展,语言表达趋于更加复杂的交互关系,概念主体之间相互交织,形成“命题”。例如,明天要么下雨要么晴天。在“晴天”与“雨天”两个概念主体之间形成一个不相容“选言”命题,康德称之为“知性的纯然形式”,一种剥离出内容的纯粹理性形式,由此建立起一整套语言的逻辑推理和矛盾规则。“明天要么下雨要么晴天”的矛盾命题为“明天不下雨且不晴天”。当你阅读这句话的时候会感到其表达十分的“不合常理”,这就是结构语言脱离“事实真”而步入“逻辑真”,形成独立的话语体系,康德从认识论上对这一点有深入的讨论,当然也包含了结构语言逻辑。直言、联言、选言和假言等命题形成了人类的基本语言规则,铸造了话语体系,人类语言剥离出“具象”的外壳,抽离出纷乱复杂的内容,而形成一般性规律。基于结构语言的认知不仅在空间维度成为知识系统(思想体系),还在时间轴上成为一种线性关系(历史溯源)。这种语言结构的思维惯性体现在对数据的认知上,就是人们总是愿意用有限的样本数据不断去印证“因果、分类和推理”这类基于语言结构基础的逻辑性认知。可是,在今天这样一个全量数据时代,我们不妨大胆设想:有没有一种新的认知形成方式可以真正颠覆建立在结构语言网上的那些知识,甚至瓦解逻各斯中心规则本身?让数据自己“发声”,拥有“意识与思想”。
二、底层逻辑:算法是对逻各斯中心主义的真正解构
人们在“非全量数据”时代对数据的理解与应用没有脱离这种思维痕迹的窠臼,通过采集“样本数据”进行分析,进而印证各类逻辑关系之间的正确性,并且称之为“量化的”。数据作为客观世界采集来的信息被不断分析,用以佐证建立在人类语言结构上的认知。可是,全量数据时代到来,大数据的规模效应对这种统计学意义上的认知的合法性构成威胁;并且最终指向,无论统计学如何进行严密的计算,样本数据本身在越过一定的阈值之后永远达不到稳定,其精确性也越来越遭到质疑。这就好比,无论我们怎样绞尽脑汁地运用无比高超的论证方法去佐证“月宫玉兔”存在的可能性,其结论都会被人类登月时的发现所证伪——月球只是一个寸草不生的星球,登月行为本身越过了“月宫玉兔”的认知阈值。在非全量数据时代,统计学家努力弥补因采样过程不规范而造成的误差,尽量提升统计结果的科学性。因此,统计学家认为只要不断提升样本采集的随机性,就可以增加分子结果的准确性,并且发明出一系列的测量方法,以保证在有限的数据量下得到一个自认为的真理性认知——无比高明的方法论证“月宫玉兔”的存在可能性,并且这类认知在人类的结构语言下被描述,形成知识。直到大数据到来,算法彻底颠覆了认知形成的中间过程,并且正逐步越过语言结构的系统形成新的洞见。算法不再局限于“非全量数据”,也不再关注准确性,而是通过大量的数据训练,经过“输入”与“输出”探寻事物之间的关联,对数据的分析也不囿于“因果关系”——对认知的逻辑化描述。通过大数据的输入,观察输出结果的增量和减量变化,反映客观主体间的关系,这种关系可能难以被解释,但它确实存在,并且能够有效地预测未来。这类认知经由大数据的算法凝结而成,成为一种新的可能性,颠覆以往结构语言生产的知识和话语体系,对逻各斯中心主义形成真正的颠覆与解构。大数据洞察非常类似“黑箱理论”,我们可能不了解箱子内到底是什么,但是按照如此方式操作,就会得到相应的结果。不需要用语言去编织和理解箱子内的本质与意义,而是直接通过算法,输入全量数据直接产生结果,形成预测。
三、新的价值:数据的非理性意义
话语体系在一个区域范围内形成某个群体共有的认知结构,这就是意识形态,从心理学上说是集体无意识。人们在对事物形成认知的时候,先进行事实判断,再进行价值判断,价值观会左右事实理解,从而干扰事实判断本身;这与语言结构认知的特征有关,因为人类的语言不仅包含了逻辑理性一面,还包含着感性的一面。个人的认知差异不会影响稳固的集体认知结构,如果对意识形态稍作了解就会发现,人们的个性化言语可能会千差万别、千姿百态,但是其背后的语言结构却根深蒂固且坚如磐石。大数据不同,它基于算法,形成的认知没有感性因素的干扰,在全量数据模式的前提下,样本=总体,通过输入与输出得到结果。除此之外,与统计学的精确性要求不同,数据的混杂型可能在大数据时代成为新的价值,并且常常形成结构性的认知突破结果。当今人类掌握了以往所不具备的运算力和存储力,虽然数据的复杂性会导致结构化的困难,但是随着掌握数据能力的不断加强,人们可以及时解决这些非结构性的困难。其实数据的不一致性反映了客观世界的真实,参差不齐的大数据可能会提供不同的洞见,具备数据的非理性价值。数据的非结构性为我们揭示了世界的丰富多彩和变化多端,而不是像统计学那样告诉我们世界是整齐划一的。
四、趋势与思考
大数据正在成为或者已经成为“新的上帝”。它绕过语言结构的系统而直接形成认知,也就是说数据开始具有了“自我意识”,数据能够形成“自我认知”;更为关键的是数据产生的洞察与认知在“元宇宙”中正在逐步形成改变世界的现实力量;它不仅仅是生产要素,还可能成为社会的重要组成部分。当今社会独有一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。或许在不久的将来,大数据将带来人与数据之间新的伦理思考——人与数据可能会产生新的矛盾。这就好比工业革命时期,人与机器的矛盾一样。不管怎样,大数据时代已经来临,并且嵌入人类生活的方方面面,面对这样的变化,无动于衷是不可能的,因为你已经“一只脚踩入了历史的长河之中”。
作者:丁超杰,来自中国建设银行远银中心兰州分中心。
本文刊载于《客户世界》2022年11月刊。
转载请注明来源:结构语言认知与大数据洞察
噢!评论已关闭。