摘要: 近年 AI 發展快速,然而在酷炫技術的背後,卻是由深奧的統計學作為基底,一步一步奠基 AI 的發展。下文是過去 50 年來,推動 AI 發展的 8 大統計學思想。
▲來源:TechOrange
儘管深度學習和人工智慧已經成為家喻戶曉的名詞,但推動這場革命的統計學突破卻鮮為人知。
在最近的一篇論文中,哥倫比亞大學的統計學教授 Andrew Gelman 和芬蘭阿爾託大學的電腦科學教授 Aki Vehtari 詳細列舉了過去 50 年中最重要的統計學思想。
作者將這些統計學思想歸類為 8 大類別:
1. 反事實因果推斷(counterfactual causal inference)
2. 自舉法和基於模擬的推斷(bootstrapping and simulation-based inference)
3. 超參數化模型和正則化(overparameterized models and regularization)
4. 貝葉斯多級模型(Bayesian multilevel models)
5. 通用計算演算法(generic computation algorithms)
6. 自適應決策分析(adaptive decision analysis)
7. 魯棒性推斷(robust inference)
8. 探索性數據分析(exploratory data analysis)
1. 反事實因果推斷
在假設條件下,因果識別是可能的,而且可以嚴格地陳述這些假設,並透過設計和分析以各種方式解決它們。
不同領域發展了不同的因果推斷方法。在計量經濟學中,是結構模型及其對平均治療效果的影響,在流行病學中,是對觀察數據的推斷。
基於因果識別是認知的核心任務,因此應該是一個可以數學形式化的可計算問題。路徑分析和因果發現可以根據潛在結果來建構,反之亦然。
2. 自舉法和基於模擬的推斷
統計學的一個趨勢是用計算來替代數學分析,甚至在「大數據」分析開始之前就已經開始了。
自舉法將估計視為數據的近似充分統計量,並將自舉分佈視為數據抽樣分佈的近似值。
同時,由於自舉法的普遍性和簡單的計算實現,讓它能夠應用在那些無法使用傳統解析近似的場景,從而獲得了極大的影響力。
在置換測試中,重採樣數據集是透過隨機打亂目標值來打破預測變數和目標之間的(可能的)依賴關係來生成的。
參數自舉、先驗和後驗預測檢查、基於模擬的校準都是從一個模型中建立複製的數據集,而不是直接從數據中重新取樣。
在分析複雜的模型或演算法時,從已知的數據生成機制中取樣通常被用來建立模擬實驗,以補充或取代數學理論。
3. 超參數化模型和正則化
統計學一個主要的變化,是使用一些正則化程序來擬合具有大量參數的模型,從而獲得穩定的估計和良好的預測。
這是為了在獲得非參數或高度參數化方法的靈活性的同時,避免過度擬合問題。其中,正則化可以作為參數或預測曲線上的懲罰函數來實現。
模型的早期案例包括:馬爾可夫隨機場、樣條曲線和高斯過程、分類和迴歸樹 、神經網絡、小波收縮、最小二乘法的替代方案以及支持向量機。
貝葉斯非參數先驗在無限維機率模型族上也有了巨大的發展, 這些模型都有一個特點,就是隨著樣本量的擴大而擴大,而且參數並不總是有直接的解釋,而是一個更大的預測系統的一部分。
4. 貝葉斯多級模型
多級或分層模型具有因組而異的參數,使模型能夠適應集群抽樣、縱向研究、時間序列橫截面數據、薈萃分析和其他結構化設置。
多級模型可以被視為貝葉斯模型,因為它們包括未知潛在特徵或變化參數的機率分佈。相反,貝葉斯模型有一個多層次結構,具有給定參數的數據和給定超參數的參數的分佈。
同樣,貝葉斯推斷不僅作為一種將先驗資訊與數據相結合的方式,而且也可以作為一種為推斷和決策考慮不確定性的方式。
5. 通用計算演算法
創新統計演算法是在統計問題結構的背景下發展的。EM 演算法、吉布斯採樣、粒子濾波器、變分推理和期望傳播以不同的方式利用統計模型的條件獨立結構。
梅特羅波利斯-黑斯廷斯演算法和哈密頓蒙特卡羅較少受到統計問題的直接影響,它們與早期採用優化演算法計算最小二乘和最大似然估計的方式相似。
被稱為近似貝葉斯計算的方法透過模擬生成模型,而不是評估似然函數來獲得後驗推斷,如果似然的分析形式難以解決或計算成本很高,那麼就可以使用這種方法。
6. 自適應決策分析
透過效用最大化、錯誤率控制和經驗貝葉斯分析,以及在貝葉斯決策理論和錯誤發現率分析中,可以看出適應性決策分析的發展。
統計決策分析的一些重要發展涉及貝葉斯優化和強化學習,它們與 A/B 測試實驗設計的復興有關。
算力的發展,使得用高斯過程和神經網絡等參數豐富模型作為函數先驗,並執行大規模強化學習成為可能。例如建立 AI 來控制機器人,生成文本,並玩圍棋等遊戲。
這項工作大部分都是在統計之外完成的,使用的方法包括非負矩陣分解、非線性降維、生成對抗網絡以及自編碼器,而這些都是用於查找結構和分解的無監督學習方法。
7. 魯棒性推斷
魯棒性的概念是現代統計學的核心,它的意義在於即使模型的假設不正確,也依然可以被使用。
統計理論的一個重要部分就是開發在違反這些假設的情況下運行良好的模型。
一般而言,魯棒性在統計研究中的主要影響不在於特定方法的開發,而在於統計程序的評估,其中數據-生成過程不屬於擬合概率模型的類別。
研究人員對魯棒性的擔憂與作為現代統計數據特徵的密集參數化模型相關,這將對更普遍的模型評估產生影響。
8. 探索性數據分析
探索性數據分析強調漸近理論的侷限性,以及開放式探索和交流的相應好處。這符合統計建模的觀點,也就是更側重於發現而不是固定假設的檢驗。
計算的進步使從業者能夠快速構建大型複雜模型,從而導致統計圖形的思想有助於理解數據、擬合模型和預測之間的關係。
這 8 大思想建構了後續的 AI 發展
由於建模的需求不可避免地隨著計算能力的增長而增長,因此分析性的總結和近似的價值也是如此。
同時,統計理論可以幫助理解統計方法的工作原理,數學邏輯可以激發數據分析的新模型和方法。
作者認為這些方法開啟了對統計的新思考方式和數據分析的新方法。
反事實框架將因果推斷置於統計或預測框架內,在該框架中,可以根據統計模型中未觀察到的數據精確定義和表達因果估計,並與調查抽樣和缺失數據插補中的思想聯繫起來。
自舉法打開了一種隱式非參數建模形式的大門。可用於複雜調查、實驗設計和其他無法進行分析計算的數據結構的偏差校正和方差估計。
過參數化模型和正則化基於從數據中估計其參數的能力來形式化和概括了現有的限制模型大小的做法,這與交叉驗證和信息標準有關。其中,正則化允許用戶在模型中包含更多的預測變數,而不必擔心過度擬合。
多級模型形式化了從數據中估計先驗分佈的「經驗貝葉斯」技術,在更廣泛的問題類別中使用具有更高計算和推理穩定性的方法。
通用計算演算法使應用從業者能夠快速擬合用於因果推理、多級分析、強化學習和許多其他領域的高級模型,從而對統計學和機器學習中的核心思想產生更廣泛的影響。
自適應決策分析將最優控制的工程問題與統計學習領域聯繫起來,遠遠超出了古典的實驗設計。
魯棒性推斷允許對不同程序進行正式評估和建模的方式來構建這些問題,以處理對異常值和模型錯誤指定的其他模糊問題,而魯棒推理的想法為非參數估計提供了信息。
探索性數據分析將圖形技術和發現推向了統計實踐的主流,使用這些工具來更好地理解和診斷適合數據的新的複雜概率模型類別的問題。
論文作者 Andrew Gelman 是哥倫比亞大學統計學教授。他曾獲得美國統計學會傑出統計應用獎、統計學會主席理事會 40 歲以下傑出貢獻獎。
轉貼自: 科技報橘
若喜歡本文,請關注我們的臉書 Please Like our Facebook Page: Big Data In Finance
留下你的回應
以訪客張貼回應