近年來,隨著電腦快速計算的演進,大數據時代來臨。對於大量資料帶來的許多問題,古典的統計方法已經不夠解決了,轉而尋求新的統計方法論。考慮一個簡單的模式: 資料矩陣(data matrix) — 由伴隨d維度資訊的n個個體資料所組成。基本的研究核心就是考慮這樣的資料矩陣,如何找到好的統計方法,在 n 和 d 各樣不同的情況下,得到估計的一致性和大樣本性質,進一步幫助統計推論。這樣的問題伴隨許多有趣且重要的研究,包括了隨機矩陣,隨機幾何,極值問題等等。
降維方法與選模問題
在巨量資料的時代下,降維方法與選擇正確模型和變數是重要的工作。在許多領域,包括市場營銷,金融,人工智能,機器學習,生物醫學,工業工程等等,很多有價值的研究,需要高質量的分析數據作開發和深化。本所研究領堿涵蓋了許多方法,比如說Lasso迴歸(least absolute shrinkage and selection operator regression),稀疏迴歸(sparse regression)和貝式變數選擇法(Bayesian variable selection)等等。
影像處理
影像辦識和資料可視化是目前本所研究重點。目前影像辨識已可實現在人臉辨識,車牌辨識,異物偵測,醫學圖像檢查等功能。高雜訊影像處理是其中的問題,高度的雜訊常常帶來假像,誤導資料科學家的判斷,例如在分子生物結構的3D重建中,大量的雜訊會誤導機器學習模式得到假式分子結構體。在極值理論中,科學家利用訊號,雜訊強度值來設計統計判別式來作為訊雜的分離。在資料可視化方面,主成份分析(Principal Components Analysis)是一種線性降維的經典方法,而近年來t-SNE(t-distributed stochastic neighbor embedding,t-隨機鄰近嵌入法)成為其主流。t-SNE是一種非線性的機器學習降維方法,具有降維時保持局部結構的傑出能力,由 Laurens van der Maaten 和 Geoffrey Hinton 於 2008 年提出。