网上赌场给红利-网上赌场在线平台_百家乐平注常赢玩法更_全讯网香港赛马资讯 (中国)·官方网站

Distributed Hard Screening for Massive Data海量數據的分布式硬篩選

時間:2023-10-30 00:00    來源:     閱讀:

光華講壇——社會名流與企業家論壇第6629期

主題Distributed Hard Screening for Massive Data海量數據的分布式硬篩選

主講人西安交通大學 徐晨教授

主持人西南財經大學 常晉源教授

11月1日 15:00-16:00

舉辦地點:西南財經大學光華校區光華樓1003會議室

主辦單位:數據科學與商業智能聯合實驗室 統計學院 科研處

主講人簡介:

徐晨教授畢業于加拿大不列顛哥倫比亞大學統計系,師從國際知名統計學家加拿大皇家科院院士陳嘉驊。畢業后赴美國賓州州立大學做博士后研究。現任西安交通大學特聘教授、加拿大渥太華大學長聘副教授。徐晨教授長期從事大數據統計機器學習的基礎理論與方法研究,在大數據特征篩選/降維、再抽樣理論與方法、分布式統計分析等領域取得系統性創新成果,做出多個原創性貢獻。在統計學頂刊Journal of American Statistical Association、機器學習頂刊Journal of Machine Learning Research、IEEE Transactions on Pattern Analysis & Machine Intelligence和綜合學科類頂刊National Science Review等國際著名雜志發表研究論文40余篇;主持加拿大自然科學探索基金、中國國家重點研發計劃項目,參與中國國家自然科學基金重大項目、鵬城實驗室重大科研攻關任務項目。研究獲得加拿大統計學會最佳學生論文獎(2010)、加拿大國家統計科學研究所杰出博士后導師獎(2021)、粵港澳大灣區首屆國際算法算例大賽冠軍(2022)等。現任統計學權威雜志JASA、EJS的副主編,曾任CJS、Neurocomputing、Survey Sampling等國際知名雜志的編委或客座主編。

內容簡介

Feature screening is a powerful tool for modeling high dimensional data. It aims at reducing the dimensionality by removing most irrelevant features before an elaborative analysis. When a dataset is massive in both sample size N and dimensionality p, classic screening methods become inefficient or even infeasible due to the high computational burden. In this paper, we propose a distributed screening method for the large-N-large-p setup. The new method is built upon an ADMM updating procedure of L0-constrained consensus regression, where data are processed in m manageable segments by multiple local computers. In the procedure, the local computers improve screening results iteratively by communicating with each other via a global computer. The joint effects between features are also accounted naturally in the screening process. It thus provides a computationally viable and reliable route for screening features with big data. Under mild conditions, we show that the proposed updating procedure is convergent and leads to an accurate screening even when m = o(N). Moreover, with a proper starting value, the procedure enjoys the sure screening property within finite number of iterations. The promising performance of the method is supported by extensive numerical studies.

特征篩選是高維數據建模的有力工具。其目標是在進行詳盡分析之前通過去除最不相關的特征來對數據降維。當數據集在樣本量N和維度p都非常大時,傳統的篩選方法由于過高的計算負擔而變得低效甚至不可行。針對這一問題,本文提出了一種針對“大N大p”情況的分布式篩選方法。這種新方法是基于ADMM更新程序構建的L0約束下的一致回歸,其中數據可拆分為m個可控分段并分別由多個本地計算機處理。在此過程中,本地計算機通過與全局計算機通信來迭代改進篩選結果。在篩選時,特征之間的交互效應也自然地被納入考量。因此,該方法為大數據特征篩選提供了可行且可靠的途徑。在一般的條件下,我們證明了所提出的更新程序是收斂的,并且即使當m=o(N)時也能實現準確的篩選。此外,當選取了適當的初始值后,該程序在有限次迭代中具備確定篩選性。大量數值研究證明了該方法具備良好性能。

西南財經大學  版權所有 webmaster@swufe.edu.cn     蜀ICP備 05006386-1號      川公網安備51010502010087號
大亨百家乐游戏| 网上百家乐赌场| 飞天百家乐官网的玩法技巧和规则 | 致胜百家乐的玩法技巧和规则| 新疆| 百家乐透明出千牌靴| 网上百家乐官网的赌博网站| 澳门百家乐怎玩| 百家乐官网是不是有技巧| 威尼斯人娱乐代理| 三国百家乐官网的玩法技巧和规则 | 百家乐保单机解码| 澳门百家乐官网哪家信誉最好| 太阳城丝巾| 属虎与属鼠做生意好吗| 游戏机百家乐官网作弊| 威尼斯人娱乐城网址是什么| 3U百家乐官网的玩法技巧和规则| 环球国际娱乐| 网上百家乐游戏玩法| 联众百家乐官网的玩法技巧和规则 | 赌博粉| 香港百家乐赌城| 百家乐官网打印机破解| 贵州省| 大发888加速器| 百家乐强弱走势| 百家乐官网网哪一家做的最好呀 | 百家乐技巧辅助软件| 爱拼百家乐官网的玩法技巧和规则 | 百家乐现金投注信誉平台| 澳门百家乐官网娱乐城打不开| 澳门顶级赌场金沙| 百家乐如何看面| 百家乐官网新送彩金| 百家乐官网必胜法hk| 淘金盈国际线上娱乐| 大发888游戏平台hgdafa888gw| 百家乐软件代理| 百家乐与龙虎斗怎么玩| 百家乐视频世界|