




深圳先進院在內存大數據查詢引擎性能優化研究方面取得突破
近日,中國科學院深圳先進技術研究院數字所異構智能計算中心在內存大數據查詢引擎性能優化研究方面取得重要進展,相關成果以“LOCAT: Low-Overhead Online Configuration Auto-Tuning of Spark SQL Applications”為題被數據庫領域的CCF A類會議ACM SIGMOD 2022 (數據管理國際會議,Special Interest Group on Management Of Data) 錄用為長文。深圳先進院異構智能計算中心碩士生辛錦瀚為論文第一作者,喻之斌研究員為通訊作者。
隨著Spark SQL框架的廣泛使用,Spark SQL的配置參數優化始終是一個難以解決的問題。現有的機器學習優化方法由于優化時間成本高、無法很好適應所處理的數據量變化而難以實際應用。該項研究針對這一難題研究出了低時間成本、能夠適應輸入數據集大小變化的配置自動優化方法LOCAT,由三個核心技術組成。首先,我們設計了query與配置參數敏感性分析技術。在收集訓練樣本時,從給定工作負載中識別并刪除與配置參數不敏感的query。其次,對于其余的query,LOCAT通過計算相關性系數來識別重要的配置參數,然后應用核主成分分析來降低配置參數搜索維度。最后,LOCAT設計了感知數據集大小的貝葉斯優化來搜索最優配置,以便能根據數據集的大小自動優化性能。基于TPC-DS、TPC-H與HiBench測試基準的實驗表明,分別在8臺高性能x86服務器的集群環境與4臺高性能ARM服務器的集群環境下,較當前最先進的自動調優解決方案LOCAT降低優化時間成本達9.7倍,而且獲得了高達2.8倍的性能提升。
ACM SIGMOD數據管理國際會議(Special Interest Group on Management Of Data.)是由美國計算機協會(ACM)數據管理專業委員會(SIGMOD)發起,在數據庫領域具有最高學術地位的國際性學術會議,被中國計算機學會(CCF)定級為A 類國際學術會議。
上述工作得到重點研發計劃課題“軟件定義的云計算資源管理”和國家自然科學基金等項目的資助。
LOCAT框架
LOCAT篩選SQL query
LOCAT提升優化性能
LOCAT降低優化成本