专业简介
数据科学是一门涉及到统计,数据分析及其相关方法的科学,借用数据去理解和分析实际现象”。数据科学使用到数学、统计、信息科学和计算机科学等各个学科的技术和理论,特别是以下分支:机器学习, 分类, 聚类分析,数据挖掘,数据库和可视化。大多数院校的Data Science属于STEM学科。
数据科学可以应用在哪些领域?--以哥大的数据科学所的研究领域为例:
Ÿ Financial and Business Analytics 金融与商业分析(例如数据科学帮助解决诈骗邮件的问题;数据科学帮助解决量化交易收益最 大化的问题;数据科学在大规模商业银行中的应用)
Ÿ Health Analytics 健康分析(哥伦比亚大学数据健康分析中心的研究员和教授来自医学、生物、公共卫生、生物信息、计算机、应用数学与统计专业。目标是通过数据驱动的方和对健康过程的理解来改善个人健康和医疗系统。案例: Real-time Monitoring and Data Visualization for the Management of Intracranial Hypertension in the Intensive Care Unit 重症监护病房颅内高压管理的实时监测和数据可视化)
Ÿ Smart Cities 智慧城市(哥大智慧城市研究中心的研究涵盖面很广,例如检测和消除城市基础设施老化的问题,提高智能电网技术,计算和沟通交通拥挤时的最 佳交通路线等)
Ÿ Computational Social Science 计算社会科学(哥伦比亚大学计算社会科学研究中心,帮助缺少编程和技术背景的研究人员,解决社会科学的问题。例如利用移动电话和卫星数据绘制贫困地图,解决贫困问题(孟加拉地区))
Ÿ Cybersecurity 网络安全(我们致力于开发在整个生命周期内保持数据安全和私有性的能力。该中心与计算机科学和电气工程系,以及商学院合作研究。)
1.2 项目设置
数据科学项目主要是面向职业培训、侧重工业界需求,所以设置博士学位的学校比较少。为了符合工业界需求,专门的数据科学项目课程都很实际,侧重培养学生分析数据、解决问题的实际动手能力,课程一般不涉及理论知识。
如果要读博士,申请统计和生物统计专业最对口,其次是计算机或者电子工程做机器学习数据挖掘这些相关方向的。另外数学、IEOR、经济等专业也有少数博士生做的方向可以转到数据科学上。
1.3 课程设置
核心课程有 (以哥伦比亚大学数据科学项目为例):
统计和计算机课程
l Introduction to Data Science
l Computer Systems for Data Science
l Machine Learning for Data Science
l Algorithms for Data Science
l Probability Theory
l Probability Theory
l Exploratory Data Analysis & Visualization
l Statistical Inference & Modeling
选修课
可选范围比较广泛,包括
l Translational Bioinformatics
l Topics in Computer Science: Applied Machine Learning
l Topics in Computer Science: Causal Inference for Data Science
l Topics in Computer Science: Elements of Data Science: A First Course
l NLP: Computational Models of Social Meaning
l Topics in Computer Science: Projects in Data Science: A First Course
l Topics in Information Processing: Big Data Analytics