報道:本報 郭慧筠 攝影:本報 蔡偉傳
迈入网络时代,数据增长迅速,几乎每个网络平台或机构都在收集数据,以从中找出解决问题的方案或洞悉未来趋势,并应用在各个领域,如商业、医疗、生产等,进而也产生了新的相关职业,就像数据科学家。
究竟数据的用处是什么?为什么数据变得越来越重要?而数据科学家的工作职责又是什么?不妨通过本期〈教育导航〉来了解数据科学的潜力。
Jinmun Park是IBM公司的金融数据科学家。(IBM提供)
Jinmun Park是IBM公司的金融数据科学家,大学时期,他在我国先修读了美国学位转移课程(American Degree Program),主修商业,尔后再攻读商务与商业学士课程,主修计量经济学,为他奠定了良好的数学基础。
当时他对数据挖掘工具,如R编程和Python了解不深,在大学时期才开始探索相关知识,并通过网络平台自习提升编码技能。
还没研习学士学位前,他从在韩国的数次短暂工作经验中发现,数据管理和转型技能在目前的商业领域中尤为重要,加上在澳洲担任营销策划师时,他面对了因数据管理不佳,导致数据分析不精准的状况,因此下定决心钻研数据科学知识。
“当我决定学习更多关于数学和数据的知识时,并没有想过当数据科学家,单纯享受探索新编码技能和数据工程的乐趣。成为数据科学家也不在我的计划内,是上司发觉了我的优点,把我放置在对的位置。”
当初他是以金融分析师的身分加入IBM,之所以选择该公司,是基于公司鼓励员工内部调职,以寻找更多契机,而过往担任金融分析师的经验,帮助了他更了解金融数据。
身为数据科学家,他的工作范畴是理解数据收集、集结并总结成最好的操作,作为决策用途。他目前主要是跟在美国、印度和斯洛伐克的专才组成团队,协助金融机构的转型决策。
数学知识是数据科学家必备基础
他去年负责的项目是为工作自动化提供解决方案,以减少人力资源,而今年负责的项目则是创造预测模型,并以持续性整合与持续性发布(CI/CD)方式让模型自动运作,“团队的每个组员都有本身优点,彼此也会互相应援来完成项目。”
Jinmun Park认为,数据科学家面对的难题是,要花费很多时间来厘清客户的需求,并且用对的资源找出解决方案。
“公司拥有的数据量庞大,需要一定时间从不同的数据来源,找出适合我们模型的正确数据。验证数据也同样耗时,因为我们必须确保数据适用于全世界,这样我们的解决方案才可以应用于全体机构用户。”
另外,基于商业变化迅速,要想出具备可持续性的模型和传送方式是挑战之一,“数据科学家不只要生产精准度高的模型,也需要跟团队考量各种因素,以创造出适合机构的完美解决方案。”
对他而言,编码技能和数学知识是数据科学家必备的条件,数学将有助于数据科学家提升对于模型的理解,还可以在数据上做出正确的假设。
除此之外,数据科学家也要熟悉可以应用在商业上的最新趋势,这样才能选择对的工具或平台来支持客户,“每个星期四,公司的数据科学家团队都会聚在一起,彼此分享新趋势或解决问题的流程,以培养数据科学家技能。”
他建议对数据科学家工作感兴趣的年轻人,可以修读线上课程来自我增值,而且要学以致用,建构模型来测试本身的精准度以及尝试探索不同的编码工具,并练习应用和发表作品到部落格上,这将比好的履历更有用处。
Asfvin在网购平台担任商业智能分析师时,有机会参与了数据科学课程,进而对利用数据找出解决方案产生兴趣。(IBM提供)
数据科学家的挑战:与非技术人士解释发现结果
Asfvin是IBM公司的另一名数据科学家,持有商科学士学位,主修金融,副修经济学。约4年前,他在网购平台担任商业智能分析师时,有机会参与了数据科学课程,进而对利用数据找出解决方案产生兴趣。
起初他申请成为IBM公司的金融分析师,后来面试时,他表达出自己对数据科学的兴趣和整理数据的能力,一年后,他成功加入公司的数据科学和认知团队,成为数据科学家。
作为数据科学家,他主要的职务是建构模型,其中包含清除数据、整理数据、建模和配置,并调整模型至符合验收标准。
在工作上,他面对的挑战是需要跟来自非技术背景的人士讨论和解释所发现的结果,“我需要用简单的术语来解释计算程式,还有是什么因素导致表现产生变化。”
他认为,好奇心、愿意学习新事物和追求进步,是数据科学家需具备的特质,而技能方面,除了编码能力和良好的数学知识,数据科学家也需要对投身的领域拥有经验或知识。
对于有兴趣成为数据科学家的学生,Asfvin的建议是:“虽然成为数据科学家要经过一定难度的学习,除了编程能力、统计学、机器学习和人工智能的知识要好,也要具备商业敏锐度,但只要愿意下功夫,肯定能做到。”
张玮凌认为,数据科学将成为未来5年内受追捧和高薪的职业之一。
數據科學未來5年將成高薪職業
赫瑞.瓦特大学马来西亚校区(Heriot-Watt University Malaysia)是国内少数提供数据科学相关学士课程的大专院校,科系名称为统计数据科学(Statistical Data Science)。
赫瑞.瓦特大学马来西亚校区数学与电脑科学学院助理教授张玮凌博士说,数据科学是运用精算学为基础的统计学知识,主要强调数据收集、处理及分析的能力。
“学生会学习到的知识包括:数学、统计学、电脑基础、机器学习、数据管理等,并会学习大数据处理所需要的各种技术软件,如R编程、Python、SAS、Mathlab等,这科系可以说约50%是关于数学和统计学知识,另外约50%是跟电脑编程基础相关。”
她说,随着科技时代到来,数据的增长非常迅速,任何领域只要有数据,就需要数据科学,因数据科学有助于分析巨大的数据库,从中了解未来趋势或发现问题,并通过数据分析,更有效地利用数据透露出来的讯息作出实际改善。
“修读数据科学系的条件是数学一定要好,若有高级数学背景更好,至于编程知识可以进来大学后再学,我们会从基本开始教起,最重要是要有兴趣,不然会学得辛苦。”
而数据科学领域讲求团队合作,不只会以团队方式工作,也需要给客户提出建议,因此学生需具备良好的沟通能力,再来,批判性思维也相当重要,因为每次收集到的数据会不一样,学生需要根据收集到的数据来做分析,并提供解决方案。
她认为,数据科学将成为未来5年内受追捧和高薪的职业之一,“就算目前处于疫情时期,市场对数据科学专才仍有需求,毕业生可以往3个方向发展,第一是纯数据分析,如数据分析师、数据科学家等;第二是以数据为驱动的商业分析,像商业分析师、数据产品经理等;第三则是成为统计学家。”
张玮凌给予对数据科学领域感兴趣学生的建议是,“数据科学以实用为目的,主要培养学生的理性思维、实践能力和数据分析能力,企业看中数据科学专才的就是解决问题的能力。若学生希望学以致用,无论是统计学抑或数据科学,都是不错的选择。”