資料科學特色招生

data SciencE

背景介紹

隨著資訊科技技術的普及、發達,各行各業伴隨產生巨量的資料,如何從滿坑滿谷的資料礦石中,萃取出絢亮的智慧之石,是資料科學家的使命,但是如何成為資料科學家?頂尖的資料科學家除了有程式、統計、數學能力外,還要有辦法從資料中洞察問題,這些過人的直覺力往往可以透過跨領域學習強化,而清華大學資訊系統與應用研究所就是一個跨領域人才的培育搖籃。

十五年前,本所開台灣與亞洲風氣之先,招募了各領域的菁英在這裡經歷了一場又一場的文化衝擊,截至目前為止,本所學生來自不同的領域(橫跨了理工學院、教育學院、商管學院、人文社會學院、和醫學院)、也來自不同的國家,所上的國際學生比例高達21%,這樣的跨領域、跨國的多元環境,在加上所上老師們對資料探勘、機器學習、人工智慧、自然語言、大數據資料分析等專長,會是非常適合訓練傑出資料科學家的教育環境。

師資

蘇豐文, soo@cs.nthu.edu.tw
Artificial Intelligence, Machine Learning

王家祥, jswang@cs.nthu.edu.tw
Analysis of big data

吳尚鴻, shwu@cs.nthu.edu.tw
Machine learning and data mining, database systems in the cloud, analysis of social networks and user behavior

孫宏民, hmsun@cs.nthu.edu.tw
Cryptography, Smart Phones (3G, 4G), Cloud Computing, Internet of Things (IoT), Big Data Analysis, Digital Forensic

張俊盛, jschang@cs.nthu.edu.tw
Natural Language Processing, e-Learning, Machine Translation, Question Answering

陳朝欽, cchen@cs.nthu.edu.tw 
Big data analysis, face recognition, compressive sensing

蔡仁松, rstsay@cs.nthu.edu.tw
IC timing analysis and optimization, Digital signal processing and application, High-tech entrepreneurship

陳宜欣, yishin@gmail.com
Web Intelligence, Social computing, Data Mining, Databases, Web Semantics

李哲榮, cherung@cs.nthu.edu.tw
Numerical analysis, Scientific computing, High performance computation

沈之涯, chihya@cs.nthu.edu.tw
Big Data and Social Network Analytics, Query Processing, Data Mining for Mental Healthcare, Spatial Database Management

 

招生對象

我們預期申請者對資料科學研究具備充分興趣與動機,並以此作為未來之研究主軸。
以下條件具備一項或多項為佳:

  • 數學、物理、經濟、商管等其他相關背景或學科知識
  • 關懷社會、想要了解社會發生什麼事情的熱誠
  • 加入資料科學同好會或參加過相關的活動
  • 擁有駭客技能
  • 其他與資料科學有關之學經歷或傑出表現

特色計畫

  • 巨量資料之高速資料分析與及時互動式資訊檢索 (李哲榮、張俊盛、吳尚鴻、陳宜欣)

    近年來,世界各國政府越來越多以開放資料 (Open Data) 來提升施政的透明度、滿足民眾參與公共政策議題的需求、以及強化民眾監督政府的力量。而開放資料的價值和應用,必須要仰賴巨量資料 (Big Data)的分析與處理,雖然目前已經有不少巨量資料處理和管理工具,但是很多部分還缺乏。本計畫的目標就是來彌補這些不足,針對資料的多樣性提供快速圖形分析的工具與系統。這些技術分為三大部分:第一部分是針對原始資料的多樣性(Variety)和不準確性(Veracity)和來做分析和處理,包括語音資料分析、政府資料擷取與分析、和社群網路資料分析。第二部分是針對資料的容量(Volume)和時效性(Velocity)來處理,包括分散式圖形處理函式庫、和圖形加速函式庫。第三部分是整合第一部分和第二部分的平台,包括了分散式SQL資料庫和串流圖資料處理系統。這些技術不但可以獨立運作、或是和其他相關軟體做結合,整合在一起也可以發展出一些完整的服務。
     
  • 運用大資料建構多語系情緒分析與心理支持系統 (陳宜欣)

    「情緒」是社群網站上的一種特性,它可以用在不同的用途,像是偵測意見、消除模稜兩可、猜測興趣、甚至是預防犯罪以及偵測自殺傾向。因此,偵測出使用者文章中的情緒,將是改善服務以及關懷社會中,非常重要的一環。本計畫將利用「非監督式學習」(unsupervised learning)來抽取社群網路文字中的情緒特徵,利用這些特徵來偵測心理情緒、並自動偵測社群網路上霸凌語句、嘲諷語句,以及是發文者的心理狀態,利用推薦系統技術來過濾不適合的內容、推薦適合的內容給社群網路上的使用者,這樣的技術將可以協助社服機構即時的監測他們正在關心的個案,也可以減少許多不幸的案件。更因為社群網站上的資料是多國語言都交雜的,因此也希望能輕易的拓展方法至多國語言,將不只著重在於英文或中文的分析。
     
  • 巨量社群網路之團體最佳化與心理疾患探勘 (沈之涯)
    隨著線上社群網路(Online Social Network, OSN)的蓬勃發展與普及,社群網路已轉變成一個全世界規模之巨型資料庫。社群網路分析探勘(social network analysis and mining, SNAM)主要是利用社群網路分析和資料探勘技術,研究社群實體間關係連結與這些連結關係之結構與效用。然而,社群網路分析探勘欲從如此巨量且結構複雜之資料中擷取、分析出有用的知識、模擬使用者行為與進一步開發應用等等,相對於傳統之資料探勘更具有挑戰性,因此成為學術界現今最重視之研究課題之一。
       我們將透過社群網路上的資料,深入研究兩個重要的問題。第一個研究議題中我們探討社交關係建立之最佳化活動規劃服務研發。目前線上社群網路中朋友推薦僅透過現存朋友關係來推薦新的朋友給使用者,而非找出一群適合的人選以利彼此建立朋友關係。社會心理學中的社會臨場感理論(social presence theory)指出,透過電腦的線上互動方式相較於面對面的互動,其效果較差。相較於線上的社交互動,人們較偏好於實體世界中的社交活動。是故,我們考量透過線上社群網路來規劃實體世界中的面對面社交活動,以幫助人們結交新的朋友。
        第二個議題是使用社群網路資料於線上偵測潛在心理疾病與成癮症狀。隨著線上社群網路已融入大部份人們的每日生活中,社群網路上的巨量資料可用於偵測潛在心理疾病與成癮症狀,以利病患及早就醫。這些疾病或成癮症狀通常會對患者自身或他人產生負面的影響,諸如學業退步、工作效率降低、情緒不穩定等。然而,這些成癮症狀或是心理疾病的病患通常無法自行發現患病,或是在病情十分嚴重時才會尋求醫療上的協助。針對這些心理疾病或是成癮症,目前並未有任何系統可以自動化偵測這些可能的病患。是故,我們希望能藉由使用者於社群網路上的資料、與他人的互動模式、時間與空間上的特徵等,透過資料探勘技術以及早偵測可能的病患,讓其能儘早接受適當的治療。

相關課程

CS 5651 Machine Learning 機器學習理論
CS 5732 Introduction to Massive Data Analysis 巨量資料分析導論
CS 5700 Introduction to Data Science 資料科學概論 
CS 5740 Cloud Databases 雲端資料庫
ISA 5301 Information Theory and Applications 資訊理論與應用
ISA 5305 Computational Mathematics 計算數學
ISA 5351 Computer Security 資訊安全
ISA 5425 Intelligent Agents 智慧型代理程式
ISA 5578 Social Computing 社群運算
ISA 5810 Data Mining: Concepts,Techniques, and Applications 資料探勘與應用
ISA 6120 Advanced Database Systems 高等資料庫
SNHC 7310 Introduction to Natural Language Processing and Information Retrieval with Applications in Social Networks 自然語言與資訊檢索於社群網路之應用
SNHC 7410 Introduction to Data Mining in Social Networks 社群網路資訊探勘