近年來隨著機器學習、深度學習領域技術的突破,也讓自然語言處理技術也突飛猛進,對於所謂非格式化(文字資料、自然語言)資料的處理有長足的進步,"自然語言處理暨文字探勘"這門課程對於理解並應用現代人工智慧技術至關重要。隨著數位化資訊的爆炸式增長,如何從大量的文字數據中快速且有效地提取有用信息,成為了許多產業的關鍵需求,其應用包含常見對話機器人、機器翻譯、文本分析、情緒分析...等。
學習這門課程可以讓學生掌握從資料中提取、分析和處理文字資訊的技術。自然語言處理(NLP)技術涵蓋了語言模型、語意分析、機器翻譯、情感分析等,這些應用已經廣泛應用於客服、推薦系統、搜尋引擎、語音助理等領域。文字探勘則是運用數據探勘技術來發掘文本中隱藏的模式和趨勢,幫助企業和研究人員更好地理解使用者行為、預測趨勢,並提供數據支持決策。
此外,學習這門課還能夠幫助學生了解如何結合不同的工具和技術,建立能夠自動處理並分析非結構化資料的模型,並應用於解決實務問題。
本課程希望透過一些簡易自然語言應用實作範例,讓學生認識理解自然語言處理基礎技術與相關應用。
本課程為計算機科學與語言學門的跨學科學門。
課程學習目標
機器學習原理與人工智慧應用開發與相關軟體之操作實務。
『人工智慧應用實務』課程旨在引導學生掌握人工智慧技術在語言文本分析與應用開發中的實際操作。課程從 Python 程式語言的基礎開始,學生將透過程式設計的練習,逐步建立起對人工智慧技術的理解。隨著課程深入,學生會接觸到人工神經網路和機器學習的概念,這些技術是當今人工智慧領域的核心。
本課程除傳統影像辨識技術外,重點強調如何運用人工智慧進行文本分類、文本情感分析、色彩意象分析 API、大語言模型 API 的運用。學生將學習如何利用大語言模型處理大量文本數據,並且了解這些模型在不同語言應用中的優勢與挑戰。此外,課程還將指導學生構建對話機器人,這不僅展示了人工智慧在語言應用上的強大功能,也提供實際操作經驗,幫助學生理解文本資料處理與機器學習之間的密切關聯。
通過這些練習與專題製作,學生將具備現代人工智慧語言技術的基本素養,並能應用於實務工作中。無論是分析文本資料、開發語言應用,還是構建智能系統,本課程適合對未來語言應用主題有興趣的學生,將為參與的同學提供堅實的理論基礎與實作經驗,在未來人工智慧領域的職場上更具競爭力。
學習目標
因應巨量數據時代,如何過濾、 篩選資料是一大挑戰。本課程將說明資料蒐集的各種方式,教導建構數位文本的各式技術與工具。讓學生了解現有數位材料如何建構成研究議題。本課程預備拆成兩部分,一部份是傳統語言學上語料的蒐集,由IRB撰寫、受測者找尋聯繫、完成語料蒐集。另一部分為語料管理,將以python為巨量蒐集的工具。
本課程主要涵蓋如何有效收集、處理、儲存和管理語言資料(語料)的技能,對於自然語言處理(NLP)和語言學等相關領域的研究和應用至關重要。
了解可擴展標記語言(XML) 利用Python處理XML文檔,提取文檔中的數據,進而對於這些XML、CSV、JASON 和 Dict 資料格式進行轉換,也會介紹可縮放向量圖形(SVG)及其在網頁中的應用。課程內容大致涵蓋語料收集方法(學習如何使用各種技術來收集高品質的語料)、語料處理與清理(去除無用資訊、標記化、詞形還原、分詞等,確保語料質量和一致性)、語料儲存與管理(有效儲存大量語料並進行管理,涵蓋資料庫的選擇與架構、資料格式、語料庫標準化和資料備份等)、標註與語料庫構建(建立可重用的語料庫,以支援不同的語言研究和應用需求)語料是自然語言處理技術發展的基礎。高品質的語料能幫助研究人員更準確地建模語言,訓練有效的 NLP 模型。良好的語料管理能確保資料的可重用性和擴展性,並促進研究的標準化和一致性。可應用於機器翻譯、情感分析與社群分析、語音辨識與語音合成、對話系統與聊天機器人等相關領域。
總體而言,語料收集與管理為語言科技應用提供了強大的資料基礎,並且在實際應用中具有廣泛的應用潛力和影響力。
課程學習目標
Python是目前開發人工智慧領域相關應用程式最普遍使用的程式語言,語法相當容易易學,且提供大量各類不同開發的函示庫(如網路爬蟲、繪圖、數據分析...),對於非電資領域學生跨足程式應用開發相當重要。 Python程式語言因為簡單、直觀的語法與完整的第三方套件,具有學習門檻較低與應用廣泛的優勢。這門課程以實務為導向,透過具體的應用場景與案例,幫助學生掌握 Python 程式設計技能,並且增強他們在數位人文領域的競爭力。
目標:
掌握 Python 基礎與進階應用:學生應能理解 Python 的基本語法和程式設計邏輯,以及進階常用套件(如:nltk、numpy、爬蟲相關套件等)。
應用:
1. 網絡爬蟲與資料收集及分析:使用 Python 的網絡爬蟲工具,收集文化研究、社會調查等領域的資料,進行跨網站的數據整合。
2. 數位人文研究:學生可以使用 Python 進行文本分析,處理大量文獻資料。
3. AI模型探索:學生可以使用 Python 嘗試導入AI模型以解決相關問題。
適合學習對象:
1. 文組背景學生:針對人文學科、社會科學等專業的學生,這門課程將提供簡單且實用的數位工具。
2. 對數位人文感興趣的學生:對文本處理、數位文化、語料庫分析等領域有興趣的學生,尤其適合這門課程。
3. 無編程經驗的初學者:課程將從零開始,循序漸進地介紹 Python 程式設計的基本概念,並通過與文科領域相關的實務應用來加深理解。
4. 跨領域學習者:對數位工具有興趣的學生,期望能夠在文科研究中融入技術元素的學習者。
本課程主要讓學生理解數據分析的基本概念,配合管理或人文研究的實務案例,期望各領域學生都能運用大數據的觀念、知識與技術。
目標:
1. 理解大數據的基本概念、流程與技術:學生應熟悉大數據的收集、清理、分析和可視化的基本步驟。
2. 培養數據驅動的思維能力:培養學生能夠利用數據進行推理和決策,並理解如何運用大數據技術進行社會現象的研究或探索文化趨勢。
應用:
人文社會科學中的大數據應用:學生應能夠將數據分析應用於人文社會科學研究領域。
適合學習對象:
1. 對數據分析有興趣的學生:大數據分析技能對於未來從事文化研究、政策分析或市場行銷等工作將會有幫助。
2. 人文社會科學專業學生:文學、語言學、歷史學、社會學等領域的學生,可將大數據技術應用於他們的研究項目中,如文本分析或社會數據研究。
3. 對數位人文或社會數據感興趣的學生:這門課程將提供他們所需的工具與知識,幫助他們將大數據應用到具體的研究情境中。
計算語言學課程的教學目標是讓學生理解語言學和機器學習模型之間的聯繫,透過語言處理與認知理論,掌握語言的不同處理機制。課程分為兩部分:第一部分介紹語言學基本概念,第二部分則探討如何將科技應用於語言學,細分為心理語言學和計算語言學。未來發展應用涵蓋自然語言處理(NLP)、機器翻譯、語音辨識及智能對話系統等,對於人工智慧和語言學的結合具有重大意義。
語言學與計算機之間的關聯主要在於如何將語言的結構和規則形式化,以便計算機能夠理解和處理自然語言。語言學研究語言的音韻、句法、語義等各方面,這些知識在計算語言學中被用來建立模型,從而支援語言處理應用,如機器翻譯、語音識別和文本生成。
語言學的角色:提供語言分析工具和理論框架。 計算機的角色:運用演算法與數據來模擬和處理語言。
這兩者的結合為自然語言處理(NLP)技術提供了理論和實踐基礎。
學習目標
因應巨量數據時代,如何過濾、 篩選資料是一大挑戰。本課程將說明資料蒐集的各種方式,教導建構數位文本的各式技術與工具。讓學生了解現有數位材料如何建構成研究議題。
本課程預備拆成兩部分,一部份是傳統語言學上語料的蒐集,由IRB撰寫、受測者找尋聯繫、完成語料蒐集。另一部分為語料管理,將以python為巨量蒐集的工具。
本課程將介紹多種現行語料庫分析(Corpus Analysis)工具,著重於工具的應用與操作實例。本課程預備拆成兩部分,一部份是語言學上常見的文本分析方法,
另一部分為如何將科技運用於文本分析上,分為好幾兩個子題,讓不同老師演講,看如何將運用資工觀點,解讀很難的文本「易經」,而wiki的解讀也是另一種文本的應用。
詞彙是語言的基本單位。
以漢語詞彙學為一獨立新學科,使其成為了解漢語語言的一環。有效地幫助認識中國的語言的構造與演化,並有助於語文的教學。並能掌握詞義演化,擴大了解及學習辭典編輯學。
本課程從詞彙和聲音的關係解說語言學的概念,進而介紹詞彙的五種基本結構、詞義辨識中同義詞與反義詞的應用、古今詞義的發展與演變、及社會發展和詞彙的新陳代謝,其中基本詞、專業詞、文言詞、方言詞、慣用語、諺語、歇後語和成語的介紹,尤其幫助學生在口語表達上的準確與豐富。
Vocabulary is the fundamental unit of language.
aking Chinese lexicology as an independent new subject, making it a part of understanding the Chinese language. Effectively help to understand the structure and evolution of Chinese language, and help Chinese teaching. And can master the evolution of word meaning, expand understanding and learn dictionary editing.
This course explains the concept of linguistics from the relationship between vocabulary and sound, and then introduces the five basic structures of vocabulary, the application of synonyms and antonyms in word sense recognition, the development and evolution of word meanings in ancient and modern times, and social development and vocabulary metabolism. , professional words, classical Chinese words, dialect words, idioms, proverbs, idioms and idioms, especially to help students in the accuracy and richness of oral expression
本課程的主要目標是幫助學生掌握漢語語法的核心理論與應用,透過句法分析理解漢語句子成分、詞類、句型、語序及複句等語法現象。學生將學習如何有效描寫現代漢語的結構特徵,並藉由對古代漢語的句法分析,探索漢語語法在時間軸上的演變與延續。
結合人工智慧與文本資料處理微學分學程,本課程將探討如何利用現代人工智慧技術進行漢語語法的分析。學生將學習應用自然語言處理(NLP)技術,通過數位化工具進行語法標註和句法結構的分析。這不僅幫助學生理解語法理論的現代應用,更提供實際操作機會,以探索如何使用人工智慧技術處理語言資料,從而提高對語法現象的理解及應用。
語言學概論是漢語言文學專業的一門必修的專業基礎課,研究語言的性質、結構規律、演變規律以及語言與文字的關係等方面的問題。本課程著重於介紹漢語三要素:語音、詞彙、語法。通過基本學習,學習者能系統地掌握語言學的基本概念、基本理論和基礎知識,為提高語言理論水準、進一步學習和深入研究其他語言課程奠定必要的語言理論基礎。
Introduction to Linguistics is a compulsory professional basic course for Chinese language and literature majors. It studies the nature, structural laws, evolution laws of language, and the relationship between language and characters. This course focuses on the introduction of three elements of Chinese: pronunciation, vocabulary, and grammar. Through basic learning, learners can systematically master the basic concepts, basic theories and basic knowledge of linguistics, and lay the necessary language theoretical foundation for improving the level of language theory, further study and in-depth study of other language courses.
本課程旨在幫助學生系統地掌握語言學的基本概念、理論和知識。課程重點分析語言的內在特徵、結構規律、演變模式,以及語言與文字之間的關係。通過本課程的學習,學生將深入了解漢語的語音系統、詞彙構成和語法規則,這些都是語言學研究的核心內容。
結合人工智慧與文本資料處理微學分學程,本課程還將探討語言學理論在現代人工智慧應用中的相關性。具體而言,語音學與語法的基礎知識將幫助學生理解自然語言處理(NLP)技術,以及如何分析和利用語言資料於人工智慧系統中。因此,學生不僅能獲得語言學的理論理解,還能認識其在當代技術中的實際應用價值。