رسالة جامعية

自動化資料豐富程序 ; Automated Data-Enrichment Processing Technologies

التفاصيل البيبلوغرافية
العنوان: 自動化資料豐富程序 ; Automated Data-Enrichment Processing Technologies
المؤلفون: 宋浩, Sung, Hao
المساهمون: 電機資訊學院: 資訊工程學研究所, 指導教授: 項潔, 宋浩, Sung, Hao
سنة النشر: 2015
المجموعة: National Taiwan University Institutional Repository (NTUR)
مصطلحات موضوعية: 數位典藏, 數位人文, 鏈結資料, 資料正規化, 專有名詞擷取, Digital Archives, Digital Humanities, Linked Data, Data Normalization, Terminology Extraction
الوقت: 79
الوصف: 無論是在數位典藏資料庫、數位圖書館、或數位博物館的領域,詮釋資料的建立都是一個重要的工作,同時也經常是耗費最多人力時間成本的項目。然而,建立詮釋資料並不是一件簡單的工作,建立者需要對某個特定領域的知識有深入的了解,才能產出豐富、正確、精準的詮釋資料,進而詳實傳達數位資源的重要性。 正因為詮釋資料必須透過大量人力進行建置,因此在實務上經常採用「聯合目錄」的形式,亦即由原始資料典藏單位負責建立典藏物的詮釋資料,再提交至中央主管單位統一提供可整合檢索、瀏覽的介面。由原始資料典藏單位各別建立詮釋資料與數位化的過程稱為「分散建置」,而由中央整合並提供使用介面則稱為「集中管理」,此模式是在綜合考量時間、人力、資源等因素後所產生的平衡點,其衍生的問題則是詮釋資料的填寫方式難以趨於一致,進而導致後續在瀏覽、檢索、與資料鏈結上的困難。 本研究試圖提出一套資料前置處理的框架:ADEPT (Automated Data Enrichment Processing Technology),目標是將符合都柏林核心集的輸入資料進行自動化的前置處理與豐富化。ADEPT框架中包含了三個主要模組,分別是:驗證模組、正規化模組、專有名詞擷取模組。透過這些模組處理過的資料將趨向一致性、符合統一的格式,同時具備人事時地物等重要資訊。除此之外,豐富化後的資料將更適合鏈結資料(linked data),不但可與網際網路上的相關資料相互連結,更可讓詮釋資料進一步被加值利用,達到全民共享的目標。 ; Metadata, known as ""data about data"", is an important way to describe and utilize digital objects in digital archives, digital libraries, and digital museums. To present accurate, precise, and high-quality metadata is a critical task for the digital databases, and it requires not only a high cost of human resources, but also domain know-how. Due to the labor-intensive nature of metadata construction, a model often employed in developing a large digital collection is to build different archives separately, then construct a central portal (such as a union catalog) for users to browse, search, and explore the entire collection. Although this model is effective in terms of time, manpower, and resources, it has some drawbacks. The main problem is inconsistency in the metadata constructed. This may be caused by misinterpretation of metadata attributes, different details when inputting data, or inadequate metadata format for interpreting specific data sets. In this thesis, we propose ADEPT (Automated Data Enrichment Processing Technology), a framework for pre-processing data. ADEPT contains three primary modules: data verification, data normalization, and named-entity recognition. ADEPT aims to ensure data consistency and correctness, and increases data usability at the same time. Furthermore, the enriched metadata is more suitable for linked open data. By connecting related data, we can ...
نوع الوثيقة: thesis
اللغة: Chinese
العلاقة: http://ntur.lib.ntu.edu.tw/handle/246246/275451Test
الإتاحة: http://ntur.lib.ntu.edu.tw/handle/246246/275451Test
حقوق: 論文使用權限: 不同意授權
رقم الانضمام: edsbas.1A7B352C
قاعدة البيانات: BASE