以進階生成對抗網路合成擬真資料 ; Realistic data synthesis using enhanced generative adversarial networks

التفاصيل البيبلوغرافية
العنوان:	以進階生成對抗網路合成擬真資料 ; Realistic data synthesis using enhanced generative adversarial networks
المؤلفون:	包諾克, Mrinal Kanti Baowaly, Baowaly, Mrinal Kanti
المساهمون:	陳昇瑋劉昭麟, Chen, Sheng-Wei Liu, Chao-Lin
سنة النشر:	2019
المجموعة:	National Chengchi University Institutional Repository (NCCUIR)
مصطلحات موضوعية:	電子健康記錄, 合成資料生成, 資料合成, 生成對抗網路, 梯度懲罰型沃瑟斯坦GAN, 邊界尋求GAN, Electronic health records, Synthetic data generation, Data synthesis, Generative adversarial networks, Wasserstein GANs with Gradient Penalty, Boundary-seeking GANs
الوصف:	博士 ; 國立政治大學 ; 社群網路與人智計算國際研究生博士學位學程(TIGP) ; 104761507 ; 真實資料在許多情況下無法取得，或者在時間和金錢方面都太昂貴。這是因為這些資料可能存在隱私和保密問題。在這些情況下，使用合成資料是一個可行的選擇。本研究的主要目的是生成近乎真實的合成電子健康記錄（EHR），以便人們可以自由地使用，進行醫療保健或相關領域的研究。我們提出了兩種合成資料的生成模型，分別稱為具有梯度懲罰的醫學沃瑟斯坦GAN（medWGAN），以及醫學邊界尋求GAN（medBGAN），並且將其表現與現有的醫學GAN（medGAN）進行比較。本研究所提出的模型是基於生成對抗網絡（GAN）的兩種增強方法，即具有梯度懲罰的沃瑟斯坦GAN（WGAN-GP），以及邊界尋求GAN（BGAN）。我們在醫學領域中具有離散特徵（例如，二元和計數）的三個匯總EHR資料集上進行資料合成，分別是MIMIC-III，擴展的MIMIC-III，以及台灣國家健康保險研究資料庫（NHIRD）。首先，我們訓練上述模型並生成合成EHR資料。接著，我們應用統計方法（維度平均值以及柯爾莫哥洛夫-斯米爾諾夫檢定）和兩個機器學習任務（關聯規則挖掘以及預測）來分析和比較模型的表現。綜合分析的結果顯示，與使用medGAN模型相比，本研究所提出的模型在生成近乎真實的合成EHR資料方面是更為有效的。我們的模型可用於生成任何近乎真實的合成資料，而不限於醫學領域。為了證明模型的一般性，在醫學領域之外，我們還研究了洛杉磯市警察局的一個匯總的犯罪資料集，進一步證實了本研究所提出的模型在廣泛應用中的能力。我們證明本研究所提出的模型可用於生成具有離散特徵的高品質合成資料，這些資料在統計上是合理的，並且足以用於機器學習任務。我們相信，以提供更好的服務來生成近乎真實的合成資料的角度來看，本研究所提出的模型將在工業和學術研究中起到作用。本研究將有助於消除機密資料的存取限制等障礙，從而加速醫學資訊學、醫療保健或相關領域的發展。 ; There are many situations when the real data are not available or are too expensive to afford in respect of both time and money. This is because those data may have privacy and confidentiality concerns. In these situations, it is a good alternative to use synthetic data. The primary objective of this study is to generate realistic synthetic electronic health records (EHRs) so that people can use it freely for progressing research in healthcare or related fields. We propose two synthetic data generation models – designated as medical Wasserstein GAN with gradient penalty (medWGAN) and medical boundary-seeking GAN (medBGAN) – and compare the performances with an existing method medical GAN (medGAN). The proposed models are based on the two enhanced methods of generative adversarial networks (GANs), namely, Wasserstein GAN with gradient penalty (WGAN-GP) and boundary-seeking GAN (BGAN). We perform data synthesis on three aggregated EHR datasets with discrete features (e.g., binary and count) in the medical domain. They are MIMIC-III, extended MIMIC-III and National Health Insurance Research Database (NHIRD), Taiwan. Firstly, we train the models and generate synthetic EHR data ...
نوع الوثيقة:	thesis
وصف الملف:	3857896 bytes; application/pdf
اللغة:	unknown
العلاقة:	G0104761507; http://nccur.lib.nccu.edu.tw//handle/140.119/123696Test; http://nccur.lib.nccu.edu.tw/bitstream/140.119/123696/1/150701.pdfTest
DOI:	10.6814/DIS.NCCU.TIGP.002.2019.B02
الإتاحة:	https://doi.org/10.6814/DIS.NCCU.TIGP.002.2019.B02Test http://nccur.lib.nccu.edu.tw//handle/140.119/123696Test http://nccur.lib.nccu.edu.tw/bitstream/140.119/123696/1/150701.pdfTest
رقم الانضمام:	edsbas.1D93CD1E
قاعدة البيانات:	BASE

View record in BASE

الوصف
DOI:	10.6814/DIS.NCCU.TIGP.002.2019.B02