การศึกษากล่าวว่าแนวทางที่ชัดเจนที่จำเป็นสำหรับข้อมูลสังเคราะห์เพื่อรับรองความโปร่งใส ความรับผิดชอบ และความยุติธรรม บริษัท ชุนหลงเว่ย จำกัด

ข้อมูลขนาดใหญ่ — เครดิต: Pixabay / CC0 โดเมนสาธารณะ

การศึกษาใหม่ระบุว่าควรมีการกำหนดแนวทางที่ชัดเจนสำหรับการสร้างและการประมวลผลข้อมูลสังเคราะห์เพื่อให้เกิดความโปร่งใส ความรับผิดชอบ และความยุติธรรม

ข้อมูลสังเคราะห์ที่สร้างขึ้นผ่านอัลกอริธึมการเรียนรู้ของเครื่องจากข้อมูลในโลกแห่งความเป็นจริงดั้งเดิม กำลังได้รับความนิยมเนื่องจากอาจเป็นทางเลือกในการรักษาความเป็นส่วนตัวแทนแหล่งข้อมูลแบบเดิม อาจมีประโยชน์อย่างยิ่งในสถานการณ์ที่ข้อมูลจริงอ่อนไหวเกินกว่าจะแชร์ หายากเกินไป หรือมีคุณภาพต่ำเกินไป

ข้อมูลสังเคราะห์แตกต่างจากข้อมูลในโลกแห่งความเป็นจริง เนื่องจากถูกสร้างขึ้นโดยโมเดลอัลกอริธึมที่เรียกว่าตัวสร้างข้อมูลสังเคราะห์ เช่น Generative Adversarial Networks หรือ Bayesian Networks

การศึกษาเตือนว่ากฎหมายคุ้มครองข้อมูลที่มีอยู่ซึ่งบังคับใช้กับข้อมูลส่วนบุคคลเท่านั้นนั้นไม่มีความพร้อมในการควบคุมการประมวลผลข้อมูลสังเคราะห์ทุกประเภท

กฎหมายเช่น GDPR ใช้กับการประมวลผลข้อมูลส่วนบุคคลเท่านั้น คำจำกัดความของข้อมูลส่วนบุคคลของ GDPR ครอบคลุมถึง "ข้อมูลใดๆ ที่เกี่ยวข้องกับบุคคลธรรมดาที่ระบุตัวตนหรือระบุตัวตนได้" อย่างไรก็ตาม ไม่ใช่ว่าชุดข้อมูลสังเคราะห์ทั้งหมดจะถูกสร้างขึ้นมาโดยสมบูรณ์ บางชุดอาจมีข้อมูลส่วนบุคคลหรือมีความเสี่ยงที่จะมีการระบุตัวตนอีกครั้ง โดยหลักการแล้ว ชุดข้อมูลที่สังเคราะห์โดยสมบูรณ์จะได้รับการยกเว้นจากกฎ GDPR ยกเว้นในกรณีที่มีความเป็นไปได้ที่จะมีการระบุตัวตนอีกครั้ง

ยังไม่ชัดเจนว่าระดับความเสี่ยงในการระบุตัวตนซ้ำจะเพียงพอที่จะกระตุ้นการใช้งานในบริบทของการประมวลผลข้อมูลที่สังเคราะห์อย่างสมบูรณ์ ซึ่งทำให้เกิดความไม่แน่นอนทางกฎหมายและความยากลำบากในทางปฏิบัติสำหรับการประมวลผลชุดข้อมูลดังกล่าว

การศึกษาโดยศาสตราจารย์ Ana Beduschi จากมหาวิทยาลัย Exeter ได้รับการตีพิมพ์ในวารสาร ข้อมูลขนาดใหญ่และสังคม.

โดยระบุว่าควรมีขั้นตอนที่ชัดเจนในการเรียกร้องไปยังผู้รับผิดชอบในการสร้างและประมวลผลข้อมูลสังเคราะห์ ควรมีการรับประกันว่าข้อมูลสังเคราะห์จะไม่ถูกสร้างและใช้ในลักษณะที่ก่อให้เกิดผลเสียต่อบุคคลและสังคม เช่น การยืดเยื้ออคติที่มีอยู่หรือการสร้างอคติใหม่

ศาสตราจารย์ Beduschi กล่าวว่า “ควรมีการกำหนดแนวทางที่ชัดเจนสำหรับข้อมูลสังเคราะห์ทุกประเภท พวกเขาควรให้ความสำคัญกับความโปร่งใส ความรับผิดชอบ และความเป็นธรรม การมีแนวปฏิบัติดังกล่าวมีความสำคัญอย่างยิ่ง เนื่องจาก AI เชิงสร้างสรรค์และโมเดลภาษาขั้นสูง เช่น DALL-E 3 และ GPT-4 ซึ่งสามารถฝึกฝนและสร้างข้อมูลสังเคราะห์ได้ อาจเอื้อต่อการเผยแพร่ข้อมูลที่ทำให้เข้าใจผิดและส่งผลเสียต่อสังคม การปฏิบัติตามหลักการเหล่านี้จึงสามารถช่วยลดอันตรายที่อาจเกิดขึ้นและส่งเสริมการสร้างสรรค์นวัตกรรมที่มีความรับผิดชอบ

“ดังนั้น ข้อมูลสังเคราะห์ควรมีป้ายกำกับอย่างชัดเจน และควรให้ข้อมูลเกี่ยวกับการสร้างข้อมูลแก่ผู้ใช้”