การศึกษาใหม่ระบุว่าควรมีการกำหนดแนวทางที่ชัดเจนสำหรับการสร้างและการประมวลผลข้อมูลสังเคราะห์เพื่อให้เกิดความโปร่งใส ความรับผิดชอบ และความยุติธรรม
ข้อมูลสังเคราะห์ที่สร้างขึ้นผ่านอัลกอริธึมการเรียนรู้ของเครื่องจากข้อมูลในโลกแห่งความเป็นจริงดั้งเดิม กำลังได้รับความนิยมเนื่องจากอาจเป็นทางเลือกในการรักษาความเป็นส่วนตัวแทนแหล่งข้อมูลแบบเดิม อาจมีประโยชน์อย่างยิ่งในสถานการณ์ที่ข้อมูลจริงอ่อนไหวเกินกว่าจะแชร์ หายากเกินไป หรือมีคุณภาพต่ำเกินไป
ข้อมูลสังเคราะห์แตกต่างจากข้อมูลในโลกแห่งความเป็นจริง เนื่องจากถูกสร้างขึ้นโดยโมเดลอัลกอริธึมที่เรียกว่าตัวสร้างข้อมูลสังเคราะห์ เช่น Generative Adversarial Networks หรือ Bayesian Networks
การศึกษาเตือนว่ากฎหมายคุ้มครองข้อมูลที่มีอยู่ซึ่งบังคับใช้กับข้อมูลส่วนบุคคลเท่านั้นนั้นไม่มีความพร้อมในการควบคุมการประมวลผลข้อมูลสังเคราะห์ทุกประเภท
กฎหมายเช่น GDPR ใช้กับการประมวลผลข้อมูลส่วนบุคคลเท่านั้น คำจำกัดความของข้อมูลส่วนบุคคลของ GDPR ครอบคลุมถึง "ข้อมูลใดๆ ที่เกี่ยวข้องกับบุคคลธรรมดาที่ระบุตัวตนหรือระบุตัวตนได้" อย่างไรก็ตาม ไม่ใช่ว่าชุดข้อมูลสังเคราะห์ทั้งหมดจะถูกสร้างขึ้นมาโดยสมบูรณ์ บางชุดอาจมีข้อมูลส่วนบุคคลหรือมีความเสี่ยงที่จะมีการระบุตัวตนอีกครั้ง โดยหลักการแล้ว ชุดข้อมูลที่สังเคราะห์โดยสมบูรณ์จะได้รับการยกเว้นจากกฎ GDPR ยกเว้นในกรณีที่มีความเป็นไปได้ที่จะมีการระบุตัวตนอีกครั้ง
ยังไม่ชัดเจนว่าระดับความเสี่ยงในการระบุตัวตนซ้ำจะเพียงพอที่จะกระตุ้นการใช้งานในบริบทของการประมวลผลข้อมูลที่สังเคราะห์อย่างสมบูรณ์ ซึ่งทำให้เกิดความไม่แน่นอนทางกฎหมายและความยากลำบากในทางปฏิบัติสำหรับการประมวลผลชุดข้อมูลดังกล่าว
การศึกษาโดยศาสตราจารย์ Ana Beduschi จากมหาวิทยาลัย Exeter ได้รับการตีพิมพ์ในวารสาร ข้อมูลขนาดใหญ่และสังคม.
โดยระบุว่าควรมีขั้นตอนที่ชัดเจนในการเรียกร้องไปยังผู้รับผิดชอบในการสร้างและประมวลผลข้อมูลสังเคราะห์ ควรมีการรับประกันว่าข้อมูลสังเคราะห์จะไม่ถูกสร้างและใช้ในลักษณะที่ก่อให้เกิดผลเสียต่อบุคคลและสังคม เช่น การยืดเยื้ออคติที่มีอยู่หรือการสร้างอคติใหม่
ศาสตราจารย์ Beduschi กล่าวว่า “ควรมีการกำหนดแนวทางที่ชัดเจนสำหรับข้อมูลสังเคราะห์ทุกประเภท พวกเขาควรให้ความสำคัญกับความโปร่งใส ความรับผิดชอบ และความเป็นธรรม การมีแนวปฏิบัติดังกล่าวมีความสำคัญอย่างยิ่ง เนื่องจาก AI เชิงสร้างสรรค์และโมเดลภาษาขั้นสูง เช่น DALL-E 3 และ GPT-4 ซึ่งสามารถฝึกฝนและสร้างข้อมูลสังเคราะห์ได้ อาจเอื้อต่อการเผยแพร่ข้อมูลที่ทำให้เข้าใจผิดและส่งผลเสียต่อสังคม การปฏิบัติตามหลักการเหล่านี้จึงสามารถช่วยลดอันตรายที่อาจเกิดขึ้นและส่งเสริมการสร้างสรรค์นวัตกรรมที่มีความรับผิดชอบ
“ดังนั้น ข้อมูลสังเคราะห์ควรมีป้ายกำกับอย่างชัดเจน และควรให้ข้อมูลเกี่ยวกับการสร้างข้อมูลแก่ผู้ใช้”