아동 안전 연구자에 따르면 AI 도구가 아동에 대한 검열되지 않은 성적 묘사를 만드는 방법으로 소아성애자 포럼에서 점점 더 홍보되고 있는 가운데 이번 발견이 나왔습니다. 전문가들은 AI 이미지가 정확하게 재현하기 위해 소수의 사진만 훈련하면 되는 경우가 많다는 점을 감안할 때 훈련 데이터에 천 개가 넘는 아동 학대 사진이 있으면 이미지 생성기에 걱정스러운 기능을 제공할 수 있다고 전문가들은 말했습니다.
사진은 “기본적으로 [AI] 보고서 작성자이자 Stanford Internet Observatory의 수석 기술 전문가인 David Thiel은 말했습니다.
LAION 대표자들은 LAION-5B 데이터 세트를 “다시 게시하기 전에 안전한지 확인하기 위해” 일시적으로 삭제했다고 말했습니다.
최근에는 확산 모델이라는 새로운 AI 도구가 등장해 누구나 보고 싶은 내용에 대한 간단한 설명을 입력하면 설득력 있는 이미지를 만들 수 있습니다. 이러한 모델에는 인터넷에서 가져온 수십억 개의 이미지가 제공되고 시각적 패턴을 모방하여 자신만의 사진을 만듭니다.
이러한 AI 이미지 생성기는 초현실적인 사진을 만드는 능력으로 칭찬을 받았지만, 도구에 어린이 붙여넣기와 같은 이전 방법보다 덜 기술적인 지식이 필요하기 때문에 소아성애자가 새로운 노골적인 이미지를 만들 수 있는 속도와 규모도 증가했습니다. ‘는 성인의 신체에 얼굴을 대고 ‘딥페이크’를 만듭니다.
Thiel의 연구는 AI 도구가 아동 학대 콘텐츠를 생성하는 방법에 대한 이해가 발전했음을 나타냅니다. 기존에는 AI 도구가 ‘아동’과 ‘노골적인 콘텐츠’라는 두 가지 개념을 결합해 불미스러운 이미지를 만들어낸다고 생각됐다. 이제 연구 결과에 따르면 실제 이미지를 사용하여 악의적인 가짜의 AI 출력을 개선하여 더욱 실제처럼 보이도록 돕고 있습니다.
아동 학대 사진은 수십억 개의 이미지가 포함된 LAION-5B 데이터베이스의 작은 부분이며, 연구원들은 데이터베이스 작성자가 소셜 미디어, 성인 비디오 사이트 및 공개 인터넷에서 이미지를 가져왔기 때문에 실수로 추가되었을 수 있다고 주장합니다.
그러나 불법 이미지가 전혀 포함되지 않았다는 사실은 가장 강력한 AI 도구의 핵심인 데이터 세트에 대해 알려진 바가 얼마나 적은지를 다시 한 번 강조합니다. 비평가들은 편향된 묘사 및 노골적인 콘텐츠 AI 이미지 데이터베이스에서 발견된 정보는 자신이 만드는 내용을 눈에 보이지 않게 형성할 수 있습니다.
Thiel은 이 문제를 규제하는 방법에는 여러 가지가 있다고 덧붙였습니다. 데이터베이스에서 아동 학대 콘텐츠와 동의하지 않은 음란물을 선별하고 제거하기 위한 프로토콜을 마련할 수 있습니다. 교육 데이터 세트는 더욱 투명하고 해당 내용에 대한 정보를 포함할 수 있습니다. 아동 학대 콘텐츠가 포함된 데이터 세트를 사용하는 이미지 모델은 노골적인 이미지를 만드는 방법을 “잊도록” 학습할 수 있습니다.
연구자들은 “해시”(해시를 식별하고 국립실종착취아동센터와 캐나다 아동보호센터의 온라인 감시 목록에 저장되는 해당 코드)를 찾아 악의적인 이미지를 스캔했습니다.
Thiel은 사진이 훈련 데이터베이스에서 제거되는 과정에 있다고 말했습니다.