우리는 매일 수많은 콘텐츠를 소비한다. 뉴스 기사, 블로그 글, 베스트셀러 소설, 유튜브 영상, 그리고 SNS에 올리는 사진까지. 그런데 이 모든 콘텐츠가 창작자의 허락 없이 AI의 학습 데이터로 사용되고 있다면 어떤 문제가 발생할까?
최근 메타가 81.7TB에 달하는 데이터를 활용해 AI를 훈련했다는 소식이 전해졌다. 이는 전자책 한 권이 약 1MB라는 점을 고려하면 약 8,170만 권의 책에 해당하며, 이는 전 세계 대부분의 디지털 도서관을 합친 수준에 가깝다. AI 모델이 발전하기 위해서는 막대한 양의 데이터가 필요하지만, 이렇게 방대한 데이터를 무작위로 수집하는 과정에서 보안상 안전하지 않은 정보까지 포함될 가능성이 있다.

AI 기업들은 학습 데이터가 공개된 정보라고 주장하지만, 인터넷에 떠돌아다닌다고 해서 모든 데이터가 보안상 안전한 것은 아니다. 웹사이트나 온라인 커뮤니티에서는 이용약관을 통해 데이터 크롤링을 금지하는 경우가 많지만, AI 모델의 훈련을 위해 이러한 제한이 무시되는 사례가 많다. 실제로 일부 AI 모델이 폐쇄형 포럼이나 사내 문서 공유 시스템에서 데이터를 수집한 정황이 보고되었으며, 기업의 내부 보고서, 연구 논문, 개인 이메일, 심지어 비공개 SNS 게시글까지 크롤링을 통해 학습되었을 가능성이 제기된다. 이는 단순한 저작권 문제가 아니라 심각한 보안 문제로 이어질 수 있다.
AI가 보안 위협을 초래한 사례는 이미 여러 차례 보고되었다. 2023년 삼성전자 직원들이 ChatGPT를 업무에 활용하며 내부 소스코드를 입력했는데, 이 정보가 AI 학습 데이터로 사용될 가능성이 제기되면서 보안 경고가 내려졌다. 결국 삼성전자는 사내에서 ChatGPT 사용을 금지했다. 또한, OpenAI는 2023년 ChatGPT의 버그로 인해 사용자 간 대화 내용이 노출되는 사고를 겪었으며, 일부 연구자들은 AI 모델이 학습 과정에서 사용자의 입력을 기억할 수 있고, 이를 기반으로 민감한 데이터를 복원할 가능성이 있다고 경고했다. 미 법무부 또한 AI 모델이 민감한 정부 문서를 학습했을 가능성을 조사하고 있으며, AI의 학습 범위를 제한하는 새로운 법안을 검토 중이다.

AI가 학습한 데이터는 단순히 저장되는 것이 아니라, 새로운 방식으로 악용될 가능성도 존재한다. 예를 들어, AI가 이메일 데이터를 학습하면 특정 기업의 이메일 패턴을 모방해 더욱 정교한 피싱 이메일을 생성할 수 있으며, 이는 기존의 피싱 공격보다 더 설득력 있는 공격으로 이어질 가능성이 크다.
또한 AI가 사내 커뮤니케이션 데이터를 학습하면 특정 기업의 조직 구조나 업무 흐름을 분석할 수 있어, 해커들이 이를 활용해 표적 공격을 감행할 위험이 커진다. 더 나아가, AI가 보안 취약점을 학습하고 분석하는 과정에서 자동화된 해킹 기술이 발전할 가능성도 존재하는데, 이는 기존 보안 솔루션이 탐지하기 어려운 새로운 보안 위협이 될 수 있다.

이러한 문제를 해결하기 위해 각국에서는 AI 학습 데이터의 보안 문제를 해결하기 위한 규제 강화를 논의하고 있다. 유럽연합(EU)은 AI 법안(AI Act)을 통해 AI가 개인 정보를 무단으로 학습하는 것을 방지하기 위해 강력한 규제를 도입하고 있으며, 특히 AI가 공공 데이터뿐만 아니라 비공개 데이터까지 학습할 경우 법적 제재를 받을 수 있도록 하는 조항을 포함하고 있다. 미국 연방거래위원회(FTC)는 AI 모델이 저작권 및 개인정보 보호법을 위반했는지 조사하고 있으며, 대형 AI 기업들에 대해 학습 데이터 출처를 공개할 것을 요구하고 있다.
한국과 일본 또한 AI 학습 데이터의 법적 정의를 명확히 하고, 기업이 AI 학습 데이터의 출처를 투명하게 공개하도록 하는 규제를 검토 중이지만, 산업 발전과 규제 사이에서 균형을 맞추는 것이 주요 과제로 남아 있다.
AI는 앞으로도 계속 발전할 것이다. 그러나 AI의 학습 범위를 어디까지 허용할 것인가에 대한 논의는 반드시 필요하다. 만약 AI 학습 데이터를 제한한다면 기술 발전이 저해될 가능성이 있으며, 반대로 규제를 완화할 경우 개인정보와 기업 보안이 심각한 위협에 직면할 수 있다. 이제 우리는 중요한 결정을 내려야 한다.
“AI의 발전을 위해 데이터를 개방해야 하는가?“ 아니면 “보안과 프라이버시를 지키기 위해 강력한 규제가 필요할까?“