정부, AI 학습용 데이터셋 310종 7월말까지 개방한다

정부, AI 학습용 데이터셋 310종 7월말까지 개방한다: 김나윤 기자 / 기사승인 : 2023-04-30 12:00:02

AI허브 회원가입만 하면 누구나 활용가능

인공지능(AI) 학습용 데이터셋 310종이 개방된다. 역대 최대 규모다.

과학기술정보통신부와 한국지능정보사회진흥원은 2022년도에 '인공지능 학습용 데이터 구축사업'을 통해 구축한 학습용 데이터셋 310종을 30일부터 오는 7월말까지 'AI허브'(aihub.or.kr)를 통해 순차 개방한다고 밝혔다.

이 사업은 전문영역부터 일상생활까지 전분야로 확산되고 있는 인공지능 기술개발과 지능화 서비스 확산을 선도하기 위한 국가 핵심데이터 인프라 사업이다. 기업, 연구자, 개발자는 물론 인공지능 개발 등에 관심있는 우리 국민이라면 누구나 'AI허브'를 통해 학습용 데이터를 활용할 수 있다.

과기정통부와 지능정보원은 2020년부터 본격적으로 민간‧공공 수요 등에 맞춰 매년 약 200종의 데이터를 구축해 왔다. 전년도 구축 데이터는 당해연도 품질검증 등을 거쳐 개방하는데, 지금까지 개방된 데이터는 한국어, 이미지‧영상, 헬스케어 등 6대 분야 381종, 약 11억건에 이른다. 지난해 7월에는 190종의 데이터를 개방하면서 'AI허브' 연간 방문자수가 최초로 100만명을 돌파했다.

올해 개방하는 데이터는 310종으로 역대 최대 규모다. 지난해 구축 분야를 6대 분야에서 제조‧로보틱스‧교육‧금융‧스포츠 등의 14대 분야로 확장하면서 사업 규모를 크게 늘렸기 때문이다. 이번에 310종 약 15억건의 데이터 개방을 완료하면 'AI허브' 이용자들은 총 691종, 약 26억건의 데이터를 활용할 수 있게 된다.

특히 올해는 대규모 개방인 점을 고려해, 이용자들이 더 많은 데이터를 조금이라도 빨리 활용할 수 있도록 품질검증 등을 먼저 마친 데이터를 우선 개방한다. 이에 따라 초기 개방 시점은 지난해보다 3개월 앞당겨진다. 매달 약 80여종 내외를 개방해 7월말까지 전체 310종의 개방을 완료할 계획이다.

이번 1차 개방에는 자연어 기반 질의‧검색‧생성 데이터, 고서(古書)한자‧한글 등 광학인식(OCR) 데이터, 안전환경 조성을 위한 실내외 군중 특성 데이터, 소방대원 행동 모션 3차원(3D) 객체 데이터 등 자연어와 인공지능 비전 분야에서 광범위하게 활용될 수 있는 약 70종의 데이터가 포함돼 있다.

한편 'AI허브'에 공개되는 데이터들은 국제 표준에 맞는 품질기준을 달성하고 개인정보 비식별화를 거친 경우에 한하며, 기업‧기관들이 실제 사용하고 있는 인공지능 모델에 직접 데이터를 학습시켜 유효성, 정확성 등을 확인하는 활용성 검토를 받는다. 또한 개방 이후 약 3개월 동안은 사용자들로부터 데이터 품질 요구사항, 오류 등의 의견을 반영해 데이터 품질 제고를 위한 보완 과정을 거칠 예정이다.

엄열 인공지능정책관은 "챗GPT 등 초거대 인공지능의 등장으로 인공지능 산업이 빠르게 발전하고 있다"며 "우리 기업들과 연구자들이 새로운 데이터 확보에 어려움을 겪지 않도록 기존의 라벨링 데이터(지도학습용) 중심의 사업을 개편해 초거대 인공지능 학습에 필요한 대규모 비라벨링 데이터와 한번에 여러가지 유형을 학습시킬 수 있는 다중임무형 라벨링 데이터 등 다양한 유형의 데이터를 지속 확보해 나갈 예정"이라고 밝혔다.

뉴스트리 SNS

김나윤기자 jamini2010@newstree.kr 다른기사보기

핫이슈

ESG

Video

ESG

FC서울 홈 개막전 앞두고...서울월드컵경기장에 '다회용기' 도입

서울시가 오는 22일 열리는 FC서울 홈 개막전에 맞춰 서울월드컵경기장 안팎의 편의점과 푸드트럭에 다회용기를 전면 도입한다고 19일 밝혔다.시는 서

도심 열섬현상 '빗물'로 잡는다...서울시, 관리시설 확대

서울시가 도심 열섬현상을 완화하고자 10억원 예산을 들여 빗물관리시설 확대에 나선다.서울시는 2026년 빗물관리시설 확충사업으로 성북구 등 9개 자

대기업 취업문 '활짝' 열렸다…채용 규모 5만여명

삼성그룹, 현대자동차, SK그룹 등 주요 대기업들이 2026년 상반기 공개채용에 본격 돌입했다. 주요 대기업들의 채용 규모가 5만여명으로 확대되고, 인공

[ESG;NOW] 오뚜기 '스코프3' 배출량 90%…2030 감축목표 '시급'

국내 많은 기업들이 지속가능한 경영을 내세우면서 'ESG(환경·사회·지배구조)' 보고서 혹은 지속가능경영 보고서를 주기적으로 발간하고 있

하나금융, 20억 규모 'ESG 더블임팩트 펀드' 참여기업 모집

하나금융그룹이 ESG 스타트업 육성을 위한 매칭펀드 참여기업 모집에 나선다.하나금융그룹은 18일 사회혁신기업의 성장 기반 마련을 위한 '2026 하나 ESG

'20만전자' 회복한 삼성전자...1200명 모인 주총장 '축제 분위기'

중동 전쟁으로 꺾였던 주가가 '20만전자'를 회복한 18일 삼성전자의 주주총회장은 그야말로 축제 분위기였다. 1년전 반도체 사업부진 등으로 성토장이

기후/환경

[ESG;NOW] 오뚜기 '스코프3' 배출량 90%…2030 감축목표 '시급'

국내 많은 기업들이 지속가능한 경영을 내세우면서 'ESG(환경·사회·지배구조)' 보고서 혹은 지속가능경영 보고서를 주기적으로 발간하고 있

'슈퍼 엘니뇨'가 다가온다…2027년 '역대 최고기온' 예고

오는 2027년 엘니뇨 영향으로 지구 평균기온이 역대 최고치를 갈아치울 것이라는 전망이다.엘니뇨는 적도 동태평양 해수면 온도가 평년보다 0.5℃ 이상

지난해 대형 메탄누출 사고 4400건..대부분 석유·가스 시설

지난해 시간당 100kg 이상의 메탄이 누출되는 대형사고가 4400건이나 발생한 것으로 드러났다.17일(현지시간) 미국 캘리포니아대학 로스앤젤레스(UCLA) 연

[영상] 3월인데 또 '겨울폭풍' 강타한 美…폭설·한파·토네이도 '동시발생'

올 1월 강력한 겨울폭풍이 덮쳤던 미국에 또다시 겨울폭풍 '아이오나(Iona)'가 덮치면서 50만가구가 넘게 정전 피해를 겪고 있고, 항공편 수천편이 운항

'기후변화' 기대수명 단축시킨다...폭염으로 운동량 감소

기후변화로 폭염일수가 증가하면 신체활동이 크게 줄어들어, 궁극적으로 인간의 기대수명을 크게 단축시킨다는 연구결과가 나와 흥미를 끌고 있다.16

[날씨] 中 산불 연기가 국내까지...전국 미세먼지 '극심'

중국 랴오닝성에서 발생한 산불의 연기가 국내로 유입되면서 대기를 탁하게 만들고 있다.17일 수도권과 강원영서·충청·호남·영남 등 제

에너지

유럽 전력가격 전쟁에도 '안정세'...재생에너지가 '완충 역할'

이란-미국 전쟁 여파로 국제 에너지 시장의 변동성이 커진 가운데, 재생에너지를 확대한 유럽은 상대적으로 전력가격이 크게 상승하지 않고 있다.최근

파키스탄, 4년새 태양광 5배 증가...중동發 에너지 위기 완충 역할

한때 걸핏하면 대규모 정전이 발생하던 파키스탄이 태양광 발전이 급증하면서 중동 전쟁에도 불구하고 에너지 가격이 폭등하지 않고 있다.파키스탄은

원유 1800만배럴 추가 확보...강훈식 실장 "UAE가 韓 최우선 공급 약속"

우리나라가 1800만배럴의 원유를 추가로 확보했다.강훈식 대통령 비서실장은 18일 "아랍에미리트(UAE)와 언제든 원유를 긴급 구매하도록 합의했다"며 "이

35년만에 '차량 부제' 시행?...李대통령 지시 하루만에 검토 착수

미국과 이란의 전쟁으로 에너지 수급이 불안정해지면서 정부가 차량 5부제 혹은 10부제를 도입하기 위한 검토작업에 들어갔다. 이는 지난 17일 이재명

순환경제

메탄가스로 흑연 생산...포스코퓨처엠, 음극제 원료 확보 다변화

포스코퓨처엠이 메탄가스를 활용한 흑연 생산기술을 도입해 천연흑연 음극

제주 감귤밭 폐비닐 年800톤…'열분해유'로 재활용한다

매년 제주 감귤밭에서 800톤씩 배출되는 폐비닐을 열분해유로 재활용할 수

텀블러 세척기 'LG 마이컵' 앱계정 등록자 10만명 넘었다

LG전자가 텀블러 세척기 'LG 마이컵'이 출시된지 1년도 채 되지않아 앱 계정

"석유화학 탈탄소, 선택 아닌 생존"...'전기화 NCC' 해답될까

국내 석유화학산업이 중국발 공급과잉과 글로벌 탄소규제라는 이중 압박에

오피니언

[최남수의 ESG풍향계] 'ESG 공시' 이대로는 안된다

지난 5년동안 말만 무성했던 지속가능성(ESG) 공시의 예측 가능성이 높아졌다. 금융위원회는 지난 25일 열린 제4차 생산적 금융 대전환 회의에서 ESG 공시

[최남수의 EGS풍향계] ESG요소 강화하는 해외연기금들...우리는?

지난해 4월 국민연금연구원은 'ESG 투자에 관한 논쟁과 정책동향'이라는 보고서를 발간했다. 이 보고서는 ESG 투자에 대한 회의적 시각과 반(反)ESG 정책

[최남수의 ESG풍향계] 'S' 관리소홀로 위기 맞는 기업들

최근들어 대규모 개인정보 유출이나 중대재해 같은 안전사고로 위기를 맞는 기업들이 늘어나고 있다. 쿠팡, SK텔레콤, KT, 포스코 등 기업들이 그 주인