정부, AI 학습용 데이터셋 310종 7월말까지 개방한다

김나윤 기자 / 기사승인 : 2023-04-30 12:00:02
  • -
  • +
  • 인쇄
AI허브 회원가입만 하면 누구나 활용가능

인공지능(AI) 학습용 데이터셋 310종이 개방된다. 역대 최대 규모다.

과학기술정보통신부와 한국지능정보사회진흥원은 2022년도에 '인공지능 학습용 데이터 구축사업'을 통해 구축한 학습용 데이터셋 310종을 30일부터 오는 7월말까지 'AI허브'(aihub.or.kr)를 통해 순차 개방한다고 밝혔다.

이 사업은 전문영역부터 일상생활까지 전분야로 확산되고 있는 인공지능 기술개발과 지능화 서비스 확산을 선도하기 위한 국가 핵심데이터 인프라 사업이다. 기업, 연구자, 개발자는 물론 인공지능 개발 등에 관심있는 우리 국민이라면 누구나 'AI허브'를 통해 학습용 데이터를 활용할 수 있다.

과기정통부와 지능정보원은 2020년부터 본격적으로 민간‧공공 수요 등에 맞춰 매년 약 200종의 데이터를 구축해 왔다. 전년도 구축 데이터는 당해연도 품질검증 등을 거쳐 개방하는데, 지금까지 개방된 데이터는 한국어, 이미지‧영상, 헬스케어 등 6대 분야 381종, 약 11억건에 이른다. 지난해 7월에는 190종의 데이터를 개방하면서 'AI허브' 연간 방문자수가 최초로 100만명을 돌파했다.

올해 개방하는 데이터는 310종으로 역대 최대 규모다. 지난해 구축 분야를 6대 분야에서 제조‧로보틱스‧교육‧금융‧스포츠 등의 14대 분야로 확장하면서 사업 규모를 크게 늘렸기 때문이다. 이번에 310종 약 15억건의 데이터 개방을 완료하면 'AI허브' 이용자들은 총 691종, 약 26억건의 데이터를 활용할 수 있게 된다.

특히 올해는 대규모 개방인 점을 고려해, 이용자들이 더 많은 데이터를 조금이라도 빨리 활용할 수 있도록 품질검증 등을 먼저 마친 데이터를 우선 개방한다. 이에 따라 초기 개방 시점은 지난해보다 3개월 앞당겨진다. 매달 약 80여종 내외를 개방해 7월말까지 전체 310종의 개방을 완료할 계획이다.

이번 1차 개방에는 자연어 기반 질의‧검색‧생성 데이터, 고서(古書)한자‧한글 등 광학인식(OCR) 데이터, 안전환경 조성을 위한 실내외 군중 특성 데이터, 소방대원 행동 모션 3차원(3D) 객체 데이터 등 자연어와 인공지능 비전 분야에서 광범위하게 활용될 수 있는 약 70종의 데이터가 포함돼 있다.

한편 'AI허브'에 공개되는 데이터들은 국제 표준에 맞는 품질기준을 달성하고 개인정보 비식별화를 거친 경우에 한하며, 기업‧기관들이 실제 사용하고 있는 인공지능 모델에 직접 데이터를 학습시켜 유효성, 정확성 등을 확인하는 활용성 검토를 받는다. 또한 개방 이후 약 3개월 동안은 사용자들로부터 데이터 품질 요구사항, 오류 등의 의견을 반영해 데이터 품질 제고를 위한 보완 과정을 거칠 예정이다.

엄열 인공지능정책관은 "챗GPT 등 초거대 인공지능의 등장으로 인공지능 산업이 빠르게 발전하고 있다"며 "우리 기업들과 연구자들이 새로운 데이터 확보에 어려움을 겪지 않도록 기존의 라벨링 데이터(지도학습용) 중심의 사업을 개편해 초거대 인공지능 학습에 필요한 대규모 비라벨링 데이터와 한번에 여러가지 유형을 학습시킬 수 있는 다중임무형 라벨링 데이터 등 다양한 유형의 데이터를 지속 확보해 나갈 예정"이라고 밝혔다.

Copyright @ NEWSTREE All rights reserved.

뉴스트리 SNS

  • 뉴스트리 네이버 블로그
  • 뉴스트리 네이버 포스트
  • 뉴스트리 유튜브
  • 뉴스트리 페이스북
  • 뉴스트리 인스타그램
  • 뉴스트리 트위터

핫이슈

+

ESG

Video

+

ESG

+

SK이노베이션, 2030년까지 베트남 맹그로브숲 복원 나선다

SK이노베이션이 베트남에서 '아시아의 허파'로 불리는 맹그로브숲 복원사업에 나선다.SK이노베이션은 7일 베트남 짜빈(Tra Vinh)성 정부 및 현지 사회적기

KCC글라스 '2024-25 ESG보고서' 발간...KPI와 연계

KCC글라스가 지속가능경영 성과와 성장전략을 담은 '2024/25 ESG보고서'를 발간했다고 7일 밝혔다.올해 다섯번째로 발간된 이번 보고서는 △ESG 전략목표와

[최남수의 ESG풍향계] 글로벌 기업들 '지속가능 공시' 적극적인 이유

이재명 정부는 ESG 정책에 대해 전향적인 변화를 줄 것으로 예상된다. 그 가운데 정책의 우선순위를 둘 것으로 보이는 정책은 지속가능성 공시다. 윤석

SK케미칼 '2024 지속가능 경영보고서' 발간..."5대 과제 평가 담아"

SK케미칼이 1년간의 ESG성과와 향후 전략을 담은 '2024 지속가능경영보고서'를 발간했다고 7일 밝혔다. 이번 보고서는 글로벌 공시 기준으로 통용되는 △

정부 '위약금 면제' 수용한 SKT..."정보보호에 7000억 투자" 결정

SK텔레콤이 해킹 사고로 번호이동한 가입자에 대해 위약금을 면제해야 한다는 정부의 요청을 수용하기로 결정했다.SKT는 침해사고 발생전인 4월 18일 기

우리은행 'G.우.주 프로젝트' 시행...경기도 보호아동 위해 6억 지원

우리은행이 'G.우.주 프로젝트'를 통해 보호아동을 위해 4년간 매년 1억5000만원을 지원한다.우리은행은 경기주택도시공사(GH), 한국아동청소년그룹홈협

기후/환경

+

기후변화에 대응해 탄산칼슘 저장하는 무화과 나무...왜?

무화과 나무가 자신의 일부를 돌처럼 만들어 기후변화에 대응하는 것으로 나타났다.6일(현지시간) 스위스 취리히대학(UZH) 마이크 로울리 박사 연구팀

녹색전환硏, 노원구와 시민맞춤 ‘탄소중립 안내서’ 발간

서울 노원구에서 전국 최초로 시민 눈높이 '탄소중립 안내서'를 발간했다. 녹색전환연구소와 녹색에너지전략연구소와 서울 노원구와 함께 '탄소중립

벌채지역 제품 판매금지...유럽 '산림벌채법' 앞두고 회원국들 반발 확산

오는 12월 세계 최초로 '산림벌채법'(EUDR) 시행을 앞두고 있는 유럽연합(EU)에서 주요 회원국들이 규정 완화를 요구하고 나섰다. 이 법은 벌채된 땅에서

온난화로 빙하 녹으면서…전세계 화산 폭발 더 격렬해진다

지구 온난화로 빙하가 녹으면서 그 영향으로 전세계 화산 폭발이 더 빈번하고 규모도 커질 것이라는 연구결과가 나왔다.미국 매디슨 위스콘신대 연구

전세계 덮친 가뭄 '지구적 재앙'…강원 동해안도 생활·농업용수 위기

전세계가 폭염뿐 아니라 가뭄의 습격도 받고 있다. 지구 곳곳에서는 최악의 가뭄이 이어지면서 물부족 사태를 겪고 있고, 우리나라 강원도 동해안의

폭염에 카디건·셔츠 매출 '쑥'...이상기후에 뜨는 '시즌리스 상품'

이상기후가 일상화되면서 백화점 소비패턴에도 변화가 일어나고 있다. 장마철 대표 아이템으로 꼽히던 레인부츠와 방수재킷 대신 실내 냉방 환경에서

에너지

+

순환경제

+

오피니언

+