야후, 플리커 이미지데이터 1억건 공개

일반입력 :2014/07/04 11:00    수정: 2014/07/04 11:15

야후가 대규모 플리커 데이터세트를 연구자 실험용으로 공개했다. 1억개에 가까운 이미지와 비디오의 URL과 메타데이터를 담았다. 야후는 슈퍼컴퓨터 환경과 클라우드를 통해 더 큰 규모의 연구를 할 수 있도록 돕겠다고 약속했다.

3일(현지시간) 외신에 따르면, 야후랩스는 최근 플리커크리에이티브커먼스 데이터세트라 불리는 자료를 공개했다.

야후가 제공하는 데이터세트는 9천930만개의 사진과 70만개의 비디오 파일에 대한 URL과 각 파일의 타이틀, 카메라타입, 묘사, 태그 등을 담은 메타데이터를 포함하고 있다. 이중 4천900만개의 사진은 지오태그도 갖고 있다.

야후는 각각의 코멘트, 즐겨찾기, 소셜데이터를 플리커API를 통해 접근할 수 있다고 설명했다.

야후 덕분에 이미지 분석을 위해 대규모의 자원이 공개됐다. 새로운 컴퓨터 알고리즘 연구나 학술적인 이미지분석 연구에 큰 도움을 줄 것으로 평가된다.

수많은 연구자나 기업들이 구글이나 페이스북, 마이크로소프트, 야후 등의 기업만큼 대규모의 콘텐츠를 보유하지 못하는 상황. 이들은 수작업으로 이들 데이터를 모으거나 스크랩해야 한다.

관련기사

야후는 데이터세트와 함께 컴퓨팅 파워 확보에 어려움을 겪는 연구자를 위해 UC 버클리의 '국제컴퓨터공학학회(ICSI)'와, '로렌스리버무어국가연구소'에서 오디오 파일과 시각화 기능을 포함한 데이터세트 연구를 할 수 있도록 지원하겠다고 밝혔다. 아마존웹서비스(AWS)에 50테라바이트(TB) 이상을 처리할 수 있는 인스턴스를 제공한다고도 약속했다.

야후에서 공개한 데이터세트는 약 12기가바이트 용량이며, 분석용 도구는 AWS에서 8월말께 사용할 수 있게 된다.