언제든 인터넷에 접근할 수 있는 스마트폰, 이를 유도하는 플랫폼, 폰에 내장된 센서, 스마트 워치의 보급으로 이제 세상의 플랫폼 대기업들은 개인과 지역, 특정 국가에 대한 의미 있는 데이터를 수집하고 이용하는 것이 가능하게 되었다.
데이터는 세상을 바꾸어 나가고 있는데 우선 브랜드와 가격을 밀어냈다는 점이다. 과거 사람들은 품질에 대한 정보가 없었기에 국가공인 인증 및 브랜드의 힘을 믿었다. 하지만 이제 대부분의 상품은 소비자 별점이라는 데이터로 평가받는다. 때문에 사람들은 가격과 브랜드 보다는 다른 사람들의 평점을 믿는다. 이 별점은 많은 것을 포괄하는데 상품과 가격에 대한 가성비와 가심비, 만족도, AS등이 들어간다.
데이터는 화폐의 역할도 하고 있다. 21세기 들어 이렇다할 유형의 자산이나 상품을 만들지도 않는 기업들이 시가총액에서 상위를 차지하고 있다. 전통적 제조강자 LG전자의 시가총액이 15조인데 당근마켓이 3조, 배민이 15조로 동급이다. 이는 그들이 갖고 있는 데이터가 자산으로 평가 받기 때문이. 플랫폼 기업은 이미 오래전부터 대부분의 서비스를 무료로 제공하는 대신 그 이용자 자신의 데이터와 그가 생성하는 데이터를 가져가기 시작했다. 플랫폼이 제공하는 서비스가 편리하고 우수하기에 사람들은 개인의 프라이버시의 고수보다는 그것의 제공을 택했다.
데이터는 사회의 권력도 재분배한다. 과거 방송국 프로듀서나, 언론사의 편집부장, 신춘문예 심사위원 등은 누구를 드러낼지를 판별하는 권력을 지녔다. 하지만 지금은 그렇지 않다. 누구나 플랫폼으로 주목을 받을 수 있고 스스로를 드러낼 수 있다. 좋아요와 충분한 별점으로 자신의 가치를 만인에게 인정받을 수 있기 때문이다. 이처럼 과거와 달리 데이터와 플랫폼이 사회의 권위와 영향력을 배분하는 역할을 가져가 버렸기에 이들에 대한 민주적 통제도 중요한 과제로 떠오르고 있다
데이터는 그 세밀함으로 개인맞춤형을 넘어 그 개인조차 쪼개어 마케팅하고 있다. 아마존은 이미 월요일엔 사무용품을 금요일엔 레저용품을 추천한다. 유튜브 역시 아침 출근 때와 저녁 퇴근 때 추천영상이 다르다. 데이터는 개인의 선택도 지배하고 있는데 넷플릭스의 경우 사용자들은 소비하는 콘텐츠의 2/3을 추천영상에서 고른다. 아마존 역시 소비자가 구매상품의 1/3을 추천 제품에서 고른다. 이는 더욱 증가할 것이다. 구글을 책 조차 데이터화하고 있는데 책의 단어 수를 모두 세어 가장 많이 나오는 것을 핵심키워드로 삼아 이를 압축해 독자들에게 전달하는 방식이다.
데이터는 배송방식에도 영향을 미치고 있다. 데이터의 축적으로 유통업체들은 배송방식을 바꾸고 비용을 크게 절감했다. 쿠팡은 설립 후 10년간 만성적자에 시달렸는데 로켓그로스 사업으로 흑전에 성공했다. 이는 쿠팡에 입점한 업체의 상품을 대신 배송해주는 일종의 택배서비스로 쿠팡이 소비자가 어떤 상품을 구매하는지에 대한 데이터가 축적되었기에 가능하다. 또한 포장도 데이터화해 크기, 부피, 파손여부를 파악하여 소포장이 가능한 것은 그렇게 하여 부피를 줄여 물류비용을 줄이고 있다. 신선식품은 1-2일이면 폐기해야 해 재고관리가 어려운 고난도 배송서비스다. 그래서 데이터를 통해 실시간으로 재고를 관리하고 재고 가능성이 높은 시간이 되면 세일 등의 이벤트로 물량을 소진한다. 대개 물류창고는 전통적으로 품목별 정리를 해놓는다. 하지만 쿠팡은 무질서한 방식의 랜덤스토우 방식을 쓴다. 이는 무질서해보이나 물품을 찾는 사람의 동선을 최소화하고 창고의 빈공간도 크게 줄일 수 있다.
데이터는 인공지능의 학습에도 매우 중요하다. 인공지능의 학습에는 정제된 학습데이터가 무수히 필요하다. 다만 비용이 문제다. 정제된 데이터를 하나 만드는데는 6달러가 소요된다. 이의 대안이 데이터를 바탕으로 새롭게 생성한 합성 데이터인데 이것의 비용은 6센트에 불과하다. 다만 합성데이터는 문제가 있다. 조작과 가짜 데이터의 생성과 사생활 침해의 우려다. 하지만 이런 우려에도 인공지능의 발전에는 합성데이터가 점차 많이 쓰이고 있으며 그 시장성도 매우 유망하다.
생성형 인공지능은 거의 모든 분야에 사용중이다. 다만 창작의 영역에도 사용되며 저작권에 문제가 생기고 있다. 생성형 인공지능의 창작물은 생성형 인공지능 그 자체, 그것을 이용한 사용자, 생성에 사용된 데이터를 제공한 사람이 있을 수 있다. 이들 모두가 적당히 나눠가지면 좋겠지만 생성물에 대한 기여도를 측정하는 것은 사실상 매우 어렵다. 향후 인공지능은 어떤 데이터로 학습했는지 명기하는 의무가 생길 수 있고, 데이터 공급 거부권, 인공지능 촉진을 위한 데이터 사용권 등이 생겨날 수 있다.
최근 데이터가 막강한 힘을 갖게 되자 데이터 주권주의가 부상하고 있다. 이는 데이터에도 국적이 있고 국가가 이를 정책적으로 관리해야 한다는 생각이다. 이런 정책 방향 중 하나가 데이터 현지화다. 국내 생성 데이터를 데이터 센터를 건립하거나 자국에 유치해 국내에 물리적으로 위치시키는 것이다. 이는 데이터에 대한 행정권과 개인정보 보호, 과세 문제를 해결한다. 결국 국경없는 데이터 시대는 저물고 있다는게 책의 생각이다.
데이터는 거의 모두 파편으로 존재한다. 이는 각 플랫폼과 기관이 목적에 따라 모으는 데이터가 다 다르기 때문이다. 하지만 데이터의 가치는 이종 데이터들이 서로 연결되어 새로운 의미를 가질 때 가능하다. 그래서 데이터를 모아 공유하는 센터와 데이터를 거래하는 시장이 매우 중요하다. 한국은 정부차원에서 데이터를 공유하는 기관이나 센터는 잘 만든 편이다. 하지만 문제는 민간의 영역인데 여기서 거래가 거의 이뤄지지 않고 있다. 2022년 기준 1.77조원 수준인데 미국의 500조에 비하면 새발의 피 수준이다. 이런 민간의 부실한 데이터 시장은 대부분의 한국 기업이 데이터를 모두 자체 생성하거나 해외에서 구매해야 함을 의미한다. 따라서 데이터 시장의 활성화가 매우 중요하다. 물론 데이터 거래는 어려운 면이 있다. 데이터는 형태가 없고, 품질의 파악이 어려우며, 가치 측정 역시 쉽지 않기 때문이다.
책은 데이터에 대한 최근의 내용을 거의 총망라하고 있다. 10년 정도 빅데이터에 대한 책을 읽은 후 오랜만에 데이터 책을 보았으며 그 동안 세상이 많이 바뀌었음을 체감할 수 있었다.