ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Google Analytics 사용자 추적 방지
    Analysis 2024. 2. 12. 13:48

     
    현생에 시달리느라 정말 오랜만에 블로그를 써 본다.
    몇 년 전 메타(Facebook)의 리타게팅 광고에 대해 설명하는 글을 쓰고 영상도 만들었다. 그런데 그 동안 참 많은 변화가 있었다. 2024년을 맞아 사용자 추적과 광고에 있어서는 가장 큰 덩치를 가진 구글에 대해 글을 써보려 한다.
     
    GDPR의 힘일까? GAID 등 사용자 추적 광고를 위한 식별자 광고 ID의 사용 여부를 사용자가 결정하게 되었고, 광고 ID 사용을 결정하는 옵션도 들어가게 되었지만 여전히 많은 앱들은 사용자를 추적하길 원했다. 초기에는 광고 ID 옵션을 켜도록 유도하는 사용자 UI를 선보이기까지 했다. 예를 들어 무료 아이템을 받으려면 광고 ID를 켜야 한다는 식이었다.
     
    그러나 프라이버시에 관심이 많은 유럽의 많은 나라들은 계속 이런 기조를 이어갔다. 결국 GDPR은 빅브라더의 대표인 구글도 압박했다. 구글은 Google Analytics라는 대표적인 사용자 분석 플랫폼이 있다. 이 플랫폼은 사용자가 웹에서 하는 거의 모든 행동을 추적하고 이를 분석한다. 구글은 사용자 맞춤형 검색 결과를 제공하기 위해 이런 일을 한다고 대의명분을 내세우지만, 실제로 이 데이터는 다양한 서비스 회사에 판매되고 구글은 이를 통해 수익을 얻는다. 지금부터 구글이 뭘 하고 있는지 그리고 어떻게 방어할 수 있는지 알아보려 한다.
     
     

    Google Analytics 4

     
    GDPR의 압박을 받은 구글은 사용자의 세션을 모두 추적하던 방식을 변경해 이벤트 위주로 추적하겠다는 새로운 정책을 만든다. 그게 Google Analytics 4이고 작년에 적용이 되었다. 그럼 이제 된건가? 사실 그렇지가 않다. 다음은 구글이 직접 설명하는 GA4의 내용이다. <링크>
     

    GA4는 미래의 측정 방식을 대비해 설계된 새로운 유형의 속성입니다. 
    - 웹사이트와 앱 데이터를 모두 수집하여 고객 여정을 더욱 자세히 파악
    - 세션 기반 데이터 대신 이벤트 기반 데이터 사용
    - 쿠키 없는 측정, 행동 및 전환 모델링과 같은 개인 정보 보호 설정 포함
    - 예측 기능으로 복잡한 모델이 없는 가이드 제공
    - 미디어 플랫폼에 직접 통합하여 웹사이트 또는 앱에서 더 편리하게 작업

     
    '이벤트 기반'이라는 차이가 있을 뿐 "당신의 데이터를 모두 조사하겠어!"라는 구글의 방식은 전혀 바뀌지 않았다. 당신이 웹을 통해 하는 모든 행동을 구글은 추적하고 있다. 법망을 피해가기 위해 살짝 돌아가는 짓을 하는건 영세업자나 중소기업이나 대기업이나 다 똑같은 것 같다. 

    구글이 어디까지 데이터를 모으는지는 정확히 모르지만 광고주로서 구글에서 제공받을 수 있는 소위 고객에 대한 "Analytics"를 고려하면 구글이 모으는 데이터는 다음과 같을 것으로 짐작된다.
     

    • 웹사이트, 그리고 세부 페이지에 고객이 머무는 시간
    • 고객이 해당 웹사이트로 유입된 검색 키워드
    • 고객이 해당 웹사이트에서 했던 모든 행동
    • IP 주소와 웹브라우저 종류

     
    위 항목들은 광고 ID가 꺼져 있다는 가정이다. 만약 광고 ID인 GAID가 켜져 있고 폰이나 웹브라우저에 구글 로그인이 되어 있다면 구글은 저 정보들이 정확히 누구인지 특정할 수 있고 웹 뿐만 아니라 앱에서 했던 행동도 추척이 가능하다. 무엇보다 구글은 당신이 폰, PC, 랩탑 등 여러 기기에서 했던 모든 웹사이트 활동과 앱 활동의 데이터를 확보할 수 있다. 이 데이터는 익명이지만 언제라도 익명이 아닐 수 있는 데이터이다. 광고ID로 할 수 있는 일에 대해서는 메타에 대해 설명한 이 글을 참조하면 된다. <링크>
     
     

    Solution? Tell Google stop.

     
    모든 문제는 근본을 해결하는게 정답이다. 우리가 가장 먼저 해야 할 일은 구글에게 Google Analytics를 적용하지 말라고 명시적으로 이야기하는 것이다. 우리의 큰형님 구글은 무려 Chrome Extension으로 이 기능을 제공하고 있다. 웹브라우저와 웹 검색 엔진을 한 회사가 독점하는게 얼마나 위험한 일인지 알 수 있다. <링크>
     

     
    2024년의 것이라고 믿을 수 없는 디자인의 저 페이지가 바로 안내 페이지다. 피그마에서 컬러 선택 박스만 봐도 멘붕이 오는 디알못 개발자인 내가 만들어도 저것보다는 예쁠 것 같다. Y2K 웹사이트 스타일의 크고 파란 버튼을 누르면 크롬 웹스토어로 연결된다.
     

     
    그나마 크롬 웹스토어 화면은 이미지 1개가 포함되어 있다. 그러나 설명 텍스트는 다른 익스텐션에도 적용되는 일반적인 설명을 제외하면 달랑 3줄이다. GDPR 때문에 판매자가 구글인걸 써뒀으니 다행이지, 이게 악성프로그램인지 구글 순정 익스텐션인지 헷갈릴 수준이다.
     
    아무튼 이 익스텐션을 깔면 ga.js에서 더 이상 정보를 구글 서버로 전송하지 않는다고 써 있다. 착각하지 말자. 데이터 컬렉팅은 계속되는데 보내지는 않는다는 의미이다.
     
    모바일에서는 찾아보지 않았는데 아마 안될 것 같다. 프라이버시 블록커를 사용하는 수 밖에 없을 것 같다. 사실 모바일에서는 크롬보다 각 단말에 최적화된 브라우저가 제일 좋다. 아이폰은 사파리, 안드로이드는 삼성 브라우저가 속 편하다. 전자는 프라이버시에 엄격하고, 후자는 그런거 신경쓸 겨를이 없어서 안전하다.
     
     

    One More Thing

     
    PC나 랩탑이라면 조금 더 과격한 방법을 쓸 수 있다. Google Analytics 도메인을 아예 라우팅에서 돌려버리는 방법이다. 그럼 ga.js가 도메인으로 뭔가 전송하려는 시도 자체가 블락된다. Google Analytics의 도메인이 변경되지 않는 한은 모든 트래픽을 원천 차단 가능하다. 윈도우 기준으로 다음과 같다.
     

     
    윈도우 버튼을 누르고 '메모장' 또는 'notepad'라고 검색하면 메모장 어플이 보인다. 여기에 마우스 오른쪽 클릭을 하고 관리자 모드로 실행해 준다. 앞으로 고칠 파일이 시스템 영역이어서 관리자 권한이 필요하다.
     

     
    메모장에서 열기를 선택하고 "C:\Windows\System32\drivers\etc"로 이동한다. 처음에는 아무 것도 안 보이는데, 우하단의 파일 필터를 "모든 파일"로 변경하면 파일 몇 개가 보인다. 그 중에 hosts 파일을 선택해 연다.
     

     
    대부분 내용이 비어있을텐데, 제일 하단 부분에 다음 내용을 입력한다.
     

    0.0.0.0 google-analytics.com
    0.0.0.0 www.google-analytics.com

     
    Google Analaytics 관련 도메인의 IP 주소를 존재하지 않는 주소로 바꾸는 내용이다. 재부팅하면 이 내용이 윈도우 시스템 전체에 대해 적용된다. 그러면 웹브라우저만이 아니라 윈도우에 깔린 어떤 앱에서도 저 주소로는 데이터를 보낼 수 없게 된다.
     
     

    Conclusion

     
    현대인의 온라인 활동의 상당 부분은 웹사이트 탐색이다. 웹사이트 상에서 했던 모든 행동을 구글이 분석하고 그 대가로 맞춤형 검색 결과나 쇼핑몰 상품 추천을 받는게 더 좋다는 의견을 가진 사람은 문제 없겠지만, 그런게 본능적으로 싫은 사람들이 사실은 거의 대다수일 것이다. 사람들이 이를 크게 문제삼지 않는 것은 이런 일이 뒤에서 일어나는 것을 모르기 때문인 것이 가장 큰 이유일 것이다.
     
    요즘은 저작권 및 프라이버시 문제가 AI로 확장되고 있다. 생성형 AI가 학습에 이용하는 데이터들에 대한 저작권 이슈가 업계의 핫한 주제 중 하나이다. 일반인들에겐 AI가 세상에 없는 내용을 만들어내 대답하는 것처럼 보이겠지만, 기술적으로 학습했던 데이터 중 가장 확률 높은 데이터를 엮어서 대답을 내는 것에 불과하다. 결국 대답의 수준을 결정하는건 원본 데이터이다.
     
    어느날 Chat GPT나 Bard가 내가 썼던 글, 내가 그렸던 그림, 내가 만들었던 음악의 일부를 대답으로 내놓을 수 있다. 왜냐하면 불법적으로 수집한 정보가 흘러들어갔을 확률도 있고, 내가 생각없이 동의한 약관 때문에 Google Analytics가 정보를 팔아먹었을 수도 있기 때문이다.
     
    개인적으로 '대 AI시대'에 접어든 지금 GDPR이 좀 더 강하게 프라이버시를 드라이브해 주었으면 한다. 맞춤형 광고로 얻을 수 있는 개인의 이익보다 우려가 더 컸던 과거처럼, 생성형 AI가 주는 이익이 개인의 권리를 침해하는 것보다 크지는 않기 때문이다. 개인의 데이터가 필요하다면 회사는 정식으로 요청하고 그에 대한 댓가를 금전으로 지불하는 것이 맞다. 재주는 사용자들이 돈은 플랫폼 업체가 버는 웃기는 구조가 언젠가 정상이 되길 바란다.
     
     
    Fin.

    반응형

    댓글

Calvin's Memo