최근 읽은 책임 포털 뉴스장사 문제의 핵심을 짚고 있어 소개하고자 합니다. (책 내용 발췌)

 

=

 

카타리나 츠바이크 저서인 무자비한 알고리즘 책 내용을 요약하였다. (책 내용 전체를 요약한 것은 아니고 내가 요즘 관심있는 부분만 발췌하였다) 

 

[머신러닝 성공 조건] 

 

머신러닝은 다음 조건이 충족될 때 기본적으로 성공적일 수 있다. 

 

 1) 양질의 방대한 트레이닝 데이타가 (input) 있을 때 

 

 2) 측정가능한 실측자료, 즉 예측할 수 있는 것이 (output) 있을 때 

 

 3) input과 예측할 수 있는 output 사이에 인과관계가 있을 때 

 

 

 

 머신러닝 알고리즘이 인간을 능가하는 면은 다음과 같다. 

 

 1)임의의 데이타에서 상관관계를 찾을 수 있다 

 

 2) 다양한 상관관계를 찾을 수 있다 

 

 3) 약한 상관관계도 통계 모델에 집어넣어 유익을 이끌어낼 수 있다 

 

 

 

다음에 해당될 때 머신러닝의 결과는 믿을 만하다. 

 

 1) input과 예측되는 output 사이에 인과관계가 알려져있어 관계자들이 쉽게 합의할 수 있는 명확한 input data가 존재할 때 

 

 2) 두가지 오류 유형 (false positive / false negative)에 대해 가급적 많은 피드백이 있을 때, 그로써 지속적으로 품질을 측정해 통계 모델을 역동적으로 개선할 수 있다 

 

 3) 모든 관계자들이 쉽게 동의할 수 있는 명확한 품질 척도가 있을 때 

 

 

 

[사례] 

 

독일에도 주로 남성에게 돌아가는 일자리들이 있다. 예컨대 경찰관은 일반적으로 최소 체격조건을 갖추어야 하는데, 통계적으로  여성보다는 남성이 이런 조건에 부합한다. 그리하여 노르트라인베스트팔렌주에서는 한동안 이런 사정을 고려하여 남녀에게 서로 다른  체격조건을 적용했다. 그러자 체구가 작은 한 남성 지원자가 소송을 제기했다. 자신은 여성의 체격조건은 채우고도 남는데 남성의  체격조건은 충족할 수가 없다며 명백히 차별받고 있다는 것이었다. 겔젠키르헨 행정재판소는 남녀에 대해 서로 다른 체격조건을 요구하는  것은 기본적으로 타당하다고 보았다. 하지만 그러려면 특히나 합당한 이유가 있어야 한다면서, 이 경우는 그렇지 않다고 판단했다. 이  판결에서 정작 흥미로운 것은 법정이 기본적으로 너무 많은 남성 지원자를 잃지 않기 위해 남녀 공통으로 적용되는 체격조건을 통해 더  많은 비율의 여성들을 배제하는 것을 정당하다고 본다는 점이다. 

 


     [차별이 어떻게 컴퓨터로 들어가는가] 

 

차별이 데이터 안에 명시적 혹은 암시적으로 포함되어 있고, 알고리즘이 그와 상관되는 변수들을 확인하게 될 때  인구집단의  행동에 차이가 나는데, 이중 몇몇 혹은 많은 사람들에 대한 전체 데이터가 부족할 때  인구집단의 행동에 차이가 있는데,  알고리즘이나 머신러닝 휴리스틱에 민감한 정보가 누락될 때 - 따라서 모든 사람들에 대한 일부 데이터가 부족할 때  인구집단의  행동에 차이가 있는데, 머신러닝 기법이 서로 다른 맥락을 구별할 수 없을 때  시스템이 '역동적으로' 학습을 하는데, 잘못된  학습이 이루어질 때, 여기서는 input data를 통제하는 것이 중요하다 

 


   [공평과 공정] 

 

경찰의 체격조건에서 볼 수 있듯이 문제는 공정과 공평이다. 영어로 말하자면 equity 대 equality이다. 공평한  것은 빠듯한 자원을 균등하게 분배하는 것이다. '모두가 같은 것을 받는다' 그러나 대부분의 자원은 목적에 기여한다. 그리고 모두가  자신에게 분배된 자원을 목적을 위해 동일하게 활용할 수 없는게 현실이라면 그 분배는 불공정한 것이 된다.  정보학자 존  클라인버그는 센딜 물레이네이선과 마니시 라거번과 함께 이 두가지 공평성의 요구는 동시에 충족될 수 없는 것임을 보여주었다. (관련 논문 )

 

 

 

[알고리즘 기반 의사결정시스템이 오류가 있을 때 리스크 매트릭스]

 

 

알고리즘 기반의 의사결정 시스템이 국가적이면, 대안이 없는 한, 독점 척도에서는 아래쪽으로 이동한다. 항의 가능성이 많고 상의하고 상담할 수 있는 인간관계자가 많을수록, 소프트웨어 시스템은 덜 독점적이다. 평가를 개선할 수 있다.

 

유저에 따라 서로 다른 결과를 보여주는 개인화된 서비스는 기본적으로 블랙박스 분석을 하기가 쉽지 않다. 그리하여 손해잠재력이 더 클 때가 많다. 그 시스템은 왼쪽에서 오른쪽으로 이동한다.

 

해당하는 사람이 더 많을수록 개인의 손해잠재력을 합한 크기가 더 커지고, 대개 전 사회적 손해잠재력도 커진다.

 

 [실제 사례들을 리스크 매트릭스에 배치한 모습]

 

 

내가 이보다 훨씬 더 좋지 않게 여기는 것은 친구들과 회사의 소식을 선택해 유저의 시작페이지에 올려주는 페이스북의  뉴스피드 알고리즘이다. 지난 몇년간의 스캔들은 제3자가 거짓 정보나 음모론을 조작하여 올리는 것이 얼마나 손해를 초래할 수  있는지를 보여주었다.

 


 

[다섯 가지 감독 등급]

 

등급 0: 기술적 감독이 필요하지 않아 보일 정도로 손해잠재력이 작다. 의심스러운 경우는 추후 이 시스템이 차별이나 다른  손해를 야기하고 있지 않은지 검증할 수 있다. 일단 의심스러운 경우가 발생하면 손해잠재력은 커지고, 그 의사결정 시스템은 그로써  자동으로 더 높은 요구를 가진 등급으로 내려가게 된다.

 

등급 1: 손해잠재력은 그냥 넘길 수 없는 정도이다. 이 시스템은 지속적인 감시가 이루어져야 한다. 이를 위해 분석을  허락하는 인터페이스가 있어야 한다 (이해가능성 요구). 그 밖에도 사회는 이런 시스템이 어떤 품질 척도로 훈련되는지, 어떤  머신러닝 기법이 활용되는지도 알아야 한다. 무엇보다 이 시스템이 사회과정에서 수행하는 역할을 이해하는 것이 필요하다. 이런  시스템의 결정에 인간의 뒷받침이 이루어지는가? 아니면 결정이 자동으로 이루어지는가? 이런 결정이 어떤 결과를 가져올까, 어떤 항의  가능성이 있을까? 마지막에 지적한 점들은 투명성 요구에 해당한다.

 

등급 2: 손해잠재력이 증가하고 반박 가능성은 적은 경우다. 등급 1에 제기된 요구들 외에 여기서는 input data를  더 정확히 아는 것이 필요하다 (투명성 요구). 그 밖에 사회는 이런 시스템의 품질 평가를 자율적으로 점검할 수 있는 가능성을  확보해야 할 것이다 (이해가능성 요구).

 

등급 3: 손해잠재력이 매우 큰 경우다. 어떤 특성이 어떤 결정으로 이어지는지를 평가하기 위해서는 결정 배후의 메커니즘을  직접 살펴보는 것이 필수적이다.  이 시스템은 찾아낸 결정규칙들을 검열할 수 있는 머신러닝 기법으로 훈련해야 한다. 이 시스템은  input data를 점검해 그 데이터에 차별이 들어있지 않은지 등을 살펴보아야 한다.

 

등급 4: 손해잠재력이 너무 크거나, 여러 이유에서 법적 혹은 기술적으로 관할될 수 없으므로, 폐기되어야 한다.

 

 

 

 


 

다음 그림은 투명성과 이해가능성을 정리해서 보여준다. 이것은 우리가 독일 소비자 센터 연방연합에 넘긴 자료다. (독일 소비자 센터 연방연합을 위한 연구)