Kay Park
9월 18일 서울 근처에서
자연어처리의 난제는 성능이 아니라 원리에 있다.
'사람도 못 알아듣는 걸 컴퓨터가 왜 이해해야 하는가'.

사람이 이해하지 못하는 문맥은 
컴퓨터도 이해하지 못해야 맞다는 생각이 든다.

대화 시스템을 인식률로 측정하는 연구가 많은데 
가만보면 그건 그리 중요한 척도가 아니다.
오히려 대화 이해는 지식 공유도라는 요소를 반영해야 계산이 된다.

이게 참 말장난 같이 애매한 말이긴 한데..
남녀간의 다툼을 대본으로 적어보면 느낌이 올지도 모른다.
문장과 문맥에 담긴 의미를 모두 정확히 해석했는데도
대화를 전혀 이해하지 못한 상황이다.
인식률은 100%인데 이해도는 0%이다.

사람끼리 대화할 때에도 배경지식을 공유하지 않으면 이해할 수 없는 것 투성이다.
그리고 배경지식은 사회적, 문화적, 기술적인 이유로 계속 변한다.

컴퓨터도 마찬가지다.
사람이 이해할 수 없는 건 컴퓨터도 이해 못 하는 게 맞다.
따라서 문장의 정확한 인식과는 별개로 
인식한 의미를 이해할 것인가를 또 다시 확률에 따라야 한다.
인식된 문장을 받아들일 확률은 배경 지식을 공유한 비중과 관련있다.

사람이 대화를 이해하는 건 대화 내용을 해석하는 게 아니라 
공유 지식의 편차를 줄이는 것이다.

이해를 완성하기까지 상호공유해야할 지식이 100일 때
대화 중 50의 공유 지식을 일치시켰다면
대화의 의미를 정확히 해석해서 인식률이 100%라고 해도
대화의 이해율은 50%이다.

예를 들어 '밥 먹었어?"가 열 번 중 인사로 세 번, 
같이 밥을 먹자는 의도로 일 곱 번 쓰였다고 하자.

"안녕, 밥 먹었어?"가 문맥상 100% 인사로 판정된다고 할 때,
상대방이 밥을 먹었는지에 대한 지식이 필요한 공유 지식이 된다.
필요 지식을 공유하기 전에는 
인사라는 인식률이 100%이더라도 아직 이해도는 30%에 그친다.
필요 지식을 공유하고 나야 이해도는 100%가 된다.

"안녕, 밥 먹었어?" => 100% 인식률로 인사
"아니, 넌 먹었어?" => 공유 지식 편차를 감소시키는 문맥
"응 먹었지. 이따봐." => 공유 지식 일치. 100% 이해율.

아직 밥을 안 먹었다면 이해를 위한 공유지식이 모자라다.
같이 밥을 먹자는 의도일 수 있으므로 이해도는 100%가 될 수 없다.

"안녕, 밥 먹었어?" => 100% 인식률로 인사
"아니, 넌 먹었어?" => 공유 지식 편차를 감소시키는 문맥
"아직 안 먹었어." => 인사로 이해해야할 확률 30%, 식사 제안으로 이해해야할 확률 70%.
"같이 밥 먹을래?" => 식사 제안의 공유 지식 편차를 감소시키기 위한 문맥 필요.

따라서 대화 시스템은 공유 지식의 일치 확률을 
중요 요소로 추가해야 할 것으로 보인다.



Trackbacks  | Comments