본문 바로가기
잡동사니/컴퓨터 등

윈도우11 캡처 도구 문자 추출

by 풍경과 생각 2023. 10. 29.

아주 자신이 있지는 않은데 윈도우11 '캡처 도구' 프로그램에 '문자 추출' 기능이 처음부터 있지는 않았고 언젠가 업데이트되면서 추가된 것으로 알고 있다. 한번 확인해 봐야지 하다가 드디어 해봤다.

 

 

'캡처 도구' 프로그램 자체야 '캡처 도구' 프로그램으로 캡처할 수 없는 것 같아서 다른 캡처 프로그램을 이용했다. '컵처 도구' 프로그램을 이용해서 캡처를 하거나 또는 사진 파일을 열면 위에 보이는 것처럼 텍스트 표시가 보인다. '이미지 자르기' 오른쪽에 '텍스트 작업'이라는 말풍선이 마우스를 대면 나타난다. 그 부분을 누르면 이미지에 파란색 테두리가 잠깐 나타났다가 사라진다. 아마도 텍스트를 추출하는 작업하는 시간을 나타내는 것으로 보인다. 이어서 이미지에 텍스트가 반전된다. 위의 사진에 보이는 것처럼 '모든 텍스트 복사'를 누르고 난 다음에 한컴오피스 등의 프로그램에 복사하면 추출된 텍스트가 가 확인된다. 그 외에 '빠른 수정'은 이메일, 전화번호 등을 제거하는 기능으로 알고 있다.

 

몇 개의 이미지에서 텍스트 추출해 해본 간단한 소감은 다음과 같다.

 

1. 이미지에 있는 모든 텍스트를 다 추출할 수 없을 수도 있다. 즉, 많은 양의 텍스트가 있는 이미지는 위에서부터 일부만 추출된다. (혹시 대단한 해결책이 있는지는 모르겠지만) 그러한 이미지를 분할하여 추출해야 할 것 같다. 물론 다른 프로그램을 이용하면 될지 모르겠다.

 

2. 모든 텍스트를 다 정확하게 추출하지 못할 수도 있다. 두 가지 경우에서 확인되는데 먼저, 글자 자체가 크기가 작고 굵기가 가는 글씨일 때는 다른 글자로 잘못 인식할 수 있다. 다음으로 책을 펼쳐 찍은 사진일 때 평평하지 않은 상태로 찍힌 면은 사진상으로도 줄이 직선이 아니라 물결 모양의 곡선이 될 수 있는데 이러한 줄은 제대로 인식되지 않을 수 있다. 한 줄을 임으로 나눠 일부는 위에, 일부는 아래에 있는 줄로 처리해서 실제 원문을 찾아 추가 작업을 해야 할 수 있다. 결국 혹시 책의 어떤 면을 사진을 찍고 텍스트를 추출할 일이 있다면 처음에 찍을 때 정확하게 찍어야 한다. 

 

다른 책을 보면서 부분적으로 인용하면서 글을 쓸 때 이미지를 통한 텍스트 추출 기능은 편리하게 사용될 수 있다. 원문을 인용할 때 발생할 수 있는 실수를 줄일 수 있다는 점에서 좋다고 할 수 있다. 그런데 이런저런 이유로 정확하게 텍스트가 정확하게 추출되지 않을 수 있기 때문에 정확히 추출되었는지 확인이 필요하다. 그리고 이미지에서 텍스트를 추출하는 일의 양이 많지 않으며 타자 속도가 아주 빠른 사람이라면 이런 프로그램이 크게 도움이 되지 않을 수도 있다. 모니터 한 편에 이미지 열어놓고 다른 한 편에 한컴오피스 등 프로그램 열어놓고 보면서 입력하는 것이 별로 시간이 많이 들지 않는 사람도 충분히 있을 수 있기 때문이다.