PDF, 이미지 글자 추출하는 방법
사용하는 방법은 그렇게 어렵지 않습니다. 물론 구글 계정이 있으셔야 하므로 구글 계정이 없으신 분은 구글 계정을 만들고 오시기 바랍니다. (https://accounts.google.com/signup?hl=ko)
구글 계정에 로그인 하신 뒤에 (https://drive.google.com/) 구글 드라이브 사이트에 접속하시면 됩니다. 그럼 아래 이미지처럼 무료로 파일을 올릴 수 있는 공간이 있습니다. 저는 기존에 사용 중이기 때문에 몇몇 파일이 있지만 처음 사용하시는 분들은 파일 리스트가 없으실 겁니다.
구글 드라이브에서 새로 만들기 버튼을 눌러 주시고 글자를 추출하고자 하는 이미지나 PDF 파일을 파일 업로드 버튼을 누르셔서 파일을 올리시기 바랍니다.
가장 처음에 말씀드렸던 이미지부터 파일 업로드를 해보겠습니다. 파일 업로드가 끝나면 아래 이미지와 같이 업로드된 파일이 리스트에 표시됩니다. 해당 이미지나 PDF 파일을 선택하시고 마우스 오른쪽 버튼을 누르시면 됩니다.
그러면 메뉴가 나오는데 여기서 연결 앱 메뉴에서 구글 문서 메뉴를 선택해 주시기 바랍니다.
그럼 아래 이미지와 같이 기존 이미지가 표시되고 이미지 바로 아래에 이미지에서 추출한 글자가 텍스트로 표시됩니다. 큰 글자는 정상적으로 인식이 되었으나 작은 글자는 기울어져 있고 작은 글씨 이기 때문에 인식이 정상적으로 되지 않습니다.
이런 식으로 이미지나 PDF 글자를 추출하여 이 글자를 복사하여 붙여넣을 수도 있고 글자가 많은 경우 더욱더 활용도는 많아 질 것입니다. 하지만 모든 프로그램이 그렇듯 완벽하게 글자를 인식하는 것은 아닙니다. 아래 예를 보시면 아시겠지요.
기본적인 사용방법은 이게 끝입니다. 글자 추출을 원하는 이미지나 PDF 파일을 구글 드라이브에 올리고 구글 문서로 변환하면 됩니다. 그러므로 3가지의 이미지를 통해 테스트해볼 테니 필요하신 분들은 참고하시고 이용하시면 될 것 같습니다.
마지막으로 글자가 많으면서도 정확한 텍스트 표시가 된 이미지를 올려서 결과를 확인해 보았습니다. 좀 더 정확한 결과를 확인할 수 있었고 중간중간 오류도 있지만 대체로 정확한 텍스트가 추출이 되었습니다..
구글 도움말에서도 글자를 추출하는 방법에 최고의 결과를 얻는 방법에 대해서 문서가 있었습니다. (https://support.google.com/drive/answer/176692?hl=ko) 자세한 내용은 이곳에서도 확인이 가능합니다.
대략 아래 내용을 정리해보자면 이미지 또 는 PDF 품질이 선명하고 좋으면서 텍스트의 크기가 일정 크기 이상이 되어야 하고 표준 글꼴을 사용하면 좋은 결과를 볼 수 있다고 합니다.
위 방법을 활용하면 복사가 되지 않는 문서의 내용에서도 이미지 캡처 등을 통해 내용을 쉽게 사용할 수 있으리라 생각됩니다. 적은 양의 글자라면 그냥 보면서 타자를 하는 게 나으실 수 있지만, 양이 많거나 내용 추출이 필요한 경우 활용하기 좋을 것 같습니다.