본문 바로가기

   
IT/IT 정보

PDF, 이미지 글자 추출하는 방법

반응형

PDF, 이미지  글자 추출하는 방법

이미지나 PDF로 된 파일에서는 특정 프로그램을 이용하면 글자 추출이 가능합니다. 이미지 또는 PDF 파일에서 사용하고 싶은 내용이(글자) 있었는데 이미지나 PDF 같은 경우는 일반적인 방법으로는 글자를 추출하기 힘듭니다. 

그러므로 특정 프로그램을 이용해야 하는데, 제가 사용하는 방법은 따로 프로그램 설치하지 않아도 되고 구글에서 지원하는 프로그램이기 때문에 사용하기에 편했던 것 같습니다. 

저는 구글 드라이브를 이용하여 뽑아내고자 하는 이미지를 업로드 한 뒤에 구글 문서와 연동하여 글자 형태로 표현된 이미지 또는 PDF 파일에서 글자를 추출해 보고자 합니다. 

웹에서 3가지의 이미지를 다운 받아서 테스트를 진행하며 사용방법도 같이 작성 합니다. 첫 번째 이미지는 책에 일부 내용인데 약간 기울어져 있는 형태입니다. 두 번째 이미지는 숫자 인식을 확인하기 위해서 숫자가 많은 형태의 이미지를 선택하였고 3번째 이미지는 정확도가 높은 글자라고 생각되는 기사의 일부 내용의 이미지를 가지고 테스트하고자 합니다. 

아래 이미지를 보시면 아시겠지만 모두 이미지 파일입니다PDF 파일도 가능합니다) 보통 방법으로는 이미지에 있는 글자를 가져다 쓰기 쉽지 않아서 이미지를 보면서 다시 작성하거나 글자를 입력해야 하는 귀찮음이 있습니다. 

자료 조사를 하거나 많은 양의 텍스트(글자)를 업무 또는 다양한 곳에서 사용할 일이 있을 때는 꽤 유용하게 사용할 일이 있을 거라고 생각되었습니다.



사용하는 방법은 그렇게 어렵지 않습니다. 물론 구글 계정이 있으셔야 하므로 구글 계정이 없으신 분은 구글 계정을 만들고 오시기 바랍니다. (https://accounts.google.com/signup?hl=ko


구글 계정에 로그인 하신 뒤에 (https://drive.google.com/) 구글 드라이브 사이트에 접속하시면 됩니다. 그럼 아래 이미지처럼 무료로 파일을 올릴 수 있는 공간이 있습니다. 저는 기존에 사용 중이기 때문에 몇몇 파일이 있지만 처음 사용하시는 분들은 파일 리스트가 없으실 겁니다. 


구글 드라이브에서 새로 만들기 버튼을 눌러 주시고 글자를 추출하고자 하는 이미지나 PDF 파일을 파일 업로드 버튼을 누르셔서 파일을 올리시기 바랍니다.



가장 처음에 말씀드렸던 이미지부터 파일 업로드를 해보겠습니다. 파일 업로드가 끝나면 아래 이미지와 같이 업로드된 파일이 리스트에 표시됩니다. 해당 이미지나 PDF 파일을 선택하시고 마우스 오른쪽 버튼을 누르시면 됩니다. 


그러면 메뉴가 나오는데 여기서 연결 앱 메뉴에서 구글 문서 메뉴를 선택해 주시기 바랍니다.



그럼 아래 이미지와 같이 기존 이미지가 표시되고 이미지 바로 아래에 이미지에서 추출한 글자가 텍스트로 표시됩니다. 큰 글자는 정상적으로 인식이 되었으나 작은 글자는 기울어져 있고 작은 글씨 이기 때문에 인식이 정상적으로 되지 않습니다. 


이런 식으로 이미지나 PDF 글자를 추출하여 이 글자를 복사하여 붙여넣을 수도 있고 글자가 많은 경우 더욱더 활용도는 많아 질 것입니다. 하지만 모든 프로그램이 그렇듯 완벽하게 글자를 인식하는 것은 아닙니다. 아래 예를 보시면 아시겠지요. 


기본적인 사용방법은 이게 끝입니다. 글자 추출을 원하는 이미지나 PDF 파일을 구글 드라이브에 올리고 구글 문서로 변환하면 됩니다. 그러므로 3가지의 이미지를 통해 테스트해볼 테니 필요하신 분들은 참고하시고 이용하시면 될 것 같습니다.



위와 같은 방법으로 이번엔 숫자가 많은 이미지를 올려서 테스트해보았습니다. 비교적 정확한 결과를 확인할 수 있었고 이미지에서 추출한 글자를 복사할 수도 있기에 어디서든지 활용 가능합니다. 

물론 몇 가지 오류가 있어 정확히 해석되지 않은 부분도 있다는 점 참고하시기 바랍니다.



마지막으로 글자가 많으면서도 정확한 텍스트 표시가 된 이미지를 올려서 결과를 확인해 보았습니다. 좀 더 정확한 결과를 확인할 수 있었고 중간중간 오류도 있지만 대체로 정확한 텍스트가 추출이 되었습니다..



구글 도움말에서도 글자를 추출하는 방법에 최고의 결과를 얻는 방법에 대해서 문서가 있었습니다. (https://support.google.com/drive/answer/176692?hl=ko) 자세한 내용은 이곳에서도 확인이 가능합니다. 


대략 아래 내용을 정리해보자면 이미지 또 는 PDF 품질이 선명하고 좋으면서 텍스트의 크기가 일정 크기 이상이 되어야 하고 표준 글꼴을 사용하면 좋은 결과를 볼 수 있다고 합니다.



위 방법을 활용하면 복사가 되지 않는 문서의 내용에서도 이미지 캡처 등을 통해 내용을 쉽게 사용할 수 있으리라 생각됩니다. 적은 양의 글자라면 그냥 보면서 타자를 하는 게 나으실 수 있지만, 양이 많거나 내용 추출이 필요한 경우 활용하기 좋을 것 같습니다.

반응형