회사 업무에 필요한 내용.
당장 구현할 수 있는 요건이 안되어서 나중으로 밀림.
구현 가능한지에 대한 검토도 없음.
그냥 나중을 위한 메모일 뿐 ...
1. 목표
- HWP, DOC 등의 문서파일에서 TEXT를 추출한다.
2. 현재
- 한글 프로그램을 설치하면 HwpControl ActiveX가 같이 설치된다.
- 이 ActiveX로 HWP 파일을 열고 TEXT를 추출한다.
- 웹페이지의 <textarea>에 넣고 submit 하면 DB에 저장한다.
- n개의 문서를 처리해야 하므로 javascript가 자동으로 추출하고 submit한다.
3. 문제점
- HWP 파일 중에 낮은 확률로 HwpControl을 죽이는 녀석이 존재한다.
- n개의 문서를 자동으로 처리하는 것이 목적인데 중간에 HwpControl이 죽으면서 웹페이지가 같이 먹통이 된다.
4. 개선방안
- JNI를 사용한다.
- HwpControl을 수정할 수는 없으니 중간에 DLL을 작성해서 HwpControl을 구동한다.
- Java -(JNI)- DLL - HwpControl 형태가 된다.
- 지식이 짧은 관계로 DLL에서 HwpControl을 바로 호출할 수 있을지는 모르겠다. 가능하지 않을까 -_-?