ಕನ್ನಡದ ಪುಸ್ತಕವನ್ನು ಡಿಜಿಟಲೈಸ್ ಮಾಡುವ ಬಗ್ಗೆ ನಾನು ಹಿಂದೆ ಬರೆದಿದ್ದೇನೆ(http://mnsrao.blogspot.com/2009/08/blog-post_10.html).ಆಗ ಪೂರ್ಣವಾಗಿ ಕೀಲಿಕಾರನಾಗಿ ಮಾಡಿದ್ದು. ಅದರಲ್ಲಿ ವಿಶೇಷವೇನೂ ಇಲ್ಲ; ಸಾಮಾನ್ಯ ಕೆಲಸಗಾರರಂತೆ ಒಂದೇಸಮನೆ ಮಾಡಿಕೊಂಡು ಹೋದರಾಯಿತು. ಅದರಲ್ಲಿ ಹೇಳಿಕೊಳ್ಳಲು ಹೊಸತೇನೂ ಇಲ್ಲ. ಆದರೂ ಅದರಬಗ್ಗೆ ಬರೆದೇ ಬರೆದೆ. ಯಾಕೆಂದರೆ ಅದು ಬಹಳಕಾಲ ಹಿಡಿಯಿತು ಮತ್ತು ನನ್ನ ವೃತ್ತಿಯಾಗಿರಲಿಲ್ಲ; ಪ್ರವೃತ್ತಿಯಾಗಿತ್ತು. ಅದಕ್ಕೇ ಅದು ನನಗೆ ವಿಸೇಷವಾಯಿತೇನೋ! ಪ್ರವೃತ್ತಿಯನ್ನು ಡಂಗುರ ಹೊಡೆದು ಹೇಳಿಕೊಳ್ಳಬಾರದಿತ್ತು.
ಆ ದಾರಿಯಲ್ಲಿ ನಡೆದು ಕೊಂಚ ತಿರುವು ಬೇಕೆನಿಸಿದಾಗ ಆ ಕತ್ತಲು ದಿಕ್ಕಿನಲ್ಲಿ ಒಂದು ಸಣ್ಣ ಬೆಳಕಿನ ಕಿಂಡಿ ಕಾಣಿಸಿತು. ಇಂಗ್ಲಿಷಿಗೆ ಒಸಿಆರ್ ಇದೆ ಕನ್ನಡಕ್ಕೆ ಏಕಿಲ್ಲ ೆಂದು ಗೂಗಲ್ ನಲ್ಲಿ ಹುಡಿಕಿದಾಗ ಶ್ರೀರಂಗರ ಪರಿಚಯವಾಯಿತು. ಅವರು ಟೆಸೆರಾಕ್ಟ್ ನಲ್ಲಿ ಕನ್ನಡ ಒಸಿಆರ್ ಬಗ್ಗೆ ಸಾಕಷ್ಟು ಬೆದಕಿ ಬೆದಕಿ ಒಂದು ಅತಿ ಹರಿತವಲ್ಲದ ಮಟ್ಟ ತಲುಪಿದ್ದು. (ಅದನ್ನೇ ಹರಿತಗೊಳಿಸಲು ಅವರೊಡನೆ ಸ್ವಲ್ಪ ಕೈಜೋಡಿಸುತ್ತಿದ್ದೇನೆ - ಅದು ಬೇರೆ ವಿಷಯ) ಾ ಪದ್ಧತಿಯನ್ನು ಉಪಯೋಗಿಸಿ ಏಕೆ ಕನ್ನಡದ ಪುಸ್ತಕವನ್ನು ಡಿಜಿಟಲೈಸ್ ಮಾಡಬಾರದು ಅನ್ನಿಸಿ ಆ ದಾರಿಯನ್ನು ಕೊಂಚ ಸವೆಸಿದ್ದೇನೆ. ಇಲ್ಲಿ ಒಂದು ವಿಶಯ ಹೇಳಬೇಕು. ಅದೇನೆಂದರೆ ವೇಗವಾಗಿ ಕೀಲಿಕರಣ ಮಾಡುವ ಪಟುಗಳಿಗೆ ೀಗಲೂ ಕೀಲಿಕರಣವೇ ನೇಗ ಮತ್ತು ಸುಲಭ. ಒಸಿಆರ್ ಅನ್ನು ಬೆಳೆಸಬೇಕು, ಅದು ಒಂದು ವಿಧಾನವಾಗಿ ಕನ್ನಡಿಗರಿಗೆ ಸಿಗಬೇಕೆಂದು ಬಯಸುತ್ತಿರುವುದರಿಂದ ನಾನು ಸ್ವಲ್ಪ ಕಸರತ್ತನ್ನೇ ಮಾಡುತ್ತಿದ್ದೇನೆ.
ಒಸಿಆರ್ ಉತ್ತಮಪಡಿಸಲು ಈಗ ಎರಡು ಕೆಲಸಗಳಿವೆ: 1) ಕನ್ನಡಕ್ಕೆ ಸಂಬಂಧಿಸಿದ ಉಪತತ್ರಾಂಶವನ್ನು ಉತ್ತಮಪಡಿಸುವುದು 2) ಒಸಿಆರ್ ನ ಸಿದ್ಧವಾದ ಕರಡು ಪಠ್ಯವನ್ನು ತಿದ್ದುವುದು. ಈ ಎರಡೂ ಕೆಲಸಗಳು ನಡೆಯುತ್ತಿವೆ. ಈಗ ಲಭ್ಯವಿರುವ ಉಪತತ್ರಾಂಶವನ್ನು ಉಪಯೋಗಿಸಿದಾಗ ಉತ್ಪತ್ತಿಯಾಗುವ ಕರಡನ್ನು ತಿದ್ದುವ ವಿಧಾನವಾದರೂ ಕೈಗೆ ಸಿಕ್ಕಿದಲ್ಲಿ ಡಿಜಿಟಲೈಸ್ ಮಾಡುವುದು ಕೊಂಚಮಟ್ಟಿಗೆ ಹಗುರವಾಗುತ್ತದೆ. ಮೊದಲನೇ ಆಯ್ಕೆ ದೀರ್ಘಕಾಲಾವಧಿಯದ್ದು. ಸ್ವಲ್ಪ ಕಷ್ಟತರವಾದದ್ದೂ ಹೌದು. ಏತನ್ಮಧ್ಯೆ ಒಸಿಆರ್ ಬಳಕೆಮಾಡಿ ಕೆಲಸ ಹಗುರ ಮಾಡಿಕೊಳ್ಳಲು ಪ್ರಯತ್ನಿಸಿದಾಗ ಅದರ ಇಳುವರಿಯಲ್ಲಿ ಇರುವ ತಪ್ಪುಗಳನ್ನು ತಿದ್ದುವ ಕಾರ್ಯವೇ ನೇರವಾಗಿ ಕೀಲೀಕರಿಸುವುದಕ್ಕಿಂತ ಕಠಿಣವೆಂದೆನಿಸುವಷ್ಟು ಆಯಿತು. ಆದರೂ ನಾನು ವೃತ್ತಿಪರ ಕೀಲಿಕಾರನಲ್ಲದ್ದರಿಂದ ತಪ್ಪುಗಳನ್ನು ಒಪ್ಪಮಾಡುವ ದಾರಿಯನ್ನೇ ಆಯ್ಕೆ ಮಾಡಿಕೊಂಡೆ. ಇದರಿಂದ ಒಂದು ಉಪಕಾರ ಆಯಿತು. ಏನೆಂದರೆ Post-processing ಗೆ ಬೇಕಾಗುವ ಸಾಮಗ್ರಿಯನ್ನು ಗುಂಪುಕೂಡಿಸಲು ಇದೊಂದೇ ಮಾರ್ಗ.
ಈಗ ನಾನು ಅನುಸರಿಸಿದ ಕೆಲವು ಮೆಟ್ಟಲುಗಳನ್ನು ನೋಡೋಣ;
1.ನಾನು ಒಸಿಆರ್ ಮಾಡಲು ಬಳಸುವ GUI FreeOCR ಅದನ್ನು ದೊರಕಿಸಿಕೊಳ್ಳುವ ಜಾಗ http://www.paperfile.net/ ಕನ್ನಡ ಉಪತತ್ರಾಂಸ ದೊರಕಿಸಿಕೊಳ್ಳುವ ಜಾಗ http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.kan.tar.gz&can=2&q=
ಮುಂದೆ ಈ ಉಪತತ್ರಾಂಸವನ್ನು ಎರಡುಕಡೆ ಹಚ್ಚಬೇಕು.1) FreeOCR -->Settings-->open Language folder 2) C:\Program Files\Tesseract-OCR\tessdata (ಇದು ಇಲ್ಲದಿದ್ದಲ್ಲಿ ಹೊಸದಾಗಿ ಸೃಷ್ಟಿಸಿಕೊಳ್ಳಿ)
2.ಕನ್ನಡದ ಒಂದು tif ಕಡತವನ್ನು FreeOCR ನಲ್ಲಿ kan OCR Language ಉಪಯೋಗಿಸಿ ಒಸಿಆರ್ ಮಾಡಿ ಬಂದ ಇಳುವರಿಯನ್ನು ಬೇರೆ ಕಡೆಯಲ್ಲಿ ಪರಿಶೀಲಿಸಿ ತಪ್ಪುಗಳನ್ನು ಕಲೆಹಾಕಬೇಕು ಅವುಗಳಲ್ಲಿ ಎಲ್ಲವನ್ನೂ ಉಪಯೋಗಿಸಲು ಬರುವುದಿಲ್ಲ.ಏಕೆಂದರೆ ಒಂದು ಕಡೆ ಸರಿಮಾಡಿದರೆ ಮತ್ತೊಂದು ಕಡೆ ಕೆಡುವಂತಾಗಬಾರದು.
Text Postptrcessing (FreeOCR -->Settings -->Text Postptrcessing ನಲ್ಲಿ ಸೇರಿಸಬಹುದಾದನ್ನು ಆರಿಸಿ ಅವಕ್ಕೆ ಸರಿ ಏನೆಂದು ತೀರ್ಮಾನಿಸಿ ಪ್ರತಿಯೊಂದು ಜೋಡಿಯನ್ನು (ತಪ್ಪು space ಒಪ್ಪು) ಬೇರೆಬೇರೆ ಸಾಲುಗಳಲ್ಲಿ
ನಾ7 ರ್ನಾ
ದೋ ದೋ
ದಿ7 ರ್ದಿ
ನ್ನೕ ನ್ನೇ
ಹೀಗೆ ಸೇರಿಸಬೇಕು
3.ಈ ಕ್ರಿಯೆ ಮುಗಿಯದಂತಹುದು. ಎಷ್ಟು ಬೆಳೆಸಿದರೂ ಅಷ್ಟು ಒಸಿಆರ್ ಶುದ್ಧವಾಗುತ್ತದೆ
4.ಒಂದು ಪುಸ್ತಕವನ್ನು ಒಸಿಆರ್ ಮಾಡುತ್ತಿದ್ದೇನೆಂದು ಕೊಳ್ಳಿ ಅದನ್ನು FreeOCR ನಲ್ಲಿಯೇ Text Postptrcessing ಉಪಯೋಗಿಸಿ ಸ್ವಚ್ಛಗೊಳಿಸಿದ್ದೂ ಆಯಿತು. ಆದರೂ ಇನ್ನೂ ಸ್ವಚ್ಛಗೊಳಿಸಬೇಕಾಗಿರುತ್ತದೆ. ಇಡೀ ಪುಸ್ತಕದ ಎಲ್ಲಾ ತಪ್ಪುಗಳನ್ನೂ ಒಂದೇ ಏಟಿಗೆ ತಿದ್ದಲು ಕಷ್ಟ. ಅದಕ್ಕಾಗಿ ಅದರಲ್ಲಿ ಹಲುವು ಭಾಗಗಳಿದ್ದರೆ ತಿದ್ದಲು ನಾನೊಂದು ಉಪಾಯವನ್ನು ಅನುಸರಿಸುತ್ತಿದ್ದೇನೆ. ಇದಕ್ಕೆ Notepad++ ಅನುಕೂಲ. ಬೇರೆಬೇರೆ ಭಾಗಗಳನ್ನು ಬೇರೆಬೇರೆ ಕಡತಗಳಾಗಿ ಮಾಡಿ ಬೇರೆಬೇರೆಯಾಗಿ ತೆರೆಯಿರಿ. ಒಂದು ತಪ್ಪು ಎಲ್ಲ ಕಡತಗಳಲ್ಲೂ ಇರಬಹುದೆನಿಸಿದರೆ Search--> Replace--> Replace all in all opened documents
ಮುಂದೆ ತಪ್ಪುಗಳು ಕಡಿಮೆ ಇರುವ ಒಸಿಆರ್ ಬರಲೆಂದು ನಾನು ಆಶಿಸುತ್ತೇನೆ.
No comments:
Post a Comment