Wednesday, December 5, 2012

ಕನ್ನಡಕ್ಕೆ ಓ.ಸಿ.ಆರ್
ಮುಖ್ಯವಾಗಿ ಗಣಕದಲ್ಲಿ ಇರುವ ಕಡತಗಳಲ್ಲಿ ಈ ವಿಧಗಳು ಹೆಚ್ಚು: ಪಠ್ಯ, ಚಿತ್ರ, ವಿಡಿಯೋ. ಪುಸ್ತಕಗಳಲ್ಲಿ ಅಚ್ಚಾಗಿರುವ ಪುಟಗಳಿಂದ ಪಠ್ಯಗಳನ್ನು ಗಣಕ ಕಡತವಾಗಿ ಉಳಿಸಿ ಉಪಯೋಗಿಸಬೇಕಾದರೆ ಆ ಪುಟಗಳನ್ನು scan ಮಾಡಿ ಬರಬಹುದಾದ ಚಿತ್ರಗಳನ್ನು ಹಾಗೆಯೇ ಉಪಯೋಗಿಸಬಹುದು, ಅಥವಾ ಪಠ್ಯವಾಗಿ ಪರಿವರ್ತಿಸ ಬಹುದು. ಎರಡನೇ ಆಯ್ಕೆಯಲ್ಲಿ ಒಂದು ಹೆಚ್ಚಿನ ಅನುಕೂಲವಿದೆ. ಏನೆಂದರೆ ಪಠ್ಯ ಕದತದ byte ಗಾತ್ರ ಚಿತ್ರದ್ದಕ್ಕಿಂತ ಬಹಳ ಬಹಳ ಸಣ್ಣದು. ಇನ್ನೊಂದು ಮುಖ್ಯವಾದದ್ದು ಏನೆಂದರೆ ಪಠ್ಯದಲ್ಲಿ ಬಹಳ ಸುಲಭವಾಗಿ ಅದರಲ್ಲಿನ ಅಕ್ಷರಗಳನ್ನು ತೆಗೆಯಬಹುದು, ತಿದ್ದಬಹುದು ಮತ್ತು ಹೊಸದಾಗಿ ಏನನ್ನು ಬೇಕಾದರೂ ಸೇರಿಸಬಹುದು. ಅಂದರೆ ಯಾವಭಾಗನ್ನು ಬೇಕಾದರೂ ಸಂಪಾದಿಸಬಹುದು ( Editable). ಇನ್ನೂ ಒಂದು ಉಪಯೋಗವೆಂದರೆ ಪಠ್ಯ ಭಾಗದಲ್ಲಿ ಹುಡುಕುವ ( search) ಸೌಲಭ್ಯವಿದೆ.  scan ಮಾಡಿ ಬರಬಹುದಾದ ಚಿತ್ರಗಳನ್ನು ಪಠ್ಯವಾಗಿ ಪರಿವರ್ತಿಸುವ ಕಾರ್ಯವನ್ನು OCR ಅನ್ನುತ್ತಾರೆ. ಇದರ ಪೂರ್ಣ ಹೆಸರು Optical Character Recognition. ಚಿತ್ರದಲ್ಲಿ ಹುದುಗಿರುವ ಬಿಳಿ-ಕರಿ ಇತ್ಯಾದಿ ಬಣ್ಣಗಳಲ್ಲಿರುವ ಅಕ್ಷರಗಳನ್ನು ಗುರುತುಹಿಡಿದು ಅದನ್ನು ಪಠ್ಯದ ನಿಯಮಾನುಸಾರ ಕಡತದಲ್ಲಿ ಶೇಖರಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುವುದೇ ಆಗಿದೆ. ಇನ್ನೊಂದು ವಿಷಯ ಏನೆಂದರೆ ಈಗ scan ಮಾಡುವ ಉಪಕರಣಗಳಲ್ಲಿಯೇ ಇಂಗ್ಲೀಷ್ ಅಂತಹ ಭಾಷೆಗಳನ್ನು OCR ಮಾಡಿಯೇ ಪಠ್ಯವನ್ನು ಉತ್ಪಾದಿಸುವ ಅನುಕೂಲಗಳಿವೆ. ಏಕೆಂದರೆ ಇಂಗ್ಲಿಷ್ ಅಂತಹ ಭಾಷೆಗಳಿಗೆ OCR ತಂತ್ರಜ್ಞಾನ ಇದೆ ಮತ್ತು ಅದು ಹೆಚ್ಚಿನ ತೊಡಕಿನವು ಅಲ್ಲ. ಕಾರಣ ಇಂಗ್ಲಿಷ್ ಅಂತಹ ಭಾಷೆಗಲ್ಲಿ ಕಡಿಮೆ ಅಕ್ಷರಗಳಿವೆ. ಕನ್ನಡದಲ್ಲಿ ಹೆಚ್ಚು ಅಕ್ಷರಗಳಿವೆ ಎನ್ನುವುದಕ್ಕಿಂಥ ಅಕ್ಷರಗಳು ಕ್ಲಿಷ್ಟವಾದವು. ಕಾಗುಣಿತ, ವೊತ್ತಕ್ಷರಗಳು ಮತ್ತು ಒಂದಕ್ಕೊಂದು ಹೋಲುವ ಅಕ್ಷರಗಳು ಗಣಕಯಂತ್ರಕ್ಕೆ ಬಹಳಷ್ಟು ಸಮಸ್ಯೆಗಳನ್ನು ಒಡ್ಡಿವೆ.   ಸಾಮಾನ್ಯವಾಗಿ ಭಾರತದ ಭಾಷೆಗಳೆಲ್ಲವೂ ಇದೇ ಮಟ್ಟದಲ್ಲಿವೆ. ಹಾಗಾಗಿ ಇವುಗಳಿಗೆ OCR ಇಲ್ಲ. ಹೀಗೆಂದು ಏನೂ ಶೋಧ ನಡೆದಿಲ್ಲವೆಂದಿಲ್ಲ. Tesseract ಎನ್ನುವ ತತ್ರಾಂಶ ಒಂದು ಬಹುಮುಖವಾದದ್ದು. ಇದರ ಬಹು ಮುಖತ್ವ ಏನೆಂದರೆ ಅದರ ಕಾರ್ಯ ಸಾಧನವನ್ನು ಯಾವ ಭಾಷೆಗೆ ಬೇಕಾದರೂ ಅಳವಡಿಸಬಹುದು. ನಿಮ್ಮ ಗುರಿಯ ಭಾಷೆಯನ್ನು ಪರಿಶೀಲಿಸುವಂತಹ ತರಬೇತಿ ಮಾಡಿದ ಉಪತತ್ರಾಂಶವನ್ನು ಅದರ ಜೊತೆ ಅಳವಡಿಸಬೇಕಷ್ಟೆ.  ಅಲ್ಲದೆ ಅದು ಮುಕ್ತ ತತ್ರಂಶ. ಅದರ ತರಬೇತಿ ಕೆಲಸವನ್ನು ಬಾಷೆಯ ವೈವಿಧ್ಯತೆ ಮತ್ತು tesseract ತಿಳಿದವರು ಮಾಡಿ ಕನ್ನಡಕ್ಕೆ ಸೇವೆ ಸಲ್ಲಿಸಬಹುದು. ಇದರಿಂದ ಕನ್ನಡ ಅಂತರ್ಜಾಲದಲ್ಲಿ ಹೆಚ್ಚು ಪಸರಿಸಲು ಅನುಕೂಲವಾಗುತ್ತದೆ. ಈಗ ನಡೆಯಬೇಕಾಗಿರುವ ಕೆಲಸವೆಂದರೆ ಕನ್ನಡವನ್ನು tesseract ನೊಳಗೆ ಹೊಂದಿಸುವ ಉಪ ತತ್ರಂಶವನ್ನು ಸಿದ್ಧಪಡಿಸುವುದು. ಇದಕ್ಕೆ ಆಗಬೇಕಾಗಿರಿರುವ ಕೆಲಸವನ್ನು ತಿಳಿಯಬೇಕಾದರೆ tesseractನ ಮೂಲ ತತ್ರಾಂಶದ ರೂಪವನ್ನು ತಿಳಿಯಬೇಕು. ಇದನ್ನು ವಿವರಿಸುವ ತಾಣ :http://code.google.com/p/tesseract-ocr/ ಅದರ ಲಾಭಪಡೆಯಲು ಮುಖ್ಯವಾಗಿ ಕನ್ನಡದ ಪಠ್ಯವನ್ನು ಅಥವಾ ಚಿತ್ರವನ್ನು ಉಪಯೋಗಿಸಿ ಉಪ ತಂತ್ರಂಶವನ್ನು ಸಿದ್ಧಪಡಿಸಬೇಕು. ಇದರ ಕೆಲವು ಪ್ರಮುಖ ಘಟ್ಟಗಳನ್ನು ಇಲ್ಲಿ ತಿಳಿಸಲು ಪ್ರಯತ್ನಿಸಲಾಗಿದೆ. ೧. ಪಠ್ಯ ಅಥವಾ ಚಿತ್ರದಲ್ಲಿ ಕನ್ನಡದಲ್ಲಿ ಸಾಮಾನ್ಯವಾಗಿ ಬಳಕೆಗೆ ಬರುವ ಅಕ್ಷರಗಳ ಸೇರಿಕೆ ಇರಬೇಕು.
೨. ಪ್ರತಿ ಅಕ್ಷರದ ಆಕಾರವನ್ನು ಒಂದು ಚೌಕಟ್ಟಿನಲ್ಲಿ ಹಿಡಿದು ಆ ಆಕಾರವು ಯಾವ ಅಕ್ಷರವೆಂದು ನಿಗಧಿಪಡಿಸುವುದು ಮತ್ತು ತತ್ರಾಂಶವು ಅದನ್ನು ತನ್ನ ನಿಯಮಾವಳಿಗೆ ಸೇರಿಸಿಕೊಳ್ಳುವುದೇ ತರಬೇತಿಯ ಪ್ರಮುಖ ಉದ್ದೇಶ.
೩. ಪಠ್ಯ/ಚಿತ್ರ ಮತ್ತು ಅಕ್ಷರಗಳ ಸುತ್ತ ಚೌಕಟ್ಟನ್ನು ಮತ್ತು ಅದರ ಸರಹದ್ದನ್ನು ಸರಿಹೊಂದಿಸುವ ತತ್ರಾಂಶಗಳಿವೆ. ಇದನ್ನು ಉಪಯೋಗಿಸಿಕೊಂಡು ಚೌಕಟ್ಟಿನ ಒಳಪಟ್ಟು ಇರುವ ಕರಿ-ಬಿಳಿ ಆಕಾರಕ್ಕೆ ಯಾವ ಅಕ್ಷರವೆಂದು ನಾವು ನಿಯೋಜಿಸ ಬೇಕು.
೪. ಚಿತ್ರ ಮತ್ತು ಈ ನಿಯೋಜಿಸಿದ ಕಡತವನ್ನು ಮುಂದೆ ಉಪತತ್ರಾಂಶ ತಯಾರಿಸಲು ಉಪಯೋಗಿಸ ಬೇಕು. ಅದಕ್ಕೆ tesseract ನಲ್ಲಿ ಕೊಟ್ಟಿರುವ ಮೆಟ್ಟಲುಗಳನ್ನು ಅನುಸರಿಸಬೇಕು
೫. ಈ ಉಪತತ್ರಾಂಶವನ್ನು ಅದರ ತಪ್ಪು-ಒಪ್ಪುಗಳಿಗಾಗಿ  ಪರೀಕ್ಷಿಸಬೇಕು ಮತ್ತು ಅದನ್ನು ಉತ್ತಮ ಪಡಿಸಬೇಕು.



  ಈ ಉದಾಹರಣೆ ಕನ್ನಡ ಅಕ್ಷರಗಳಿಗೆ ಚೌಕಟ್ಟು ಹಾಕುವುದು ಮತ್ತು ಆ ಚೌಕಟ್ಟಿನೊಳಾಗಿರುಗಿರುವುದನ್ನು ಹೇಗೆ ವ್ಯಾಖ್ಯಾನಿಸಬೇಕೆಂದು ತಿಳಿಸುವ
 ಮಾದರಿ.
.

1 comment:

kalsakri said...

Sir , Installed tesseract on my ubuntu-linux, downloaded kannada-training pack, tried a kannada page.

waiting for your next write-up on how to train for kannada. ( I may search the net for the same in the meantime) Wish I can do something ....