在单点捕捉模式下, 您只需要指定需要捕捉的点(屏幕坐标系),
GetWord每次捕捉时返回两项内容:
1. 给定捕捉点处所在行的完整字符串
2. 给定点所在处字符在整个字符串中的索引位置(zero-based)
比如,您想捕捉鼠标所在处的文字。假设屏幕上显示的文字是:"Many people use Google to search
things. Google is a great searching engine."
如果您把鼠标指针放在第二个Google的第一个'o'字符上, GetWord将返回:
1. 整个字符串: Many people use Google to search things. Google is a great
searching engine.
2. 鼠标所在处字符在整个字符串中的索引位置: 42
在我们的实例程序(您可以在这里找到示例程序,http://www.textcapture.com),
上述两项内容分别为标记为'All Text' 和'Cursor Pos' . 鼠标所在出文字是根据上述两项内容计算获得的.
一般来讲,如果您想返回给定点处的完整单词,比如,对于Google这个单词,如果希望不论鼠标指针放在其中哪个字符上,都返回完整单词Google,一般需要
一个字典,根据字典中的内容决定返回什么单词。对于某些简单的情形,可以不用字典而利用正则表达式来确定应该返回什么单词.
为了方便您的使用, GetWord SDK中提供了一个基于正则表达式的例子, 该例子位于GetWord SDK安装目录中的Sample\PlugIn_Demo\Token目录下.
在区域捕捉模式下, 您需要指定要捕捉的窗口句柄和捕捉区域(rectangle),GetWord将返回该区域内的所有文字.
有两个GetWord API函数支持区域捕捉:
GetRectString和GetRectStringPairs.
GetRectString使用GetWord内置的文本格式化器输出该区域内的所有文本。如果您想自己控制文本的输出格式(排版),或者监视某个特定子区域内的特定字符串,可以利用GetRectStringPairs函数. GetRectStringPairs返回给定区域内的所有子串以及每个字串对应的矩形位置,您可以根据每个子串的矩形位置,自己来控制输出文本的编排格式.
在选择捕捉模式下, 您需要指定要捕捉的窗口句柄,用鼠标选择要捕捉的文字后,GetWord将返回选择的所有文字.
3. PDF文字捕捉
为了支持PDF文字捕捉,您需要把GetWord库文件中的`GetWord.api' 文件拷贝到Adobe Acrobat或Acrobat
Reader的plug_ins目录下。假设Acrobat 7.0安装在C盘, 则plug_ins目录应该是"C:\Program
Files\Adobe\Acrobat 7.0\Acrobat\plug_ins".
PDF文字捕捉仅在捕捉区域内的文字在Acrobat或Acrobat
Reader中可以选中(捕捉时不需要真正选中捕捉区域内的文字)的情况下才能正常工作. 如果要捕捉的文字在Acrobat或Acrobat
Reader中不能选中,比如对于某些加密的PDF页面和交互式的PDF页面,GetWord不能正确完成捕捉.
4. 在Windows Vista运行GetWord客户端程序
在Windows Vista系统中,
您需要以管理员身份运行您的GetWord客户端程序。(Pic.3),请参考如下步骤:
1. 用鼠标右键单击您的GetWord客户端可执行程序(the main executable file).
2. 在弹出的菜单中选择"Properties".
3. 选择弹出对话框中的"Compatibility"标签.
4. 选中"Run this program as an administrator"选项, 单击"OK"按钮.
实际上,
如果您不以管理员身份运行GetWord客户端程序,对于绝大部分程序来讲,仍可以正确对其抓词。但对于那些以管理员身份运行的程序,如果不以管理员身份运行GetWord客户端程序,将不能对这些程序进行抓词。这是因为,Windows
Vista内置的保护机制禁止这样的抓词操作,在这种情况下,您必须以管理员身份运行GetWord客户端程序.
Pic.3
|
|