3D科技网3D科技网

3D科技网
提供IT业界的新鲜事、奇趣事和热门焦点,掌控最热最新的互联网新闻、科技新闻和IT业界动态。
3D科技网

AWS使Textract通常可用于从文档中提取文本

亚马逊网络服务公司周三宣布推出Textract,这是一项完全托管服务,使用机器学习自动提取文本和数据,包括表格和表格。Textract是去年AWS re:Invent会议上推出的多种人工智能工具和服务之一,不需要机器学习专业知识。

通常,公司使用光学字符识别(OCR)软件从合同,税务文件,费用报告或患者表格等文件中提取文本和数据。但是,传统的OCR技术无法识别表单和表格等常见布局。因此,它们会生成冗长且通常不准确的文本转储。

相比之下,AWS将Textract称为OCR ++服务。例如,它可以查看带有表的文档,并识别数据属于行和列。“它能够确定有一张桌子,能够为你布置那张桌子应该是什么样子,这样你就可以使用和阅读这些数据,”AWS首席执行官Andy Jassy在re:Invent中说道。

Textract的API支持多种图像格式,包括扫描,PDF和照片,客户可以将其用于数据库和分析服务,如Amazon Elasticsearch Service,Amazon DynamoDB和Amazon Athena。他们还可以将其与其他机器学习服务一起使用,例如Amazon Comprehend,Comprehend Medical,Amazon Translate或Amazon SageMaker。

使用该服务的客户已经包括The Globe and Mail,PwC,Healthfirst,UiPath,Teradact,Ripcord,BluePrism和Alfresco。

Textract现在可在美国东部(俄亥俄州)地区,美国东部(弗吉尼亚北部),美国西部(俄勒冈州)和欧盟(爱尔兰)使用。AWS将在明年将其带到其他地区。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

相关推荐