目前医院信息系统中临床数据存储分散、缺乏标准化、数据不完整、存在非结构化数据等问题造成临床研究者在科研实践中获取数据时存在种种困难。
医疗行业的数据呈现出多源异构的特点,这使得数据质量问题在医疗行业表现得尤为突出。尽管大数据背景下数据提取、清洗、应用技术快速发展,但是由于临床科研工作中数据需求的特殊性对数据准确率的高度要求,非结构化的数据信息利用仍然是一个难题。如何将电子病历中的非结构化数据转化成为机器可以识别的结构化数据,是在临床科研中发挥大数据分析效能、促进机器学习方法在临床科研中应用的数据基础。
为此,聚粤医疗通过自主研发,上线了医学文本结构化处理软件,通过NLP(自然语言处理)技术,将描述性的临床数据转换成结构化的数据,提升数据的可用性,提高临床科研的效率和临床数据的质量。