我最近一直在研究一些数据库搜索功能,希望获得一些信息,例如每个文档的平均单词数(例如数据库中的文本字段)。到目前为止,我发现的唯一内容(没有在DB外部进行选择的语言处理)是:
SELECT AVG(LENGTH(content) - LENGTH(REPLACE(content, ' ', '')) + 1)
FROM documents
这似乎可行*,但您还有其他建议吗?我目前使用的是MySQL 4(希望很快将其迁移至该应用程序的版本5),但也对通用解决方案感兴趣。
谢谢!
*我可以想象这是确定它的一种相当粗糙的方法,因为它也没有考虑内容等中的HTML。这个特定项目可以,但是还有更好的方法吗?
更新:定义“更好”的意思是:更准确,执行效率更高或更“正确”(易于维护,良好实践等)。对于我可用的内容,上面的查询足够快并且对于该项目来说是准确的,但是将来我可能需要类似的内容(所以我问)。
猛跑小猪
HUH函数
相关分类