任务一:企业内部编码规范参考
https://max.book118.com/html/2020/1120/8077006051003017.shtm
任务二:《数学之美》阅读
读《数学之美》第二章:自然语言处理从规则到统计的启示
在阅读吴军博士《数学之美》第二章后,我对自然语言处理(NLP)的发展历程有了深刻的认识。这一章生动描绘了NLP从基于规则的方法到基于统计方法的演变,揭示了数学在解决复杂问题中的核心作用。
早期的自然语言处理研究主要依赖于规则系统,科学家们试图通过编写语法规则和语义规则让计算机理解人类语言。然而,语言的多义性和上下文依赖性使得这种方法面临巨大困难。例如,句子“The box is in the pen”中的“pen”依据上下文应理解为“围栏”而非“钢笔”,这种歧义性使得基于规则的系统需要构建庞大的语法分析树,计算效率低下且难以扩展。
直到20世纪70年代,统计语言学的兴起为自然语言处理带来了突破。贾里尼克(Frederick Jelinek)等科学家通过统计模型处理语音识别问题,开创了基于数据驱动的新方法。这种方法的核心在于使用概率模型(如马尔可夫模型)来评估语言序列的合理性,从而大幅提升了处理效率和准确性。
2005年,谷歌基于统计的翻译系统战胜基于规则的SysTran系统,标志着统计方法的全面胜利。
这一转变让我深刻体会到数学的本质是将复杂问题抽象化、简单化。通过概率和统计,计算机不必理解语言的深层规则,而是通过大量数据找到规律,从而实现高效处理。这不仅展示了数学的威力,也体现了“数据驱动”在现代科技中的重要性。
从更广阔的视角看,自然语言处理的发展历程揭示了科学进步的普遍规律:从仿生学式的模仿(如“鸟飞派”)到基于数学原理的模型,正如飞机依靠空气动力学而非模仿鸟类翅膀一样。
这一过程也提醒我们,在面对复杂问题时,勇于突破传统思维、探索新方法的重要性。
总之,《数学之美》第二章让我认识到,数学不仅是工具,更是一种思维方式,它帮助我们揭示世界的本质规律,推动技术不断向前发展。