首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Jupyter在美团民宿的应用实践

    做算法的同学对于Kaggle应该都不陌生,除了举办算法挑战赛以外,它还提供了一个学习、练习数据分析和算法开发的平台。Kaggle提供了Kaggle Kernels,方便用户进行数据分析以及经验分享。在Kaggle Kernels中,你可以Fork别人分享的结果进行复现或者进一步分析,也可以新建一个Kernel进行数据分析和算法开发。Kaggle Kernels还提供了一个配置好的环境,以及比赛的数据集,帮你从配置本地环境中解放出来。Kaggle Kernels提供给你的是一个运行在浏览器中的Jupyter,你可以在上面进行交互式的执行代码、探索数据、训练模型等等。更多关于Kaggle Kernels的使用方法可以参考 Introduction to Kaggle Kernels,这里不再多做阐述。

    02

    编译安装python

    Python(英语发音:/paθn/), 是一种面向对象、解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年,Python 源代码同样遵循 GPL(GNU General Public License)协议[1] 。Python语法简洁而清晰,具有丰富和强大的类库。它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。常见的一种应用情形是,使用Python快速生成程序的原型(有时甚至是程序的最终界面),然后对其中有特别要求的部分,用更合适的语言改写,比如3D游戏中的图形渲染模块,性能要求特别高,就可以用C/C++重写,而后封装为Python可以调用的扩展类库。需要注意的是在您使用扩展类库时可能需要考虑平台问题,某些可能不提供跨平台的实现。

    01

    Python+ipython的安装使用-

    安装思路: 1.环境准备(系统环境,相关软件); 2.编译安装;(软件编译安装); 3.启动服务; 4.测试结果。 安装开始: 一.环境准备 系统 CentOS 6.0 x64位(我这边使用的是mini版的系统,如果你不能通过网络yum的话,你可以试一下自己在本地做源,可以参照我的这篇文章: (http://ready.blog.51cto.com/507803/754125),或者说你自己单独找文献操作. Iptables,SElinux查看是否关闭(或者说允许) 软件下载地址: http://www.python.org/ftp/python/2.7.3/Python-2.7.3.tgz http://archive.ipython.org/release/0.12/ipython-0.12.tar.gz 编译安装: 我这边默认系统安装的是2.4版本的,打算升级成2.7版本 默认情况下所下载的安装包都存放在/usr/local/src目录下 上面提供的下载软件,我这边已经下载到了本地,现在直接进行编译安装了 系统依赖包的话,这边大致安装的有gcc gcc-c++ make openssl openssl-devel ,如果它有提示需要安装的包,可以根据提示进行相关包的安装。建议使用yum进程安装,它可以很好的处理依赖关系。安装开始 #cd /usr/local/src #tar zxf Python-2.7.3.tgz #cd Python-2.7.3.tgz #.configure --prefix=/usr/local/python (这个路径需要记清楚,也可以自己定义,安装个人习惯去,等待Ing........) #make && make install #ln -s /usr/local/python/bin/python /usr/bin/python(做一个软连接到/usr/bin/目录下,有的路径是在/usr/sbin目录下,这看个人习惯,或者说使用的操作系统) #python(直接命令进入python) 显示如下信息,说明安装成功: Python 2.7.3 (default, May 11 2012, 14:14:03) python安装成功,接下来是安装ipython,这个ipython核心字眼'i'字很重要,类似于个性化的定制,具体信息google,wiki里查看一下.

    01

    spark入门框架+python

    不可否认,spark是一种大数据框架,它的出现往往会有Hadoop的身影,其实Hadoop更多的可以看做是大数据的基础设施,它本身提供了HDFS文件系统用于大数据的存储,当然还提供了MR用于大数据处理,但是MR有很多自身的缺点,针对这些缺点也已经有很多其他的方法,类如针对MR编写的复杂性有了Hive,针对MR的实时性差有了流处理Strom等等,spark设计也是针对MR功能的,它并没有大数据的存储功能,只是改进了大数据的处理部分,它的最大优势就是快,因为它是基于内存的,不像MR每一个job都要和磁盘打交道,所以大大节省了时间,它的核心是RDD,里面体现了一个弹性概念意思就是说,在内存存储不下数据的时候,spark会自动的将部分数据转存到磁盘,而这个过程是对用户透明的。

    02
    领券